amd吧 关注:793,175贴子:18,237,550

【长文】9070XT 2月28日发布前的性能分析

只看楼主收藏回复

粗暴结论:300W时,9070xt光栅性能略弱于7900xtx,差距在5-10%以内,重载光追游戏(黑猴,2077)大幅领先7900xtx。光栅7900xtx、4080(s)、5070ti基本处于同一档次。
等2月28号发布,或者3月6号正式解禁后可以来挖坟。
还在认为256bit 4k有瓶颈的,64cu和96cu差距很大的,觉得9070xt只有7900xt性能甚至不到的,都低估了AMD这一代的架构改进。


IP属地:江苏1楼2025-02-20 20:57回复
    目前RDNA4已经确定的改进:
    ①带宽改进。早在遥远的2017年,vega的ppt上就宣传过dsbr,这是一种类似tbimr的渲染技术,但由于存在bug一直没有启用,这一拖就拖过了rdna123。到了rdna3.5,终于实装了tbimr,也就是幻灯片上所说的,primitive batch processing to reduce memory accesses
    它吸取了tbr、imr两种渲染方式的优点,将屏幕划分为小图块分块光栅化,充分利用GPU片上缓存,大幅节约了带宽。rdna4采用这个改进自然是水到渠成。


    此外,rdna4是单片式设计,相比7900xtx,减少了chiplet芯片间的延迟和传输瓶颈。色彩压缩也进一步改进(better compression techniques)。这使得256bit并不会成为瓶颈,正如5700xt性能直逼vii那样。还在看带宽来认性能的人不妨去购买furyx或者vii,毕竟500块的fury x有4096sp 512gb/s带宽性价比爆棚。mlid泄露的AMD内部ppt,是直接用4k而不是2k分辨率比较7900xtx、7900xt、4080的,如果4k性能下降严重,AMD不会如此自信。


    IP属地:江苏2楼2025-02-20 21:02
    收起回复
      4080这个分数区间真是竞争激烈。。。


      IP属地:山东来自Android客户端3楼2025-02-20 21:04
      收起回复
        ②光线追踪改进。之前rdna2、3光追性能表现不行,原因是A卡光线追踪里的bvh遍历是用cu跑的(shader based traversal),用shader跑bvh除了效率低以外,还会占用着色器资源。
        根据AMD的ppt分析,光线追踪中绝大部分瓶颈都在遍历上

        这里科普一下,光线追踪最吃性能的部分有三个:bvh遍历,光线求交,着色降噪。所有的GPU都在用shader跑着色降噪,所以不谈了。rdna2之前的a卡、图灵之前的n卡,光线遍历和光线求交也是用shader跑,它们跑dxr光追的性能约等于0,基本就算是不支持光追。rdna2引入了光追加速器,但里面只有光线求交单元,缺少硬件遍历单元,而采用shader跑bvh遍历,rdna3也仅仅加入了一些遍历指令(ray flags等),但依然是用shader来运行遍历,这就注定性能提升很有限。
        而rdna4光追加速器里加入了硬件遍历单元,直接让shader从光追遍历中解脱,这可以大幅提升光追性能。这样一来,ani三家的光追单元将不会有本质区别。之前chh泄露的9070xt测试,赛博朋克2077光追最高(比路径追踪低一档) 9070xt已经有4070ti s的水平,稍弱于4080s,相比之下7900xtx甚至还不到4070ti。

        由于rdna4彻底补完了光追单元缺失的部分,这导致光线追踪特效用的越多,9070xt和7900xtx差距就会越大,在路径追踪游戏里9070xt领先7900xtx一倍甚至数倍也不是不可能。
        当然空谈领先没有意义,路径追踪游戏4k直接跑,是可以让5090变成幻灯片的东西,10帧领先2帧500%那又有什么用呢?所以路径追踪游戏深度绑定帧生成技术和超分辨率技术,那就绝对绕不开dlss或者fsr。
        而说到fsr4,这又是rdna4的领先优势。fsr4的模型基于fp8,rdna4对fp8增加了wmma支持,在rdna3上运行需要一些修改,也就是它是有可能下放到rdna3的,rdna2则不太可能。


        IP属地:江苏4楼2025-02-20 21:06
        回复
          ③shader性能改进。听说64cu超冒烟都赶不上96cu?那谁来告诉我,40cu的5700xt是怎么打过64cu vega64的?
          9070xt的主要性能源自频率改进。工艺从5nm到4nm,降低功耗,本来就可以带来更高的频率空间。然后7900xtx是chiplet设计,芯片之间的连接、接口,这都会消耗电能,单芯片则没有这些弊端。由于延迟更低,9070xt的if缓存也不需要运行在那么高的频率以减少延迟(RDNA3 “eliminate this latancy with higher clock rates”)。

          更不用说7900xtx缓存部分是6nm工艺,从5nm+6nm的chiplet,到4nm的单芯片,甚至可以说等于提升了半代工艺。
          如果将64cu的9070xt和60cu的7800xt比,7800xt实际平均频率在2400左右,而9070xt很可能来到了3000左右甚至更高,仅仅频率就提升25%。由于①已经提到rdna4解决了带宽瓶颈,这25%频率可以认为是线性提升。
          光这样性能提升还不够,rdna4的每个计算单元还有ipc提升。computerbase曾经测试过相同cu的rdna2 vs rdna3,结果是rdna3每个cu平均仅仅提升5%左右,在一些游戏里甚至会有所倒退,简直翻车到了姥姥家。

          因为rdna3浮点翻倍对指令、寄存器要求极其苛刻,很多时候可能跑不出这种效率。rdna3的if缓存容量更低,延迟高,又没有tbimr,其实是存在很大的带宽瓶颈的,这进一步制约了浮点翻倍带来的性能提升。
          而这些因素在rdna4上很可能都得到了充分解决,特别是带宽。
          安培对图灵,由于浮点翻倍,相同sm性能提升了30%以上(68sm,3080比2080ti强31%)。

          rdna4相比rdna3,ipc提升10%并不算离谱。
          然后呢?9070xt是4个shader engine(4×16cu),7800xt是3个%(3×20cu)。64cu对比60cu,虽然只多了区区4cu,但也会带来微弱的性能提升。rdna3.5翻倍了纹理采样率(2x texture sampler rate),rdna4没道理不继承过来吧?这几样加起来,也差不多能带来10%的性能提升。

          以上几个因素叠加,1.25×1.1×1.1=1.5125,都有50%了,所以说9070xt比7800xt强40-50%不过分。我看了下hardware unboxed的5070ti测试,在3840×2160分辨率下找到7800xt

          7800xt=53,53×1.5=?


          IP属地:江苏5楼2025-02-20 21:11
          回复
            永远不要低估架构改进的力量,rdna4根本不是rdna3的小改款,而是自上而下的革新。rdna3到rdna4,架构的改变甚至比123每一代更迭都要大。在我看来,这一代其实应该叫udna0,它是2027年udna架构的序章。
            64cu 256bit的9070xt,性能十分接近7900xtx而不是7900xt,这点已经被几个消息源互相印证。
            首先是mlid的amd内部ppt,上面展示了9070xt、9070对比7900xtx、7900xt、4080的性能。4k分辨率下,7900xt、9070xt、7900xtx分别是85.3%、93%、100%性能。注意这个ppt大概率是2024年11月期间的,9070xt那时整卡功耗可能是265w左右,非常保守。300w下,可以再提升几个百分点的性能。



            其次是某位贴吧老哥爆料的9070xt性能约等于4080s 95%,这个消息甚至在2024年11月就有了,和mlid的ppt也能对应上。这位老哥曾经准确爆料过zen5的ipc提升和其他很多信息,就一个字靠谱。
            再其次,就是轮子偷跑300w 9070xt光栅略弱于4080s,光追等于4070ti s,tse14500。其实这性能已经不算差,不过据说此版9070xt驱动还存在问题,最终还能再提升一点点。

            总而言之,9070xt光栅性能大概率和4080、7900xtx、5070ti在同一档次,这个信息已经得到了多个消息源、从ppt到实测的交叉印证,根本无需质疑。现在还在嘴硬64cu摸不到96cu,9070xt只有7900xt甚至7900gre性能的,也就剩下最多半个月嘴硬的时间。
            用常识思考一下,300w的9070xt如果性能打不过315w 7900xt,那意味着4nm rdna4相比5nm+6nm chiplet的rdna3,能耗比几乎毫无进步甚至倒吸了。AMD这么多年做出来的显卡可能翻过车,可能性能不如预期,但从来没有说换了工艺,每瓦性能不如上代的,哪怕vega64或者rx590都没有。


            IP属地:江苏6楼2025-02-20 21:12
            回复
              有人说,既然64cu就能做到上代96cu的性能,为什么不做更大的核心。我认为原因有二。
              首先,下一代gpu将一统rdna和cdna,计算卡和游戏卡截然不同的架构即将画上句号。新架构研发将消耗大量人力,再搞一个大核心没那么多精力了。rdna4放弃高端应该是2023年就传出来的的新闻,差不多是udna开始研发的时候。
              其次,AMD对nv的blackwell GPU存在错误估计。还记得之前blackwell吹的震天响的牛b吗?“blackwell核心轻松3.5ghz”,“5080比4090强10%”,如果这些传闻是真的,blackwell每瓦性能提升很可能在25%甚至更高(400w 1.1倍4090 vs 450w 4090,每瓦性能提升24%)。而且AMD通过评估分析自己的rdna4,也会得出这样的结论:如果rdna4这一代能耗比提升20%多,那nv也没理由做不到。
              如果blackwell这一代每瓦性能提升25%,那将意味着250w的5070可以拥有4080级别的性能,5070可是一个核心面积不到300、位宽只有192bit的小核心。反观9070xt,是一个面积350(甚至更大)、256bit的核心,从成本到功耗,9070xt都全面处于劣势,这种情况下,做大核心只有更加赔本。就好比rx480 50多亿晶体管, 150w甚至180w,才能和40多亿晶体管,120w的1060过过招,那再往上更大的核心只会更垃圾,事实也是如此,vega64成了狗屎中的狗屎。
              所以AMD干脆彻底放弃高端。
              当然,实际blackwell一出来,大家发现blackwell这代简直是疯狂窜稀,能耗比原地踏步。90先窜,80随后,而且先窜带动后窜,最终达到共同窜稀。5080从发布前吊打4090 10%,到解禁后吊打4080s 10%,窜稀度达30%。5070ti 5070等小弟苦不堪言。5070打9070xt成了比当年“3070推迟发布狙击navi21”更好笑的硬件笑话。
              AMD现在肯定在后悔,为什么不做一个96cu的rdna4?即使每瓦性能只有rdna3的程度,即使多50%cu只比9070xt强30%,也足以在460w达到4090级别的性能,可以直插nv 5080到5090之间巨大的性能空档。在5080溢价上天的情况下,n4c可以在9000价位活得好好的,彻底重演4870的局面。可惜没有如果,时间不能回头,这个遗憾只有udna来弥补。


              IP属地:江苏7楼2025-02-20 21:13
              收起回复
                没人关注性能,只关乎价格。同价位不比n卡低个30%谁买呀?


                IP属地:浙江来自Android客户端8楼2025-02-20 21:16
                收起回复
                  承你吉言,我也希望9070xt很强,因为我真的在等他。我唯一质疑的点是,如果9070xt这么强,4000流处理器就这么强,它为啥不做高端,弄个6000流处理器显存24g的,高端何尝没有一战之力?


                  IP属地:江苏来自Android客户端9楼2025-02-20 21:33
                  收起回复
                    那不得卖7000


                    IP属地:重庆来自Android客户端10楼2025-02-20 21:42
                    收起回复
                      性能从各种渠道泄露来看,问题不大,关键是价格吧。。。
                      另外,要是像隔壁nv那样,mspr拿来当牌坊,js各种加价,那就更没意义了。


                      IP属地:福建11楼2025-02-20 21:48
                      收起回复
                        没鸟用,AMD没有那种大炮打蚊子的心气。 要不先堆个120cu再慢慢改进会是这个样?


                        IP属地:广西来自Android客户端12楼2025-02-20 22:22
                        回复
                          16G显存就注定重度画质党很难用,2K还好,4k一炸显存就是另一个故事了。这卡不跟xtx一个赛道,站在2K角度上是一张完美卡,4k这16G显存你要说不是故意的打死我都不信


                          IP属地:河南来自Android客户端13楼2025-02-20 22:32
                          收起回复
                            有N卡在 不缺性能好的卡,缺的是性价比高的 比xt强就比XT贵 比xtx强 就比xtx贵 一句话 比谁强就比谁贵


                            IP属地:上海来自Android客户端14楼2025-02-20 22:44
                            收起回复


                              IP属地:广东来自Android客户端15楼2025-02-20 22:54
                              回复