【图片】【长文】9070XT 2月28日发布前的性能分析【amd吧】

粗暴结论：300W时，9070xt光栅性能略弱于7900xtx，差距在5-10%以内，重载光追游戏（黑猴，2077）大幅领先7900xtx。光栅7900xtx、4080（s）、5070ti基本处于同一档次。
等2月28号发布，或者3月6号正式解禁后可以来挖坟。
还在认为256bit 4k有瓶颈的，64cu和96cu差距很大的，觉得9070xt只有7900xt性能甚至不到的，都低估了AMD这一代的架构改进。

送TA礼物

IP属地:江苏

1楼2025-02-20 20:57回复

目前RDNA4已经确定的改进：
①带宽改进。早在遥远的2017年，vega的ppt上就宣传过dsbr，这是一种类似tbimr的渲染技术，但由于存在bug一直没有启用，这一拖就拖过了rdna123。到了rdna3.5，终于实装了tbimr，也就是幻灯片上所说的，primitive batch processing to reduce memory accesses
它吸取了tbr、imr两种渲染方式的优点，将屏幕划分为小图块分块光栅化，充分利用GPU片上缓存，大幅节约了带宽。rdna4采用这个改进自然是水到渠成。

此外，rdna4是单片式设计，相比7900xtx，减少了chiplet芯片间的延迟和传输瓶颈。色彩压缩也进一步改进（better compression techniques）。这使得256bit并不会成为瓶颈，正如5700xt性能直逼vii那样。还在看带宽来认性能的人不妨去购买furyx或者vii，毕竟500块的fury x有4096sp 512gb/s带宽性价比爆棚。mlid泄露的AMD内部ppt，是直接用4k而不是2k分辨率比较7900xtx、7900xt、4080的，如果4k性能下降严重，AMD不会如此自信。

IP属地:江苏

2楼2025-02-20 21:02

收起回复

4080这个分数区间真是竞争激烈。。。

IP属地:山东

来自Android客户端3楼2025-02-20 21:04

收起回复

②光线追踪改进。之前rdna2、3光追性能表现不行，原因是A卡光线追踪里的bvh遍历是用cu跑的(shader based traversal)，用shader跑bvh除了效率低以外，还会占用着色器资源。
根据AMD的ppt分析，光线追踪中绝大部分瓶颈都在遍历上

这里科普一下，光线追踪最吃性能的部分有三个：bvh遍历，光线求交，着色降噪。所有的GPU都在用shader跑着色降噪，所以不谈了。rdna2之前的a卡、图灵之前的n卡，光线遍历和光线求交也是用shader跑，它们跑dxr光追的性能约等于0，基本就算是不支持光追。rdna2引入了光追加速器，但里面只有光线求交单元，缺少硬件遍历单元，而采用shader跑bvh遍历，rdna3也仅仅加入了一些遍历指令（ray flags等），但依然是用shader来运行遍历，这就注定性能提升很有限。
而rdna4光追加速器里加入了硬件遍历单元，直接让shader从光追遍历中解脱，这可以大幅提升光追性能。这样一来，ani三家的光追单元将不会有本质区别。之前chh泄露的9070xt测试，赛博朋克2077光追最高（比路径追踪低一档） 9070xt已经有4070ti s的水平，稍弱于4080s，相比之下7900xtx甚至还不到4070ti。

由于rdna4彻底补完了光追单元缺失的部分，这导致光线追踪特效用的越多，9070xt和7900xtx差距就会越大，在路径追踪游戏里9070xt领先7900xtx一倍甚至数倍也不是不可能。
当然空谈领先没有意义，路径追踪游戏4k直接跑，是可以让5090变成幻灯片的东西，10帧领先2帧500%那又有什么用呢？所以路径追踪游戏深度绑定帧生成技术和超分辨率技术，那就绝对绕不开dlss或者fsr。
而说到fsr4，这又是rdna4的领先优势。fsr4的模型基于fp8，rdna4对fp8增加了wmma支持，在rdna3上运行需要一些修改，也就是它是有可能下放到rdna3的，rdna2则不太可能。

IP属地:江苏

4楼2025-02-20 21:06

③shader性能改进。听说64cu超冒烟都赶不上96cu？那谁来告诉我，40cu的5700xt是怎么打过64cu vega64的？
9070xt的主要性能源自频率改进。工艺从5nm到4nm，降低功耗，本来就可以带来更高的频率空间。然后7900xtx是chiplet设计，芯片之间的连接、接口，这都会消耗电能，单芯片则没有这些弊端。由于延迟更低，9070xt的if缓存也不需要运行在那么高的频率以减少延迟（RDNA3 “eliminate this latancy with higher clock rates”）。

更不用说7900xtx缓存部分是6nm工艺，从5nm+6nm的chiplet，到4nm的单芯片，甚至可以说等于提升了半代工艺。
如果将64cu的9070xt和60cu的7800xt比，7800xt实际平均频率在2400左右，而9070xt很可能来到了3000左右甚至更高，仅仅频率就提升25%。由于①已经提到rdna4解决了带宽瓶颈，这25%频率可以认为是线性提升。
光这样性能提升还不够，rdna4的每个计算单元还有ipc提升。computerbase曾经测试过相同cu的rdna2 vs rdna3，结果是rdna3每个cu平均仅仅提升5%左右，在一些游戏里甚至会有所倒退，简直翻车到了姥姥家。

因为rdna3浮点翻倍对指令、寄存器要求极其苛刻，很多时候可能跑不出这种效率。rdna3的if缓存容量更低，延迟高，又没有tbimr，其实是存在很大的带宽瓶颈的，这进一步制约了浮点翻倍带来的性能提升。
而这些因素在rdna4上很可能都得到了充分解决，特别是带宽。
安培对图灵，由于浮点翻倍，相同sm性能提升了30%以上（68sm，3080比2080ti强31%）。

rdna4相比rdna3，ipc提升10%并不算离谱。
然后呢？9070xt是4个shader engine（4×16cu），7800xt是3个%（3×20cu）。64cu对比60cu，虽然只多了区区4cu，但也会带来微弱的性能提升。rdna3.5翻倍了纹理采样率（2x texture sampler rate），rdna4没道理不继承过来吧？这几样加起来，也差不多能带来10%的性能提升。

以上几个因素叠加，1.25×1.1×1.1=1.5125，都有50%了，所以说9070xt比7800xt强40-50%不过分。我看了下hardware unboxed的5070ti测试，在3840×2160分辨率下找到7800xt

7800xt=53，53×1.5=？

IP属地:江苏

5楼2025-02-20 21:11

永远不要低估架构改进的力量，rdna4根本不是rdna3的小改款，而是自上而下的革新。rdna3到rdna4，架构的改变甚至比123每一代更迭都要大。在我看来，这一代其实应该叫udna0，它是2027年udna架构的序章。
64cu 256bit的9070xt，性能十分接近7900xtx而不是7900xt，这点已经被几个消息源互相印证。
首先是mlid的amd内部ppt，上面展示了9070xt、9070对比7900xtx、7900xt、4080的性能。4k分辨率下，7900xt、9070xt、7900xtx分别是85.3%、93%、100%性能。注意这个ppt大概率是2024年11月期间的，9070xt那时整卡功耗可能是265w左右，非常保守。300w下，可以再提升几个百分点的性能。

其次是某位贴吧老哥爆料的9070xt性能约等于4080s 95%，这个消息甚至在2024年11月就有了，和mlid的ppt也能对应上。这位老哥曾经准确爆料过zen5的ipc提升和其他很多信息，就一个字靠谱。
再其次，就是轮子偷跑300w 9070xt光栅略弱于4080s，光追等于4070ti s，tse14500。其实这性能已经不算差，不过据说此版9070xt驱动还存在问题，最终还能再提升一点点。

总而言之，9070xt光栅性能大概率和4080、7900xtx、5070ti在同一档次，这个信息已经得到了多个消息源、从ppt到实测的交叉印证，根本无需质疑。现在还在嘴硬64cu摸不到96cu，9070xt只有7900xt甚至7900gre性能的，也就剩下最多半个月嘴硬的时间。
用常识思考一下，300w的9070xt如果性能打不过315w 7900xt，那意味着4nm rdna4相比5nm+6nm chiplet的rdna3，能耗比几乎毫无进步甚至倒吸了。AMD这么多年做出来的显卡可能翻过车，可能性能不如预期，但从来没有说换了工艺，每瓦性能不如上代的，哪怕vega64或者rx590都没有。

IP属地:江苏

6楼2025-02-20 21:12

有人说，既然64cu就能做到上代96cu的性能，为什么不做更大的核心。我认为原因有二。
首先，下一代gpu将一统rdna和cdna，计算卡和游戏卡截然不同的架构即将画上句号。新架构研发将消耗大量人力，再搞一个大核心没那么多精力了。rdna4放弃高端应该是2023年就传出来的的新闻，差不多是udna开始研发的时候。
其次，AMD对nv的blackwell GPU存在错误估计。还记得之前blackwell吹的震天响的牛b吗？“blackwell核心轻松3.5ghz”，“5080比4090强10%”，如果这些传闻是真的，blackwell每瓦性能提升很可能在25%甚至更高（400w 1.1倍4090 vs 450w 4090，每瓦性能提升24%）。而且AMD通过评估分析自己的rdna4，也会得出这样的结论：如果rdna4这一代能耗比提升20%多，那nv也没理由做不到。
如果blackwell这一代每瓦性能提升25%，那将意味着250w的5070可以拥有4080级别的性能，5070可是一个核心面积不到300、位宽只有192bit的小核心。反观9070xt，是一个面积350（甚至更大）、256bit的核心，从成本到功耗，9070xt都全面处于劣势，这种情况下，做大核心只有更加赔本。就好比rx480 50多亿晶体管， 150w甚至180w，才能和40多亿晶体管，120w的1060过过招，那再往上更大的核心只会更垃圾，事实也是如此，vega64成了狗屎中的狗屎。
所以AMD干脆彻底放弃高端。
当然，实际blackwell一出来，大家发现blackwell这代简直是疯狂窜稀，能耗比原地踏步。90先窜，80随后，而且先窜带动后窜，最终达到共同窜稀。5080从发布前吊打4090 10%，到解禁后吊打4080s 10%，窜稀度达30%。5070ti 5070等小弟苦不堪言。5070打9070xt成了比当年“3070推迟发布狙击navi21”更好笑的硬件笑话。
AMD现在肯定在后悔，为什么不做一个96cu的rdna4？即使每瓦性能只有rdna3的程度，即使多50%cu只比9070xt强30%，也足以在460w达到4090级别的性能，可以直插nv 5080到5090之间巨大的性能空档。在5080溢价上天的情况下，n4c可以在9000价位活得好好的，彻底重演4870的局面。可惜没有如果，时间不能回头，这个遗憾只有udna来弥补。

IP属地:江苏

7楼2025-02-20 21:13

收起回复

没人关注性能，只关乎价格。同价位不比n卡低个30%谁买呀？

IP属地:浙江

来自Android客户端8楼2025-02-20 21:16

收起回复

承你吉言，我也希望9070xt很强，因为我真的在等他。我唯一质疑的点是，如果9070xt这么强，4000流处理器就这么强，它为啥不做高端，弄个6000流处理器显存24g的，高端何尝没有一战之力？

IP属地:江苏

来自Android客户端9楼2025-02-20 21:33

收起回复

那不得卖7000

IP属地:重庆

来自Android客户端10楼2025-02-20 21:42

收起回复

性能从各种渠道泄露来看，问题不大，关键是价格吧。。。

另外，要是像隔壁nv那样，mspr拿来当牌坊，js各种加价，那就更没意义了。

IP属地:福建

11楼2025-02-20 21:48

收起回复

没鸟用，AMD没有那种大炮打蚊子的心气。要不先堆个120cu再慢慢改进会是这个样？

IP属地:广西

来自Android客户端12楼2025-02-20 22:22

16G显存就注定重度画质党很难用，2K还好，4k一炸显存就是另一个故事了。这卡不跟xtx一个赛道，站在2K角度上是一张完美卡，4k这16G显存你要说不是故意的打死我都不信

IP属地:河南

来自Android客户端13楼2025-02-20 22:32

收起回复

有N卡在不缺性能好的卡，缺的是性价比高的比xt强就比XT贵比xtx强就比xtx贵一句话比谁强就比谁贵

IP属地:上海

来自Android客户端14楼2025-02-20 22:44

收起回复

IP属地:广东

来自Android客户端15楼2025-02-20 22:54

日	一	二	三	四	五	六

【长文】9070XT 2月28日发布前的性能分析

登录百度账号

扫二维码下载贴吧客户端