③shader性能改进。听说64cu超冒烟都赶不上96cu?那谁来告诉我,40cu的5700xt是怎么打过64cu vega64的?
9070xt的主要性能源自频率改进。工艺从5nm到4nm,降低功耗,本来就可以带来更高的频率空间。然后7900xtx是chiplet设计,芯片之间的连接、接口,这都会消耗电能,单芯片则没有这些弊端。由于延迟更低,9070xt的if缓存也不需要运行在那么高的频率以减少延迟(RDNA3 “eliminate this latancy with higher clock rates”)。

更不用说7900xtx缓存部分是6nm工艺,从5nm+6nm的chiplet,到4nm的单芯片,甚至可以说等于提升了半代工艺。
如果将64cu的9070xt和60cu的7800xt比,7800xt实际平均频率在2400左右,而9070xt很可能来到了3000左右甚至更高,仅仅频率就提升25%。由于①已经提到rdna4解决了带宽瓶颈,这25%频率可以认为是线性提升。
光这样性能提升还不够,rdna4的每个计算单元还有ipc提升。computerbase曾经测试过相同cu的rdna2 vs rdna3,结果是rdna3每个cu平均仅仅提升5%左右,在一些游戏里甚至会有所倒退,简直翻车到了姥姥家。

因为rdna3浮点翻倍对指令、寄存器要求极其苛刻,很多时候可能跑不出这种效率。rdna3的if缓存容量更低,延迟高,又没有tbimr,其实是存在很大的带宽瓶颈的,这进一步制约了浮点翻倍带来的性能提升。
而这些因素在rdna4上很可能都得到了充分解决,特别是带宽。
安培对图灵,由于浮点翻倍,相同sm性能提升了30%以上(68sm,3080比2080ti强31%)。

rdna4相比rdna3,ipc提升10%并不算离谱。
然后呢?9070xt是4个shader engine(4×16cu),7800xt是3个%(3×20cu)。64cu对比60cu,虽然只多了区区4cu,但也会带来微弱的性能提升。rdna3.5翻倍了纹理采样率(2x texture sampler rate),rdna4没道理不继承过来吧?这几样加起来,也差不多能带来10%的性能提升。

以上几个因素叠加,1.25×1.1×1.1=1.5125,都有50%了,所以说9070xt比7800xt强40-50%不过分。我看了下hardware unboxed的5070ti测试,在3840×2160分辨率下找到7800xt

7800xt=53,53×1.5=?