08月21日漏签0天

ati吧关注：52,083贴子：641,204

1 2 下一页尾页
107回复贴，共2页
，跳到页

RDNA3的问题再分析

经过一段时间的重测，RDNA3在Wave64模式下，可以轻松跑满理论浮点吞吐率。
之前的测试中我使用Pixel Shader测试理论吞吐率，在Wave64模式下仅仅只有5/6的理论值。
前端时间重写了测试，这次我使用Compute Shader以便控制WorkGroup和Wavefront大小。
最终发现在WorkGroup较大时，吞吐率出现了明显的下降，这种下降与Wavefront大小无关。
如下图：

通过RGP观察，我发现在使用大WorkGroup的情况下，6个SE的负载极其不均衡，其中一个SE大概在刚好过半的位置就没有了任何负载。具体原因未知。
3月份的头版驱动中，TimeSpy分数出现了大幅下滑的问题，通过RGP观察时可以发现同样的问题。
功耗问题
我稍微对比了一下AN 两张卡定功耗定电压，FMA输入寄存器数量不同时，可达到频率与吞吐率

可以看到，RDNA3对于寄存器数量的非常敏感，在使用三个寄存器时，即便SIMD远远无法满负载工作，依然只能跑到相对比较低的频率，这时候寄存器功耗我想应该是占了大头中的大头。而反观Ampere，这时候时它频率能boost到最高的时候，说明对于Ampere来说SIMD的功耗才是大头。但一般来说SIMD的设计其实都比较类似，功耗区别不会太大。
基本而言RDNA3的能耗比劣势就是寄存器功耗导致的

请问一下关于频率的问题：难上3.0G的仅仅是功耗原因吗？

不感兴趣

开通SVIP免广告

跑满又如何，这边6se，nv就出7se的4080，就算把那六分之一补出来，那么结果无非就是4080变成8se了。
navi32的4se直接被5se的4070ti压得死死的，发出来叫7800xt直接吃大亏。随便怎么优化，哪怕直接提升20%，公公无非就是把60cu的ad104换成72cu的ad104。

常规work group顶多也就256线程，反而是64这个最常用的吞吐问题比较大

所以7900xtx降功耗，比如降到280-300w会导致某些场景性能断崖式下跌吗？

其实只有一个问题，通过驱动更新能吧问题挽回多少？

就是说，rdna3硬件设计问题。驱动也救不了

所以7900xt和4070ti同价格的情况下还是选4070ti比较好吗

不感兴趣

开通SVIP免广告

感觉rdna3发射端，指令分派端不足，多发射就只能搞了个vliw2，要是搞硬件多发射晶体管，面积，功耗要爆表

补充一下目前我测试过的一些卡在不同输入时MAD指令的效率，满效率为1

大神请问rdna3的浮点性能究竟要折扣多少

吧主现在对RDNA4会怎么改进有想法吗

四个SIMD16，GCN既视感

应该是设计师想水一代架构吧，以前一代架构修修补补可以出好几代显卡，现在节奏太快，不利于休假，现在虽然没有达到设计目标，但是介于显存拖核心后腿，也不是不能用。8000系把bug修复加点寄存器加点缓存又是一代。

不感兴趣

开通SVIP免广告

安培整数运算浮点，理论fp32丝毫未损失，rdna3只能只有单发

扫二维码下载贴吧客户端

下载贴吧APP
看高清直播、视频！

1 2 下一页尾页
107回复贴，共2页
，跳到页

分享到: