RDNA2架构解析

谁看得懂图可以来谈谈

原图发一次

不感兴趣

开通SVIP免广告

图上一组WGP集群有7组WGP，一组WGP有2组CU，一组CU有32个Vector

纠正一下，一个CU有2*32个Vector

一个CU有2个ScalarUnit，56个CU总计有112个Scalar Unit

scalar unit标量单元
vector ALU矢量算术逻辑单元

一个CU内有一个光线加速器

不感兴趣

开通SVIP免广告

上图，画的是一个wgp簇，也就是cu簇，又叫shader array。一个簇里有7个workgroup（2cu组成一个wgp），所以一个sa里有14cu。
xsx里有4个sa，所以完整的GPU是56cu。在其中两个sa，各屏蔽一组wgp作为冗余单元，这样就少了4cu，即52cu。
整体看宏观规模和navi10差不多，就是navi10每个sa多塞了两组wgp

cu内部看起来和rdna1区别不大。一个cu里有两组宽度为32的simd单元，包含32alu和一个special function unit，可以组合进行各种运算。我记得navi白皮书讲了如何实现fp16、fp64、int8等计算方式。和老黄的cudacore比，农企的alu更全能一点。老黄要实现半速fp64，需要按比例额外添置fp64单元（不然会很慢很慢），这体现了两者设计思路不同。sfu用来计算超越函数，老黄的SM里也有类似单元

图2是一个wgp里的两个计算单元compute unit，也就是cu。图里展开详细画了其中一个。相比以前的gcn 宽度16的4组simd，navi的cu变成了宽度32的2组simd。对AMD GPU来说，一个线程束wavefront最小包含64个指令，在gcn里，一个simd一个周期只能运行其中16个，得用4个周期跑完，然后一组cu里4个simd可以同时跑4个wavefront，同时依靠寄存器还可以维持一定数量的额外线程。在navi的cu里，wavefront有32和64两种模式，而且一个wavefront64可以在一个周期跑完。scalar unit直译是标量单元，具体含义是，能批量操作的指令叫做向量指令，这种可以在向量单元里执行，也就是那两组simd32。不能批量操作的就是标量指令了，这个用simd32执行，相当于32个alu只有一个在工作，那效率就太差劲了。scalar unit可以单独应付这些标量指令，每组simd各设置一个，一个cu里就是两个。
ray accelerator就是光追单元了，根据微软说法一个时钟可以执行4次光线操作，估计是遍历、三角形、多边形检测、碰撞检测之类的，这个不知道nvidia那边对rt core计算能力的具体定义，所以就没办法横向比较了。
纹理也是每cu每时钟4操作，所以52cu就是有208个纹理单元

目前暂时没看到除了加入光线追踪单元以外，rdna2相比1变化明显的东西，所以农企倒闭不可避，坐等3060秒全家，690收6900xt

有人会觉得，既然一个wavefront是64条指令，那我干脆把simd宽度做成64不就得了，干嘛切成32甚至16，而且为什么要他分好几个周期执行。其实这是为了减少延迟。
GPU在一秒内可以执行大量的并行运算，数据计算量极其庞大。如果仅依赖缓存的话，延迟会非常高。所以这就要我们在每个simd那里，设置大量寄存器，记住多条wavefront的状态，并且能做到随时切换。某个线程的一个周期跑完，立刻换这个线程或者别的线程下一个周期上场。计算单元记住wavefront状态的数量，就叫做维持的线程数量，GPU里的计算单元正是依靠维持多个线程，快速切换，掩盖延迟。
这就好像你玩射击游戏，身上要背好几条弹夹，这样你就不用老往弹药库跑，也不用一发一发上子弹了。
容易看出来，弹夹也不是越长越好的，太长的话，比如一个突击步枪弹匣整到100发，那人都扛不动枪了。同样simd宽度太宽的话，会消耗大量晶体管用作寄存器，那妥妥的核弹。
在rdna1，每个simd32可以维持20个线程，在rdna2则是16个。相当于原来带20个弹夹，现在只带16个了，这是目前唯一明确的rdna2 cu的改动

不太妙
但这个coreteks感觉不靠谱他还说big navi会有8G版本

不感兴趣

开通SVIP免广告

https://tieba.baidu.com/p/6163015525
https://tieba.baidu.com/p/6164007643
配合着看

扫二维码下载贴吧客户端

下载贴吧APP
看高清直播、视频！

1 2 下一页尾页
91回复贴，共2页
，跳到页

<<返回ati吧

分享到:

日	一	二	三	四	五	六