网页资讯视频图片知道文库贴吧地图采购
进入贴吧全吧搜索

 
 
 
日一二三四五六
       
       
       
       
       
       

签到排名:今日本吧第个签到,

本吧因你更精彩,明天继续来努力!

本吧签到人数:0

一键签到
成为超级会员,使用一键签到
一键签到
本月漏签0次!
0
成为超级会员,赠送8张补签卡
如何使用?
点击日历上漏签日期,即可进行补签。
连续签到:天  累计签到:天
0
超级会员单次开通12个月以上,赠送连续签到卡3张
使用连续签到卡
08月27日漏签0天
ati吧 关注:52,087贴子:641,073
  • 看贴

  • 图片

  • 吧主推荐

  • 视频

  • 游戏

  • 1 2 下一页 尾页
  • 91回复贴,共2页
  • ,跳到 页  
<<返回ati吧
>0< 加载中...

RDNA2架构解析

  • 只看楼主
  • 收藏

  • 回复
  • 145721767XS
  • x1950xtx
    9
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
谁看得懂图可以来谈谈


  • 145721767XS
  • x1950xtx
    9
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
原图发一次


2025-08-27 10:56:52
广告
不感兴趣
开通SVIP免广告
  • 145721767XS
  • x1950xtx
    9
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
图上一组WGP集群有7组WGP,一组WGP有2组CU,一组CU有32个Vector


  • 145721767XS
  • x1950xtx
    9
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼


  • 145721767XS
  • x1950xtx
    9
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
纠正一下,一个CU有2*32个Vector


  • 145721767XS
  • x1950xtx
    9
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
一个CU有2个ScalarUnit,56个CU总计有112个Scalar Unit


  • 145721767XS
  • x1950xtx
    9
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
scalar unit标量单元
vector ALU矢量算术逻辑单元


  • 145721767XS
  • x1950xtx
    9
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
一个CU内有一个光线加速器


2025-08-27 10:50:52
广告
不感兴趣
开通SVIP免广告
  • nv装机大神之抚琴
  • 小吧主
    11
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
上图,画的是一个wgp簇,也就是cu簇,又叫shader array。一个簇里有7个workgroup(2cu组成一个wgp),所以一个sa里有14cu。
xsx里有4个sa,所以完整的GPU是56cu。在其中两个sa,各屏蔽一组wgp作为冗余单元,这样就少了4cu,即52cu。
整体看宏观规模和navi10差不多,就是navi10每个sa多塞了两组wgp


  • nv装机大神之抚琴
  • 小吧主
    11
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
cu内部看起来和rdna1区别不大。一个cu里有两组宽度为32的simd单元,包含32alu和一个special function unit,可以组合进行各种运算。我记得navi白皮书讲了如何实现fp16、fp64、int8等计算方式。和老黄的cudacore比,农企的alu更全能一点。老黄要实现半速fp64,需要按比例额外添置fp64单元(不然会很慢很慢),这体现了两者设计思路不同。sfu用来计算超越函数,老黄的SM里也有类似单元


  • nv装机大神之抚琴
  • 小吧主
    11
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
图2是一个wgp里的两个计算单元compute unit,也就是cu。图里展开详细画了其中一个。相比以前的gcn 宽度16的4组simd,navi的cu变成了宽度32的2组simd。对AMD GPU来说,一个线程束wavefront最小包含64个指令,在gcn里,一个simd一个周期只能运行其中16个,得用4个周期跑完,然后一组cu里4个simd可以同时跑4个wavefront,同时依靠寄存器还可以维持一定数量的额外线程。在navi的cu里,wavefront有32和64两种模式,而且一个wavefront64可以在一个周期跑完。scalar unit直译是标量单元,具体含义是,能批量操作的指令叫做向量指令,这种可以在向量单元里执行,也就是那两组simd32。不能批量操作的就是标量指令了,这个用simd32执行,相当于32个alu只有一个在工作,那效率就太差劲了。scalar unit可以单独应付这些标量指令,每组simd各设置一个,一个cu里就是两个。
ray accelerator就是光追单元了,根据微软说法一个时钟可以执行4次光线操作,估计是遍历、三角形、多边形检测、碰撞检测之类的,这个不知道nvidia那边对rt core计算能力的具体定义,所以就没办法横向比较了。
纹理也是每cu每时钟4操作,所以52cu就是有208个纹理单元


  • nv装机大神之抚琴
  • 小吧主
    11
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
目前暂时没看到除了加入光线追踪单元以外,rdna2相比1变化明显的东西,所以农企倒闭不可避,坐等3060秒全家,690收6900xt


  • nv装机大神之抚琴
  • 小吧主
    11
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
有人会觉得,既然一个wavefront是64条指令,那我干脆把simd宽度做成64不就得了,干嘛切成32甚至16,而且为什么要他分好几个周期执行。其实这是为了减少延迟。
GPU在一秒内可以执行大量的并行运算,数据计算量极其庞大。如果仅依赖缓存的话,延迟会非常高。所以这就要我们在每个simd那里,设置大量寄存器,记住多条wavefront的状态,并且能做到随时切换。某个线程的一个周期跑完,立刻换这个线程或者别的线程下一个周期上场。计算单元记住wavefront状态的数量,就叫做维持的线程数量,GPU里的计算单元正是依靠维持多个线程,快速切换,掩盖延迟。
这就好像你玩射击游戏,身上要背好几条弹夹,这样你就不用老往弹药库跑,也不用一发一发上子弹了。
容易看出来,弹夹也不是越长越好的,太长的话,比如一个突击步枪弹匣整到100发,那人都扛不动枪了。同样simd宽度太宽的话,会消耗大量晶体管用作寄存器,那妥妥的核弹。
在rdna1,每个simd32可以维持20个线程,在rdna2则是16个。相当于原来带20个弹夹,现在只带16个了,这是目前唯一明确的rdna2 cu的改动


  • 宇宙地镇很黑村🌠
  • x1800xt
    10
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
不太妙
但这个coreteks感觉不靠谱 他还说big navi会有8G版本


2025-08-27 10:44:52
广告
不感兴趣
开通SVIP免广告
  • nEcsA
  • 吧主
    15
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
https://tieba.baidu.com/p/6163015525
https://tieba.baidu.com/p/6164007643
配合着看


登录百度账号

扫二维码下载贴吧客户端

下载贴吧APP
看高清直播、视频!
  • 贴吧页面意见反馈
  • 违规贴吧举报反馈通道
  • 贴吧违规信息处理公示
  • 1 2 下一页 尾页
  • 91回复贴,共2页
  • ,跳到 页  
<<返回ati吧
分享到:
©2025 Baidu贴吧协议|隐私政策|吧主制度|意见反馈|网络谣言警示