网页资讯视频图片知道文库贴吧地图采购
进入贴吧全吧搜索

 
 
 
日一二三四五六
       
       
       
       
       
       

签到排名:今日本吧第个签到,

本吧因你更精彩,明天继续来努力!

本吧签到人数:0

一键签到
成为超级会员,使用一键签到
一键签到
本月漏签0次!
0
成为超级会员,赠送8张补签卡
如何使用?
点击日历上漏签日期,即可进行补签。
连续签到:天  累计签到:天
0
超级会员单次开通12个月以上,赠送连续签到卡3张
使用连续签到卡
08月26日漏签0天
中国芯吧 关注:15,496贴子:295,477
  • 看贴

  • 图片

  • 吧主推荐

  • 游戏

  • 27回复贴,共1页
<<返回中国芯吧
>0< 加载中...

互联总线科普

  • 只看楼主
  • 收藏

  • 回复
  • 心海岛主88
  • FT-D3000
    10
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
外行看互联带宽,内行看iops和延迟,先看特性数据,下面是异数OS平台测试收集得到的各类互联总线性能,按性能高低排列。
1. nvlink,用于L2互联内存通道聚合,优势是无需操作系统io栈干预,官方成绩40GIOPS,异数OS GPU IO栈测试得到 34 GIOPS
2. ccix 用于L3互联内存聚合,官方无数据,异数OS平台测得倚天710 (32核)2.2GIOPS 鲲鹏920 (32核)1.3GIOPS
3. intel ring 用于L3互联内存聚合,无官方数据,异数OS平台测得 0.6GIOPS(e5v1 12900k)。
4.AMD织物 L3互联 官方无数据,异数OS测得,8核 1.3GIOPS
5. AMD IF总线 用于L3链接星型交换机,官方无数据,异数OS测得 64路 0.08Giops。
6. intel pcie,用于设备互联,intel pcie挂在llc上,通用操作系统无法利用发挥,需要dpdk绕开通用操作系统io栈,所以一直没有应用生态,仅有异数OS支持,异数OS测得pcie 4.0 16x 0.2GIOPS, atom j1900 4MIOPS
7. 申威sw1621内存直连,申威ppt中有ring llc,但异数OS实际测试中无感,可能ring llc性能太差,延迟太高,大概每内存通道10MIOPS,8通道llc聚合 40MIOPS。
8. 申威 pcie llc互联,用于设备互联,通用操作系统无法利用发挥,需要dpdk绕开通用操作系统io栈,所以一直没有应用生态,官方提供dpdk数据大概20MIOPS。
9. 飞腾 pcie llc 互联,用于设备互联,通用操作系统无法利用发挥,需要dpdk绕开通用操作系统io栈,所以一直没有应用生态,官方提供dpdk数据大概20MIOPS。
10. 龙芯奔四北桥桥片hub互联,用于设备互联,优势是通用操作系统可利用全部性能,性能大概0.02M IOPS。
上面数据误差可能在2到5倍左右,但这样的误差是没有太大问题的,因为他不是数量级的误差,只有数量级的差距才是有意义的。从nvlink到龙芯奔四大概差距6个数量级以上。
再看一下,互联总线数量级差距的意义,据传一座国产算力第一的超算在gpt推理中打不过8张nvidia a100,其核心原因并不是int8算力有多强,而是在于nvlink的数量级性能优势,实际上gpt推理属于张量并行的计算,他是是基于内存io的计算,无论gpu int8多强,他实际上的算力天花板都是内存iops,而nvlink通过L2互联可以聚合8张计算卡128个内存通道,从而相对pcie实现4个数量级以上性能碾压,这也是nvidia制裁参数中的主要指标,也是nvidia值12000亿美元的本质原因。


  • mygo358
  • 小吧主
    11
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
2019 年华为发布鲲鹏 920 处理器。该芯片支持 ARMv8.2 指令集,是行业内首款 7nm数据中心 ARM 处理器,专为大数据处理以及分布式存储等应用而设计。鲲鹏 920 由华为自主研发,采用多发射、乱序执行、优化分支预测等多种手段提升单核性能。鲲鹏920 拥有 64 个内核,集成 8 通道 DDR4,可以提供多个接口,主频可达 2.6GHz,总内存带宽最高可达 1.5Tb/s,支持 PCIe 4.0 及 CCIX 接口,总带宽 640Gbps。华为 Cache一致性总线(HCCS)的 480Gbps 片间互联支持最多四颗鲲鹏 920 互联和最高 256 个物理核的 NUMA 架构,保证了鲲鹏 920 超强算力的高效输出。此外,在 Memory 子系统上也进行了大量的优化,采用当前典型的 3 级 Cache 的架构,对 Cache 大小以及延时进行了优化设计。


2025-08-26 08:41:19
广告
不感兴趣
开通SVIP免广告
  • mygo358
  • 小吧主
    11
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼

昇腾910B互联用的是HCCS。HCCS,即Huawei Cache Coherence System,华为自研,叫“华为Cache一致性总线”,也可简单叫“片间互联”
HCCS可以用来实现4片NPU芯片的高速互联,昇腾910模组间的互联带宽传输速度是392GB/s。(上图说的是480Gbp/s,应该指的是鲲鹏920)


英伟达的NVLink可以实现8颗芯片互联,这意味着,如果上千卡集群训练,昇腾910这个速度要打不少折扣。


  • 心海岛主88
  • FT-D3000
    10
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
修正一下数据错误,amd if 64路大概0.8GIOPS。


  • FF6618
  • 小吧主
    14
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
不管怎样,是用心的帖子


  • FF6618
  • 小吧主
    14
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
华为的智算集群之所以能成为国内唯一支持大模型训练的平台,就是因为解决了互连带宽问题


  • 我又换昵称了。
  • 昇腾910
    11
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
**儿,我求求你别发了


  • 心海岛主88
  • FT-D3000
    10
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
龙芯奔四的性能数据勘误一些,是0.2MIOPS。


2025-08-26 08:35:19
广告
不感兴趣
开通SVIP免广告
  • 哦iu一套软件
  • KX-7000
    8
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
龙芯是0


  • FF6618
  • 小吧主
    14
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼




  • 心海岛主88
  • FT-D3000
    10
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
龙芯差不多可以忽略不计,龙芯可以考虑自行提交成绩,比如开源的dpdk,虽然dpdk是开源的,但目前还没法作弊。


  • 大臧的老巢
  • 麒麟980
    3
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
这么牛b,能不能写信给老胡,让龙芯也进步进步


  • bdszliulele
  • FT-D3000
    10
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
你确定在比较IOPS?要是比较IOPS,首先要规定包的大小,您这个里面根本就没写各种总线测试选择的包大小。以太网不会比PCIE的IOPS更好吧,哪怕是很普通的10G以太网交换机也可以达到小包线速。所以您这个总线对比隐瞒了最基本的变量。


登录百度账号

扫二维码下载贴吧客户端

下载贴吧APP
看高清直播、视频!
  • 贴吧页面意见反馈
  • 违规贴吧举报反馈通道
  • 贴吧违规信息处理公示
  • 27回复贴,共1页
<<返回中国芯吧
分享到:
©2025 Baidu贴吧协议|隐私政策|吧主制度|意见反馈|网络谣言警示