外行看互联带宽,内行看iops和延迟,先看特性数据,下面是异数OS平台测试收集得到的各类互联总线性能,按性能高低排列。
1. nvlink,用于L2互联内存通道聚合,优势是无需操作系统io栈干预,官方成绩40GIOPS,异数OS GPU IO栈测试得到 34 GIOPS
2. ccix 用于L3互联内存聚合,官方无数据,异数OS平台测得倚天710 (32核)2.2GIOPS 鲲鹏920 (32核)1.3GIOPS
3. intel ring 用于L3互联内存聚合,无官方数据,异数OS平台测得 0.6GIOPS(e5v1 12900k)。
4.AMD织物 L3互联 官方无数据,异数OS测得,8核 1.3GIOPS
5. AMD IF总线 用于L3链接星型交换机,官方无数据,异数OS测得 64路 0.08Giops。
6. intel pcie,用于设备互联,intel pcie挂在llc上,通用操作系统无法利用发挥,需要dpdk绕开通用操作系统io栈,所以一直没有应用生态,仅有异数OS支持,异数OS测得pcie 4.0 16x 0.2GIOPS, atom j1900 4MIOPS
7. 申威sw1621内存直连,申威ppt中有ring llc,但异数OS实际测试中无感,可能ring llc性能太差,延迟太高,大概每内存通道10MIOPS,8通道llc聚合 40MIOPS。
8. 申威 pcie llc互联,用于设备互联,通用操作系统无法利用发挥,需要dpdk绕开通用操作系统io栈,所以一直没有应用生态,官方提供dpdk数据大概20MIOPS。
9. 飞腾 pcie llc 互联,用于设备互联,通用操作系统无法利用发挥,需要dpdk绕开通用操作系统io栈,所以一直没有应用生态,官方提供dpdk数据大概20MIOPS。
10. 龙芯奔四北桥桥片hub互联,用于设备互联,优势是通用操作系统可利用全部性能,性能大概0.02M IOPS。
上面数据误差可能在2到5倍左右,但这样的误差是没有太大问题的,因为他不是数量级的误差,只有数量级的差距才是有意义的。从nvlink到龙芯奔四大概差距6个数量级以上。
再看一下,互联总线数量级差距的意义,据传一座国产算力第一的超算在gpt推理中打不过8张nvidia a100,其核心原因并不是int8算力有多强,而是在于nvlink的数量级性能优势,实际上gpt推理属于张量并行的计算,他是是基于内存io的计算,无论gpu int8多强,他实际上的算力天花板都是内存iops,而nvlink通过L2互联可以聚合8张计算卡128个内存通道,从而相对pcie实现4个数量级以上性能碾压,这也是nvidia制裁参数中的主要指标,也是nvidia值12000亿美元的本质原因。
1. nvlink,用于L2互联内存通道聚合,优势是无需操作系统io栈干预,官方成绩40GIOPS,异数OS GPU IO栈测试得到 34 GIOPS
2. ccix 用于L3互联内存聚合,官方无数据,异数OS平台测得倚天710 (32核)2.2GIOPS 鲲鹏920 (32核)1.3GIOPS
3. intel ring 用于L3互联内存聚合,无官方数据,异数OS平台测得 0.6GIOPS(e5v1 12900k)。
4.AMD织物 L3互联 官方无数据,异数OS测得,8核 1.3GIOPS
5. AMD IF总线 用于L3链接星型交换机,官方无数据,异数OS测得 64路 0.08Giops。
6. intel pcie,用于设备互联,intel pcie挂在llc上,通用操作系统无法利用发挥,需要dpdk绕开通用操作系统io栈,所以一直没有应用生态,仅有异数OS支持,异数OS测得pcie 4.0 16x 0.2GIOPS, atom j1900 4MIOPS
7. 申威sw1621内存直连,申威ppt中有ring llc,但异数OS实际测试中无感,可能ring llc性能太差,延迟太高,大概每内存通道10MIOPS,8通道llc聚合 40MIOPS。
8. 申威 pcie llc互联,用于设备互联,通用操作系统无法利用发挥,需要dpdk绕开通用操作系统io栈,所以一直没有应用生态,官方提供dpdk数据大概20MIOPS。
9. 飞腾 pcie llc 互联,用于设备互联,通用操作系统无法利用发挥,需要dpdk绕开通用操作系统io栈,所以一直没有应用生态,官方提供dpdk数据大概20MIOPS。
10. 龙芯奔四北桥桥片hub互联,用于设备互联,优势是通用操作系统可利用全部性能,性能大概0.02M IOPS。
上面数据误差可能在2到5倍左右,但这样的误差是没有太大问题的,因为他不是数量级的误差,只有数量级的差距才是有意义的。从nvlink到龙芯奔四大概差距6个数量级以上。
再看一下,互联总线数量级差距的意义,据传一座国产算力第一的超算在gpt推理中打不过8张nvidia a100,其核心原因并不是int8算力有多强,而是在于nvlink的数量级性能优势,实际上gpt推理属于张量并行的计算,他是是基于内存io的计算,无论gpu int8多强,他实际上的算力天花板都是内存iops,而nvlink通过L2互联可以聚合8张计算卡128个内存通道,从而相对pcie实现4个数量级以上性能碾压,这也是nvidia制裁参数中的主要指标,也是nvidia值12000亿美元的本质原因。