互联总线科普

外行看互联带宽，内行看iops和延迟，先看特性数据，下面是异数OS平台测试收集得到的各类互联总线性能，按性能高低排列。
1. nvlink，用于L2互联内存通道聚合，优势是无需操作系统io栈干预，官方成绩40GIOPS，异数OS GPU IO栈测试得到 34 GIOPS
2. ccix 用于L3互联内存聚合，官方无数据，异数OS平台测得倚天710 （32核）2.2GIOPS 鲲鹏920 （32核）1.3GIOPS
3. intel ring 用于L3互联内存聚合，无官方数据，异数OS平台测得 0.6GIOPS（e5v1 12900k）。
4.AMD织物 L3互联官方无数据，异数OS测得，8核 1.3GIOPS
5. AMD IF总线用于L3链接星型交换机，官方无数据，异数OS测得 64路 0.08Giops。
6. intel pcie，用于设备互联，intel pcie挂在llc上，通用操作系统无法利用发挥，需要dpdk绕开通用操作系统io栈，所以一直没有应用生态，仅有异数OS支持，异数OS测得pcie 4.0 16x 0.2GIOPS， atom j1900 4MIOPS
7. 申威sw1621内存直连，申威ppt中有ring llc，但异数OS实际测试中无感，可能ring llc性能太差，延迟太高，大概每内存通道10MIOPS，8通道llc聚合 40MIOPS。
8. 申威 pcie llc互联，用于设备互联，通用操作系统无法利用发挥，需要dpdk绕开通用操作系统io栈，所以一直没有应用生态，官方提供dpdk数据大概20MIOPS。
9. 飞腾 pcie llc 互联，用于设备互联，通用操作系统无法利用发挥，需要dpdk绕开通用操作系统io栈，所以一直没有应用生态，官方提供dpdk数据大概20MIOPS。
10. 龙芯奔四北桥桥片hub互联，用于设备互联，优势是通用操作系统可利用全部性能，性能大概0.02M IOPS。
上面数据误差可能在2到5倍左右，但这样的误差是没有太大问题的，因为他不是数量级的误差，只有数量级的差距才是有意义的。从nvlink到龙芯奔四大概差距6个数量级以上。
再看一下，互联总线数量级差距的意义，据传一座国产算力第一的超算在gpt推理中打不过8张nvidia a100，其核心原因并不是int8算力有多强，而是在于nvlink的数量级性能优势，实际上gpt推理属于张量并行的计算，他是是基于内存io的计算，无论gpu int8多强，他实际上的算力天花板都是内存iops，而nvlink通过L2互联可以聚合8张计算卡128个内存通道，从而相对pcie实现4个数量级以上性能碾压，这也是nvidia制裁参数中的主要指标，也是nvidia值12000亿美元的本质原因。

2019 年华为发布鲲鹏 920 处理器。该芯片支持 ARMv8.2 指令集，是行业内首款 7nm数据中心 ARM 处理器，专为大数据处理以及分布式存储等应用而设计。鲲鹏 920 由华为自主研发，采用多发射、乱序执行、优化分支预测等多种手段提升单核性能。鲲鹏920 拥有 64 个内核，集成 8 通道 DDR4，可以提供多个接口，主频可达 2.6GHz，总内存带宽最高可达 1.5Tb/s，支持 PCIe 4.0 及 CCIX 接口，总带宽 640Gbps。华为 Cache一致性总线（HCCS）的 480Gbps 片间互联支持最多四颗鲲鹏 920 互联和最高 256 个物理核的 NUMA 架构，保证了鲲鹏 920 超强算力的高效输出。此外，在 Memory 子系统上也进行了大量的优化，采用当前典型的 3 级 Cache 的架构，对 Cache 大小以及延时进行了优化设计。

不感兴趣

开通SVIP免广告

昇腾910B互联用的是HCCS。HCCS，即Huawei Cache Coherence System，华为自研，叫“华为Cache一致性总线”，也可简单叫“片间互联”
HCCS可以用来实现4片NPU芯片的高速互联，昇腾910模组间的互联带宽传输速度是392GB/s。（上图说的是480Gbp/s，应该指的是鲲鹏920）