昇腾 910C正式大规模商用4.10 华为云生态大会发布 CloudMatrix 384 超节点,对标英伟达NVL72,超节点总算力高67%(对比 NVL72),网络互联总带宽高 107%,内存总带宽高 113%。采用 CloudMatrix 384组网的集群,可以做到万卡线性度>95%,MFU达55%,长稳定训练 40 天不中断。
CloudMatrix 384 超节点由昇腾 910C 组网!组网参数来看,该版本的 910C 单卡参数为:单卡算力:781.25 Tflops单卡内存总带宽:3200 GB/s(8*HBM2e)单卡 GPU 互联带宽:400GB/s(同 910B,因封装限制)解读:这是昇腾 910C 正式大规模商用落地的里程碑,CloudMatrix 384方案体现了华为的系统级思维,在先进工艺受限,以堆叠换性能,不拘泥于单点性能的高低,而是从系统层级出发,实现更好的系统体验。
CloudMatrix 384 超节点可对标 NVL72,而 910C 单卡则可对标 NV H100,为国产 AI GPU 在纯训练端实现了突破!往长看,我们认为华为 AI GPU 将按照“训推一体+纯训练”的组合,保持迭代。
从 7nm 制程的 910 系列:训推一体:910纯训练:910C(C 即 Chiplet,将两颗训推一体芯片拼接,成为纯训练芯片)下一代将是 6nm 的 920 系列:训推一体:920纯训练:920C国产 AI GPU 在训推一体和纯训练市场都有了国产替代方案!昇腾超节点释放单卡性能,昇思迭代增强软硬协同
1、投资建议。CloudMatrix 384超节点发布,其采用新型高速总线升级互联带宽,单卡decode吞吐对标H100。昇思Mindspore 2.6全面支持类Deepseek V3/R1 MOE架构模型,系统吞吐率提升2.8倍。伴随硬件性能提升与软件架构迭代,国产AI算力芯片需求有望加速增长。
2、硬件:CloudMatrix 384超节点发布,国产AI算力基础设施升级。根据2025年4月10日举办的华为云生态大会,CloudMatrix 384超节点采用新型高速总线,通过统一内存编制、通信升级互联带宽,有效提升推理性能。根据硅基流动微信公众号,384超节点可在单用户20TPS前提下,实现单卡decode吞吐1920 tokens/s,与H100性能相当。并且CloudMatrix 384超节点高速互联带宽有望加速国产算力卡向训练场景突破。
3、软件:昇思发布Mindspore 2.6,加速开发大模型一体化部署方案。根据2025年4月12日举办的昇思开发者大会,MindSpore 2.6全面支持类Deepseek V3/R1 MOE架构模型:(1)支持高性能MOE预训练,性能提高30%;(2)发布新的后训练学习套件GRPO等,支持deepseek,千问等模型的GRPO训练以及DRO/PPO等算法,支持训推一体;(3)适配支持vLLM原生接口,支持Deepseek V3/R1 Int8量化,新增10+推理融合大算子,系统吞吐率提升2.8倍。并且昇思联合北大、openeuler提供大模型一体化软件方案,整合deepseek、Mindspore、openeuler、VLLM开源组件,支持大模型快速部署服务。未来昇思生态将持续演进,预计Mindspore 2.7将支持大EP并行能力,实现多模态生成模型Day0迁移,将进一步加速Altas 800 A3超节点推理速率。
来源今日头条ID:全产业链研究
CloudMatrix 384 超节点由昇腾 910C 组网!组网参数来看,该版本的 910C 单卡参数为:单卡算力:781.25 Tflops单卡内存总带宽:3200 GB/s(8*HBM2e)单卡 GPU 互联带宽:400GB/s(同 910B,因封装限制)解读:这是昇腾 910C 正式大规模商用落地的里程碑,CloudMatrix 384方案体现了华为的系统级思维,在先进工艺受限,以堆叠换性能,不拘泥于单点性能的高低,而是从系统层级出发,实现更好的系统体验。
CloudMatrix 384 超节点可对标 NVL72,而 910C 单卡则可对标 NV H100,为国产 AI GPU 在纯训练端实现了突破!往长看,我们认为华为 AI GPU 将按照“训推一体+纯训练”的组合,保持迭代。
从 7nm 制程的 910 系列:训推一体:910纯训练:910C(C 即 Chiplet,将两颗训推一体芯片拼接,成为纯训练芯片)下一代将是 6nm 的 920 系列:训推一体:920纯训练:920C国产 AI GPU 在训推一体和纯训练市场都有了国产替代方案!昇腾超节点释放单卡性能,昇思迭代增强软硬协同
1、投资建议。CloudMatrix 384超节点发布,其采用新型高速总线升级互联带宽,单卡decode吞吐对标H100。昇思Mindspore 2.6全面支持类Deepseek V3/R1 MOE架构模型,系统吞吐率提升2.8倍。伴随硬件性能提升与软件架构迭代,国产AI算力芯片需求有望加速增长。
2、硬件:CloudMatrix 384超节点发布,国产AI算力基础设施升级。根据2025年4月10日举办的华为云生态大会,CloudMatrix 384超节点采用新型高速总线,通过统一内存编制、通信升级互联带宽,有效提升推理性能。根据硅基流动微信公众号,384超节点可在单用户20TPS前提下,实现单卡decode吞吐1920 tokens/s,与H100性能相当。并且CloudMatrix 384超节点高速互联带宽有望加速国产算力卡向训练场景突破。
3、软件:昇思发布Mindspore 2.6,加速开发大模型一体化部署方案。根据2025年4月12日举办的昇思开发者大会,MindSpore 2.6全面支持类Deepseek V3/R1 MOE架构模型:(1)支持高性能MOE预训练,性能提高30%;(2)发布新的后训练学习套件GRPO等,支持deepseek,千问等模型的GRPO训练以及DRO/PPO等算法,支持训推一体;(3)适配支持vLLM原生接口,支持Deepseek V3/R1 Int8量化,新增10+推理融合大算子,系统吞吐率提升2.8倍。并且昇思联合北大、openeuler提供大模型一体化软件方案,整合deepseek、Mindspore、openeuler、VLLM开源组件,支持大模型快速部署服务。未来昇思生态将持续演进,预计Mindspore 2.7将支持大EP并行能力,实现多模态生成模型Day0迁移,将进一步加速Altas 800 A3超节点推理速率。
来源今日头条ID:全产业链研究