昇腾 910C正式大规模商用

昇腾 910C正式大规模商用4.10 华为云生态大会发布 CloudMatrix 384 超节点，对标英伟达NVL72，超节点总算力高67%（对比 NVL72），网络互联总带宽高 107%，内存总带宽高 113%。采用 CloudMatrix 384组网的集群，可以做到万卡线性度＞95%，MFU达55%，长稳定训练 40 天不中断。
CloudMatrix 384 超节点由昇腾 910C 组网！组网参数来看，该版本的 910C 单卡参数为：单卡算力：781.25 Tflops单卡内存总带宽：3200 GB/s（8*HBM2e）单卡 GPU 互联带宽：400GB/s（同 910B，因封装限制）解读：这是昇腾 910C 正式大规模商用落地的里程碑，CloudMatrix 384方案体现了华为的系统级思维，在先进工艺受限，以堆叠换性能，不拘泥于单点性能的高低，而是从系统层级出发，实现更好的系统体验。
CloudMatrix 384 超节点可对标 NVL72，而 910C 单卡则可对标 NV H100，为国产 AI GPU 在纯训练端实现了突破！往长看，我们认为华为 AI GPU 将按照“训推一体+纯训练”的组合，保持迭代。
从 7nm 制程的 910 系列：训推一体：910纯训练：910C（C 即 Chiplet，将两颗训推一体芯片拼接，成为纯训练芯片）下一代将是 6nm 的 920 系列：训推一体：920纯训练：920C国产 AI GPU 在训推一体和纯训练市场都有了国产替代方案！昇腾超节点释放单卡性能，昇思迭代增强软硬协同
1、投资建议。CloudMatrix 384超节点发布，其采用新型高速总线升级互联带宽，单卡decode吞吐对标H100。昇思Mindspore 2.6全面支持类Deepseek V3/R1 MOE架构模型，系统吞吐率提升2.8倍。伴随硬件性能提升与软件架构迭代，国产AI算力芯片需求有望加速增长。
2、硬件：CloudMatrix 384超节点发布，国产AI算力基础设施升级。根据2025年4月10日举办的华为云生态大会，CloudMatrix 384超节点采用新型高速总线，通过统一内存编制、通信升级互联带宽，有效提升推理性能。根据硅基流动微信公众号，384超节点可在单用户20TPS前提下，实现单卡decode吞吐1920 tokens/s，与H100性能相当。并且CloudMatrix 384超节点高速互联带宽有望加速国产算力卡向训练场景突破。
3、软件：昇思发布Mindspore 2.6，加速开发大模型一体化部署方案。根据2025年4月12日举办的昇思开发者大会，MindSpore 2.6全面支持类Deepseek V3/R1 MOE架构模型：（1）支持高性能MOE预训练，性能提高30%；（2）发布新的后训练学习套件GRPO等，支持deepseek，千问等模型的GRPO训练以及DRO/PPO等算法，支持训推一体；（3）适配支持vLLM原生接口，支持Deepseek V3/R1 Int8量化，新增10+推理融合大算子，系统吞吐率提升2.8倍。并且昇思联合北大、openeuler提供大模型一体化软件方案，整合deepseek、Mindspore、openeuler、VLLM开源组件，支持大模型快速部署服务。未来昇思生态将持续演进，预计Mindspore 2.7将支持大EP并行能力，实现多模态生成模型Day0迁移，将进一步加速Altas 800 A3超节点推理速率。
来源今日头条ID：全产业链研究