华为昇腾384超节点斩获WAIC镇馆之宝，算力性能全面超越国际竞品

一颗由384颗AI芯片构成的“算力核弹”引爆世界人工智能大会，中国在AI基础设施领域实现历史性超越。

2025年7月26日，上海世博中心。在世界人工智能大会（WAIC）的聚光灯下，华为首次公开展示的昇腾384超节点真机（Atlas 900 A3 SuperPoD）荣膺本届大会“镇馆之宝”称号。

这款被业界称为 “算力核弹” 的超级AI服务器，以300Pflops的算力规模和突破性的系统架构引发全球科技界震动。

“昇腾384超节点通过高速互联总线，突破传统集群的互联瓶颈，让超节点像一台计算机一样工作。”华为技术专家在展台向观众介绍这一革命性创新。

这一设计彻底改变了传统以CPU为中心的冯诺依曼架构，创新提出 “全对等架构” ，实现了从服务器级到矩阵级的资源供给模式转变。

一、性能碾压，算力怪兽的三大突破

华为昇腾384超节点在关键性能指标上实现了对国际竞争对手的全面超越。根据实测数据，其总算力规模达到300Pflops，是英伟达旗舰产品NVL72的1.7倍。

网络互联总带宽高达269TB/s，比英伟达方案提升107%；内存总带宽更是达到惊人的1229TB/s，提升幅度达113%。

在单卡推理性能方面，昇腾384超节点将吞吐量提升至2300 Tokens/s，成为业界新标杆。

这一超节点架构的突破性创新体现在三大核心优势上：

超大带宽：超节点内任意两个AI处理器间通信带宽较传统架构提升15倍，单跳时延降低10倍。
超低时延：支持全局内存统一编址，实现指令级内存语义通信，是业界唯一突破Decode时延15ms大关的方案。
超强性能：在LLaMA3等千亿参数稠密模型训练中，性能达传统集群的2.5倍以上；在Qwen、DeepSeek等多模态、MoE模型上，性能提升更可达3倍以上。

二、架构革命，全对等互联的工程奇迹

昇腾384超节点背后的工程创新堪称奇迹。华为首次实现将384颗昇腾NPU和192颗鲲鹏CPU通过全新高速网络MatrixLink进行全对等互联。

这一设计彻底打破了传统以CPU为中心的 “主从架构” 局限。

“通过高速互联总线的关键突破，我们把总线从服务器内部扩展到整机柜甚至跨机柜” ，华为工程师向观察者网解释这一创新，“将CPU、NPU、DPU、存储和内存等资源全部互联和池化，去除繁多的中转环节，实现真正的点对点互联”。

这一架构创新解决了大模型训练中的核心痛点——通信瓶颈问题。在传统集群中，随着芯片数量增加，通信开销会急剧上升，导致算力利用率大幅下降。

而MatrixLink技术使384颗NPU能够像单一计算机那样协同工作，大幅提升了超大规模AI训练的效率和稳定性。

华为专家透露了背后的技术哲学：“单芯片制程从7纳米到5纳米、3纳米、2纳米，每代性能提升不超过20%，总体能提升50%左右。华为通过高效的超节点系统，提升了芯片算力利用率。在硬件没有改变的情况下，通过系统工程的优化，资源的高效调度，一定程度弥补了芯片工艺的不足。”

三、实战验证，大模型训练效率飞跃

昇腾384超节点的性能优势在真实场景中得到充分验证。在通信密集型任务中，如千亿参数大模型训练，其优势尤为显著。

对于当前热门的混合专家模型（MoE），昇腾超节点展现出3倍于传统集群的训练效率。

这一突破对加速多模态大模型研发具有战略意义。华为展台数据显示，在训练类似Qwen、DeepSeek这样的先进模型时，昇腾超节点集群的性能较行业其他方案高出1.2倍，处于绝对领先地位。

在推理场景中，昇腾384超节点同样表现出色。其单卡Decoding吞吐达到2300 Tokens/s，满足实时深度思考下的用户体验需求。

这一成就源于软硬件协同优化，特别是内存语义通信能力的突破，能高效处理大模型推理中的小包通信需求，提升专家网络数据传输及离散随机访存通信效率。

四、云上赋能，昇腾AI云服务重塑产业生态

华为云同步推出基于CloudMatrix 384超节点的昇腾AI云服务，已在芜湖、贵安、乌兰察布和林格尔数据中心全面上线。

这一服务让超节点能够以云服务形态实现按需取用，大幅降低企业应用先进智算基础设施的门槛。

CloudMatrix 384超节点具备四大技术特点：吞吐突破性能强、主流模型覆盖多、专家并行效率高、规模灵活弹性大。它沉淀了行业主流160+模型，支持高效模型迁移，初始投资小，每年迭代发布新版本，真正实现弹性灵活按需使用。

该服务已在多个行业头部企业落地应用：助力新浪 “智慧小浪” 推理交付效率提升50% 以上；支撑硅基流动每天为600万用户提供高效推理服务；推动面壁智能 “小钢炮” 模型推理业务性能大幅提升；为360“超级搜索” 纳米AI搜索提供领先算力；助力讯飞大模型实现极致推理性能。