一颗由384颗AI芯片构成的“算力核弹”引爆世界人工智能大会,中国在AI基础设施领域实现历史性超越。
2025年7月26日,上海世博中心。在世界人工智能大会(WAIC)的聚光灯下,华为首次公开展示的昇腾384超节点真机(Atlas 900 A3 SuperPoD)荣膺本届大会“镇馆之宝”称号。
这款被业界称为 “算力核弹” 的超级AI服务器,以300Pflops的算力规模和突破性的系统架构引发全球科技界震动。
“昇腾384超节点通过高速互联总线,突破传统集群的互联瓶颈,让超节点像一台计算机一样工作。”华为技术专家在展台向观众介绍这一革命性创新。
这一设计彻底改变了传统以CPU为中心的冯诺依曼架构,创新提出 “全对等架构” ,实现了从服务器级到矩阵级的资源供给模式转变。
一、性能碾压,算力怪兽的三大突破
华为昇腾384超节点在关键性能指标上实现了对国际竞争对手的全面超越。根据实测数据,其总算力规模达到300Pflops,是英伟达旗舰产品NVL72的1.7倍。
网络互联总带宽高达269TB/s,比英伟达方案提升107%;内存总带宽更是达到惊人的1229TB/s,提升幅度达113%。
在单卡推理性能方面,昇腾384超节点将吞吐量提升至2300 Tokens/s,成为业界新标杆。
这一超节点架构的突破性创新体现在三大核心优势上:
-
超大带宽:超节点内任意两个AI处理器间通信带宽较传统架构提升15倍,单跳时延降低10倍。
-
超低时延:支持全局内存统一编址,实现指令级内存语义通信,是业界唯一突破Decode时延15ms大关的方案。
-
超强性能:在LLaMA3等千亿参数稠密模型训练中,性能达传统集群的2.5倍以上;在Qwen、DeepSeek等多模态、MoE模型上,性能提升更可达3倍以上。
二、架构革命,全对等互联的工程奇迹
昇腾384超节点背后的工程创新堪称奇迹。华为首次实现将384颗昇腾NPU和192颗鲲鹏CPU通过全新高速网络MatrixLink进行全对等互联。
这一设计彻底打破了传统以CPU为中心的 “主从架构” 局限。
“通过高速互联总线的关键突破,我们把总线从服务器内部扩展到整机柜甚至跨机柜” ,华为工程师向观察者网解释这一创新,“将CPU、NPU、DPU、存储和内存等资源全部互联和池化,去除繁多的中转环节,实现真正的点对点互联”。
这一架构创新解决了大模型训练中的核心痛点——通信瓶颈问题。在传统集群中,随着芯片数量增加,通信开销会急剧上升,导致算力利用率大幅下降。
而MatrixLink技术使384颗NPU能够像单一计算机那样协同工作,大幅提升了超大规模AI训练的效率和稳定性。
华为专家透露了背后的技术哲学:“单芯片制程从7纳米到5纳米、3纳米、2纳米,每代性能提升不超过20%,总体能提升50%左右。华为通过高效的超节点系统,提升了芯片算力利用率。在硬件没有改变的情况下,通过系统工程的优化,资源的高效调度,一定程度弥补了芯片工艺的不足。”
三、实战验证,大模型训练效率飞跃
昇腾384超节点的性能优势在真实场景中得到充分验证。在通信密集型任务中,如千亿参数大模型训练,其优势尤为显著。
对于当前热门的混合专家模型(MoE),昇腾超节点展现出3倍于传统集群的训练效率。
这一突破对加速多模态大模型研发具有战略意义。华为展台数据显示,在训练类似Qwen、DeepSeek这样的先进模型时,昇腾超节点集群的性能较行业其他方案高出1.2倍,处于绝对领先地位。
在推理场景中,昇腾384超节点同样表现出色。其单卡Decoding吞吐达到2300 Tokens/s,满足实时深度思考下的用户体验需求。
这一成就源于软硬件协同优化,特别是内存语义通信能力的突破,能高效处理大模型推理中的小包通信需求,提升专家网络数据传输及离散随机访存通信效率。
四、云上赋能,昇腾AI云服务重塑产业生态
华为云同步推出基于CloudMatrix 384超节点的昇腾AI云服务,已在芜湖、贵安、乌兰察布和林格尔数据中心全面上线。
这一服务让超节点能够以云服务形态实现按需取用,大幅降低企业应用先进智算基础设施的门槛。
CloudMatrix 384超节点具备四大技术特点:吞吐突破性能强、主流模型覆盖多、专家并行效率高、规模灵活弹性大。它沉淀了行业主流160+模型,支持高效模型迁移,初始投资小,每年迭代发布新版本,真正实现弹性灵活按需使用。
该服务已在多个行业头部企业落地应用:助力新浪 “智慧小浪” 推理交付效率提升50% 以上;支撑硅基流动每天为600万用户提供高效推理服务;推动面壁智能 “小钢炮” 模型推理业务性能大幅提升;为360“超级搜索” 纳米AI搜索提供领先算力;助力讯飞大模型实现极致推理性能。
五、生态共建,中国AI基础设施实现历史性跨越
昇腾384超节点的成功不仅在于硬件突破,更在于其构建的完整生态系统。自2019年以来,昇腾在芯片等根技术领域持续深耕,同时不断扩展产业生态,提供易用的软件、工具和平台。
目前业界已基于昇腾适配和开发超过80个大模型,在基础大模型方面多个技术方向均有深厚积累,如讯飞星火认知、DeepSeek、Qwen、鹏城、LLaMA等。
同时,昇腾联合2700+行业合作伙伴,共同孵化了6000+个行业解决方案,加速百行千业的智能化转型。
昇腾超节点的突破性创新甚至赢得了竞争对手的尊重。英伟达CEO黄仁勋公开表示:“从技术参数看,华为的CloudMatrix 384超节点,性能上甚至超越了英伟达”。
他特别强调华为在系统工程领域的卓越能力:“华为拥有强大的芯片设计能力、系统设计和系统软件能力。任何轻视华为和中国制造能力的人都极其天真。”
这一评价印证了中国在AI基础设施领域取得的历史性突破。昇腾384超节点不仅是一个硬件产品,更是中国人工智能产业整体实力的象征,标志着中国在全球AI算力竞争中已进入第一梯队。
华为昇腾384超节点通过全对等互联架构创造性地解决了传统集群的通信瓶颈。其性能优势在多个真实场景中得到验证:新浪“智慧小浪”推理效率提升50%以上,硅基流动每天支撑600万用户的推理请求,面壁智能的“小钢炮”模型性能大幅提升。
随着该技术通过华为云在芜湖、贵安、乌兰察布和林格尔数据中心全面上线,中国AI基础设施能力实现代际跃升。这颗“算力核弹”的引爆,标志着全球AI算力格局的重塑已经开始。正如黄仁勋所评价:“华为在系统工程、网络工程等多个技术领域表现出色,展现出强大的综合竞争力。