在 9 月 19 日召开的华为全联接大会 2025(HC 2025)上,华为常务董事、华为云计算 CEO 张平安介绍了华为云昇腾 AI 云服务的重磅升级与创新进展。张平安指出,依托华为刚刚发布的最新 AI 服务器规划,CloudMatrix 云上超节点规格将从 384 卡升级到未来的 8192 卡,这一升级举措将实现 50 – 100 万卡的超大集群,为智能时代提供更为澎湃的 AI 算力。
华为云 CloudMatrix384 超节点的升级具有多方面的重要意义。首先,在性能提升上,通过创新架构,CloudMatrix384 超节点将资源全面池化,形成算力池、内存池、显存池等,把计算型任务、存储型任务、AI 专家系统解耦开来,将串行任务尽可能地变成分布式并行任务,极大地提升了系统推理性能。在在线、近线和离线等不同时延要求推理场景中,CloudMatrix384 的平均单卡推理性能达到了中国特供 H20 的 3 – 4 倍。这意味着,在处理各种 AI 任务时,华为云 CloudMatrix384 超节点能够以更高的效率和更低的延迟完成,为用户提供更优质、更快速的 AI 服务。例如,360 纳米 AI 依托 CloudMatrix384 的 Token 推理服务,成功处理每天上千万的内容生成请求;中科院构建的 “磐石・科学基础大模型” 平台,基于 CloudMatrix384 超节点内部高速互联架构及融合算子优化,模型训练精度更高,超出 GPU 4%,支持 100 + 专业院所领域场景,不断拓展人类认知的前沿。
为了充分释放算力潜能,华为云还首创了弹性内存存储服务 EMS。EMS 的推出,打破了传统 AI 算力与显存绑定的限制,让内存可以替代昂贵的显存,实现了 “以存补算”。这一创新举措,不仅显著降低了大模型多轮对话的时延,还大幅提升了模型使用体验。比如在一些对大模型多轮对话要求较高的场景中,使用 EMS 服务后,响应速度更快,对话更加流畅,为用户带来了更好的交互体验。同时,EMS 通过内存池化技术,实现显存和算力解绑,可大幅提升资源利用率、性能和吞吐量。例如用 EMS 替代 NPU 中的显存,可使得首 Token 时延降低,最高降幅可达 80%。
华为云 CloudMatrix384 超节点的升级与 EMS 服务的推出,背后是华为强大的技术实力和全栈创新能力的支撑。一方面,CANN 昇腾硬件使能,通过优化算子与高效通信策略,让云端的算力能够以最高效的方式被调用和组合。另一方面,xDeepServe 分布式推理框架则以极致分离架构 Transformerless 让超节点释放出更高效算力。以 xDeepServe 为例,作为 CloudMatrix384 超节点的原生服务,它以 Transformerless 的极致分离架构,把 MoE 大模型拆成可独立伸缩的 Attention、FFN、Expert 三个微模块,相当于在一台 CloudMatrix384 上把 “大模型” 拆成 “积木”,并分派到不同的 NPU 上同步处理任务。之后,再用基于内存语义的微秒级 XCCL 通信库与 FlowServe 自研推理引擎把它们重新拼成一个超高吞吐的 LLM 服务平台,即 Tokens 的 “超高速流水线”。通过 xDeepServe 不断调优,最终实现了从非超节点单卡吞吐 600tokens/s 至超节点单卡吞吐 2400tokens/s 的提升。
从行业发展角度来看,随着 AI 算力需求正以指数级增长,传统的数据中心已难以满足构建高效 AI 基础设施的需求。单机柜功率要从 10 千瓦 / 每柜,升级到 70 千瓦 / 每柜,甚至是 200 千瓦 / 每柜,冷却方式也需要从风冷转变到全液冷。华为云在贵州、内蒙古、安徽部署了全液冷 AI 数据中心,实现单机柜 80 千瓦散热,PUE 低至 1.1,并能够实现 AI 智能运维。这使得企业无需改造或新建传统数据中心,通过一对光纤,就能获取华为云上高效的 AI 算力,也可以获得全栈专属 AI 云服务,为企业节省了大量的成本和时间,加速了企业的 AI 转型。
此外,华为云 CloudMatrix384 超节点升级与 EMS 服务的推出,对于推动 AI 技术在各行业的落地应用也具有重要作用。在当前,AI 技术已经广泛应用于各个领域,包括医疗、金融、教育、交通等。而华为云的这一创新举措,为各行业提供了更强大、更灵活、更高效的 AI 算力支持,有助于各行业进一步挖掘 AI 的潜力,开发出更多更具创新性的应用场景,提升行业的效率和竞争力。例如在医疗领域,借助 CloudMatrix384 超节点的强大算力和 EMS 服务的优势,可以更快速地进行医学影像分析、疾病预测等;在金融领域,能够更精准地进行风险评估、投资决策等。
华为云宣布 CloudMatrix384 超节点升级及推出 EMS 服务,是其在 AI 算力领域的又一次重大突破。这一举措不仅展示了华为云在技术创新方面的实力和决心,也为全球 AI 产业的发展注入了新的活力。随着未来 CloudMatrix 超节点从 384 卡向 8192 卡的升级逐步实现,以及 EMS 服务的不断完善和推广,相信华为云将为智能时代的发展提供更加强劲的动力,引领 AI 算力进入一个全新的时代,为各行业的数字化转型和智能化升级带来更多的可能性,推动全球 AI 产业迈向新的高峰。