华为超节点:打破AI集群瓶颈,以「一台机器」理念驱动万卡算力

华为超节点架构:基于灵衢互联,万卡集群如一台机器。高效解决AI算力瓶颈,赋能各行各业AI应用。

原文标题:华为超节点:用「一台机器」的逻辑,驱动AI万卡集群

原文作者:机器之心

冷月清谈:

AI算力需求持续增长,但传统集群因服务器互联瓶颈(带宽不足、时延大)导致有效算力利用率随规模扩大而下降,在万亿模型训练中,约有 40% 的时间计算在空等通信。为解决这一痛点,华为创新性推出了基于自研灵衢(UnifiedBus)互联协议的“超节点”架构。超节点的核心理念是将多台物理机器在逻辑和使用上视为单一设备,通过大带宽、低时延互联网络,实现计算单元、存储单元的平等互联和全局资源池化。这显著降低了通信时延至百纳秒级,大幅提升了集群利用率,并使有效算力能够随集群规模线性拓展,同时增强了系统可靠性。

华为基于超节点架构打造了覆盖全场景的产品组合。其中包括:
* **旗舰标杆**:Atlas 950 SuperPoD和Atlas 960 SuperPoD,分别支持8192和15488张昇腾卡,具备8E FLOPS FP8算力和16PB/s的总互联带宽,采用全液冷、零线缆电互联设计和“UB-Mesh”递归直连拓扑,最大支持8192卡无收敛全互联。同时发布了算力规模超50万卡和百万卡的Atlas 950/960 SuperCluster。
* **企业普惠**:Atlas 850,业界首个企业级风冷AI超节点服务器,可在单柜20千瓦以内的标准风冷机房内构建最大1024卡的超节点集群,大幅降低企业部署门槛。
* **基础计算单元**:基于昇腾950PR芯片的Atlas 350标卡,通过4个灵衢端口实现多卡互联与资源池化,支持更小单位上的模型运行和灵活扩展。
* **通用计算场景**:华为将这一架构首次应用于通用计算领域,推出了业界首款通算超节点——TaiShan 950 SuperPoD,其低时延和内存池化能力将利好数据库、虚拟化和大数据等场景。

在技术创新之外,华为强调“硬件开放、软件开源”的生态战略,开放NPU模组、主板等硬件,并全面开源昇腾CANN和灵衢组件,以构建繁荣的AI生态。目前,基于灵衢的Atlas 900 A3超节点已在互联网、金融、电力等20余个客户中部署300多套,验证了其价值,预示着AI算力未来将从云端向企业、工作站无缝贯穿。

怜星夜思:

1、华为的「灵衢互联」协议是超节点的核心,文章提到它解决了现有大集群的通信瓶颈。想问下大家,从技术角度看,灵衢相比其他主流的高速互联技术(比如NVLink或InfiniBand)有哪些独到之处?未来在超大规模甚至跨数据中心场景下,它可能面临哪些新的挑战或者发展方向呢?
2、华为超节点发布时特别强调了「开放硬件,软件开源」的生态策略。在当前AI算力市场竞争日益激烈的情况下,大家觉得这种开放策略对华为超节点的推广和成功有多重要?构建并维护一个繁荣的开源生态会有哪些潜在的困难?
3、Atlas 850把超节点带到了企业级的风冷数据中心,降低了部署门槛。大家觉得这种『普惠化』的超节点架构,对于咱们中小企业或者传统行业的AI落地会有多大帮助?它可能会催生出哪些之前因为算力限制而难以实现的新应用或新场景呢?

原文内容

机器之心报道

机器之心编辑部

超节点架构重新定义大规模有效算力新范式。


AI 算力正在迎来全新形态,革新的原点来自国内。


在算力需求呈指数级增长的今天,AI 基础设施的规模竞赛似乎陷入了一个怪圈:随着集群规模扩大,传统通过「服务器堆叠和以太网联接」的模式,会因服务器间带宽不足、时延大等问题,导致有效算力利用率反而越低,训练中断也愈发频繁。


在昨天的华为全联接大会 2025 上,华为给出了自己的解法:基于自研的灵衢(UnifiedBus)互联协议,创新了超节点架构。


这并非又一个单纯的硬件升级,而是华为在计算系统架构层的一次深度重构。


要实现超节点架构,最难、也最关键的是突破互联瓶颈。


在传统服务器架构中,我们可以将其理解为一个由无数独立「计算岛屿」(服务器)组成的群岛,岛屿之间依靠传统的网络「航线」(如以太网 / IB 网络)进行数据交换。


在集群规模较小时,这种模式尚能应付;但当成千上万个计算单元需要为同一个庞大的训练任务进行高频、海量的数据同步时,这些「航线」就会迅速拥堵。


其结果是,大量的计算单元不是在计算,而是在「等待」数据。节点间的通信延迟和带宽限制成为了整个集群的木桶短板,导致「1+1<2」的规模效应递减,算力利用率随规模扩大而下降。在万亿模型训练中,约有 40% 的时间,计算在空等通信。


更致命的是,任何一个节点的故障都可能引发连锁反应,导致动辄耗时数周的训练任务中断,造成巨大的资源浪费。可以说,互联架构的能力,直接决定了 AI 集群规模的天花板。


华为希望以超节点创新的形式,改变传统集群「堆叠」模式,解决当前大规模 AI 计算最核心的痛点:通信墙。


互联技术的研发难度极大,正如业界关注的 NVL144 的上市时间已推迟到明年下半年,而华为的独特之处在于,基于灵衢互联,已经成功实现了超大规模的超节点部署,验证了该技术路线的成熟与领先。



从「堆叠」到「融合」,深度互联推动 AI Scaling Up


「超节点」架构的核心思想,在于「融合」。超节点在物理上由多台机器组成,但逻辑和使用上可以看做是单一设备。它通过大带宽、低时延的互联网络,将计算单元、存储单元等组件平等互联,并统一通信协议与内存编址,实现全局资源池化,从根本上解决了传统集群的通信墙问题。



基于这样的架构,能够将通信时延降低到百纳秒级,大幅提升集群利用率,降低通信成本。其最终目标是让有效算力随集群规模实现真正的线性拓展,并大幅提升系统的长效可靠性。


华为董事、ICT BG CEO 杨超斌在昨天的华为全联接大会上表示:「基于灵衢互联协议,华为创新了超节点架构,可将多台物理机器深度互联,实现逻辑层面像一台机器一样学习、思考与推理,重新定义了高效、稳定、可扩展的大规模有效算力新范式。」


华为董事、ICT BG CEO 杨超斌在华为全联接大会上。


覆盖全场景的创新产品组合


随着 AI 基础建设的快速演进,超节点或许会很快成为 AI 基础设施的新常态。


而超节点不仅仅应用于 AI 数据中心,更需要普惠千行万业的 AI 计算需求。为此,基于超节点架构,华为打造出满足大型数据中心、企业级数据中心到小型工作站等全场景算力需求的创新产品。


  • 旗舰标杆:Atlas 950 SuperPoD


本次大会,华为发布 Atlas 950 SuperPoD 和 Atlas 960 SuperPoD 超节点,分别支持 8192 及 15488 张昇腾卡,在卡规模、总算力、内存容量、互联带宽等关键指标上全面领先。



这是给顶级玩家(如云服务商、国家级智算中心)准备的「旗舰武器」,其采用的全液冷和零线缆电互联的正交架构设计,结合液冷接头浮动盲插等技术,不仅解决了超高密度下的散热和互联难题,更通过系统性创新解决了跨柜长距离、高可靠部署这一业界难题,更极大地提升了系统的长期运行可靠性和机房部署适应性


其 FP8 算力达到 8E FLOPS,总互联带宽高达 16PB/s,超过今天全球互联网峰值带宽的 10 倍有余。


其创新的「UB-Mesh」递归直连拓扑,最大可支持 8192 卡无收敛全互联,这意味着在理论上,集群内的任意两个 NPU 都能实现最高效的通信,为万亿参数级别模型的训练扫清了障碍。


基于超节点,华为同时发布了全球最强超节点集群 Atlas 950 SuperCluster 和 Atlas 960 SuperCluster,算力规模分别为超过 50 万卡和百万卡,成为了全球最强算力集群之一。


华为副董事长、轮值董事长徐直军在大会演讲中强调,基于中国可获得的芯片制造工艺,华为努力打造「超节点+集群」算力解决方案,可以满足持续增长的算力需求。


  • 企业普惠:Atlas 850


这或许是本次发布中最具市场穿透力的产品。作为业界首个企业级风冷 AI 超节点服务器,它首次将超节点架构带入企业级风冷数据中心,极大地降低了企业部署超节点架构的门槛。


这意味着,大多数企业无需对现有数据中心进行复杂的液冷改造,在大多数单柜供电能力为 20 千瓦以内的标准风冷机房内,也能构建起最大 1024 卡的超节点集群,这对于推动大模型在更广泛行业的「后训练」和多场景推理应用意义重大。


杨超斌发布 Atlas 850 企业级风冷服务器。


  • 基础计算单元:Atlas 350 标卡


基于最新的昇腾 950PR 芯片,这款标卡不仅自身性能大幅提升(如推荐推理场景性能提升 2.5 倍),更关键的是,它通过 4 个灵衢端口实现了多卡互联与资源池化。


这意味着,即便是单个服务器内的多张标卡,也能「攒」出一个小型的超节点,让更大参数的模型和更低时延的应用得以在更小的单位上运行。同时,灵活扩展、可拆可合的特性,也让用户能够根据自己的需求,灵活组装。


  • 通用计算场景:TaiShan 950 SuperPoD


这是华为超节点战略的延伸,也是一个值得关注的信号,华为将这一架构首次应用于通用计算领域,推出了业界首款通算超节点。


百纳秒级超低时延和内存池化能力,将直接利好数据库、虚拟化和大数据等对延迟极其敏感的场景,为传统 IT 架构的性能提升开辟了新的想象空间。


值得一提的是,基于 TaiShan 950 超节点打造的 GaussDB 多写架构,无需改造即可平滑替代大型机、小型机上的传统数据库,为传统 IT 架构的性能提升开辟了新的想象空间。


以「开源开放」构建护城河


在发布一系列「肌肉感」十足的硬件产品之余,华为反复强调的是「硬件开放、软件开源」的生态战略。



在 AI 时代,单一厂商的技术再强,也无法包揽所有场景的应用创新。真正的壁垒,在于生态的繁荣度。


硬件开放:华为将 NPU 模组、刀片、主板等基础硬件向伙伴开放,鼓励产业界进行二次开发,共同丰富基于灵衢协议的产品形态,为不同场景提供适配的算力底座。


软件开源:将昇腾 CANN 和操作系统灵衢组件全面开源,代码将陆续合入 openEuler 等开源社区,并确保对 PyTorch、vLLM 等主流框架的优先支持。通过强化开源运作,华为致力于使能广大开发者和合作伙伴,让超节点走向普惠和协同创新,共建繁荣的 AI 生态。


昨天的大会上,华为除了发布全球最强超节点,公布全新昇腾 950 芯片架构之外,还介绍了自研算力体系的落地情况:基于灵衢的 Atlas 900 A3 超节点当前已经累计部署了 300 多套,服务 20 余个客户,行业覆盖互联网、金融、运营商、电力、制造等。新一代超节点已在客户真实场景中兑现了价值。


算力的未来,在于打破边界。「超节点架构的核心使命,就是构建一个统一、可扩展的算力基石,旨在将一致的、高性能的计算体验,从云端无缝贯穿到每一个企业和工作站。


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

哟,这问题问到点子上了!我感觉灵衢牛就牛在它想把整个集群当『一台电脑』来使,这就厉害了。不像传统的那堆服务器,你得跑程序去协调它们,灵衢说不定在硬件层就给你搞定了。至于跟NVidia和InfiniBand比,我的理解是灵衢更像个大管家,把所有东西都管起来了,统一调度。NVLink更多是兄弟A和兄弟B手拉手,InfiniBand是兄弟们都通电话。未来挑战?这玩意儿用起来是不是要专门的编程模型?兼容性怎么样?万一哪个地方出问题了咋排查?肯定还有很多坑要华为填。

Atlas 850 将超节点带入风冷数据中心,这对于中小型企业和传统行业是实实在在的利好。过去,部署高性能AI集群往往需要昂贵的液冷改造,这对外行来说是个巨大的门槛。现在,在现有的风冷机房里就能构建起千卡级别的超节点,意味着更多企业可以负担得起高性能AI训练和推理。这可能催生出更细致的行业垂直大模型(例如针对特定制造流程的缺陷检测模型、金融风控的定制化模型),以及在本地化数据处理和隐私保护场景下的AI应用,比如不方便上云的政企数据分析、医疗诊断辅助等,加速AI在各行各业的深度融合。

关于灵衢互联与NVLink、InfiniBand的对比,我觉得核心差异可能在于其作为『统一总线』的设计理念。NVLink主要侧重GPU间点对点的高带宽连接,是英伟达生态内的深度优化。InfiniBand则更像一个通用的高性能网络,适用于CPU与GPU、存储间的互联。灵衢的『一台机器』逻辑暗示它可能在总线层面实现了更深度的资源池化和内存编址统一,这在驱动万卡级别集群时,能更有效地减少CPU与NPU之间的通信开销和同步延迟。未来挑战嘛,跨数据中心的互联,尤其是在多租户隔离、故障恢复与安全性方面,将是更大的考验,需要分布式系统和网络协议层面更深远的创新。

嗯,Atlas 850听起来是挺香的,降低了硬件部署门槛。但别忘了,除了硬件,还有数据、算法、人才啊。很多中小企业就算有了千卡级别的超节点,他们有足够高质量的数据去训练大模型吗?有懂AI的专家来调优模型吗?这才是真正的『卡脖子』。当然,硬件普惠化肯定是第一步,但要真正改变格局,还需要整个AI生态的协同努力,比如有没有更容易上手的工具链、更便宜的数据服务等等。所以,希望能解决硬件门槛,但也要看到其他更深层次的问题。

华为强调的『硬件开放、软件开源』策略,在AI领域至关重要。封闭生态往往意味着技术路径单一和市场受限,尤其是在AI这样快速迭代且应用场景碎片化的领域。开放策略能够吸引更多的开发者和合作伙伴,共同完善技术栈、丰富应用案例,从而形成规模效应。这不仅能降低用户采纳成本,也能提升华为自身技术的行业渗透率和影响力。然而,挑战在于如何平衡开放性与核心技术的竞争力保护,以及如何激励社区持续贡献和维护高质量的代码,尤其是在面对国际技术标准和知识产权的复杂性时。

哈哈哈,问灵衢跟NVLink比?那不就是问华为和英伟达谁家媳妇儿更漂亮嘛!不过说正经的,文档里写的百纳秒级时延确实很唬人,听起来比『等半天数据』肯定强多了。我觉得未来最大的挑战可能不是技术本身,而是生态。再好的互联,大家不来玩儿也没用。还有,万一真的搞到跨数据中心,那物理距离摆在那里,光速都快不过,总不能搞个『量子互联』吧? :joy:

开放策略简直是明智之举啊!你想啊,光靠华为一家肯定不可能把所有场景都吃透,AI大模型这玩意儿,行业需求千差万别。大家都来玩儿,把工具链磨得更顺手,应用搞得更丰富,那超节点的蛋糕才能做得更大。就像安卓一样,开放之后才有了今天的生态。当然,困难肯定是有的,比如大家开发出来的东西质量参差不齐咋办?核心技术会不会被山寨?但我相信华为会有一套自己的管理和激励机制来保证生态的健康发展。

哇,光是听到『风冷数据中心也能跑超节点』就觉得很酷了!这意味着以后我们小公司也能玩儿大模型了,不再是大厂的专属玩具。我猜有很多创意可能之前因为算力原因无法落地,现在可以放手去尝试了。比如,一些涉及大量本地数据处理的边缘AI应用,或者需要实时处理海量传感器数据的工业AI,都可能因此迎来爆发。甚至可能出现一些面向中小企业的『AI算力租赁』服务,大家按需使用,大大降低了AI创新的门槛。未来已来,真让人期待!