华为开源盘古大模型:70亿稠密模型、Pro MoE 720亿混合专家模型及昇腾推理方案全公开

华为开源盘古大模型,含70亿参数稠密模型、720亿参数MoE模型及昇腾推理方案。重点在于MoGE架构和推理优化技术,旨在加速AI应用落地。

原文标题:华为盘古大模型开源,推理方案、基础代码全公开!

原文作者:AI前线

冷月清谈:

华为正式开源盘古系列大模型,包括70亿参数稠密模型、Pro MoE 720亿参数混合专家模型,以及基于昇腾的推理技术。其中,盘古 Pro MoE 模型基于华为提出的 MoGE 架构,通过分组混合专家机制实现跨设备负载均衡,有效提升训练和推理效率。华为还开源了超大规模 MoE 模型的推理部署方案,该方案通过推理框架优化、FlashComm 通信优化、硬件感知算子等技术,显著提升推理性能。此外,华为还推出了盘古 Embedded 7B 模型,该模型具备“快思慢想”双系统框架,可在昇腾 NPU 平台上实现快速响应和高质量推理的灵活切换。开源旨在推动大模型技术的研究与创新,加速人工智能在各行业的应用与价值创造。

怜星夜思:

1、华为这次开源盘古大模型,对国内AI生态会产生什么影响?除了技术层面,你觉得在产业应用上会有哪些新的机会?
2、文章中提到的MoGE架构,通过分组混合专家机制实现负载均衡,这个思路在其他分布式计算场景中有没有借鉴意义?如果让你来设计一个类似的负载均衡方案,你会考虑哪些因素?
3、华为盘古 Embedded 7B 模型提出的“快思慢想”双系统框架,你怎么理解?这种架构在实际应用中可能会遇到哪些挑战?

原文内容

整理|华卫

今日,华为正式宣布开源盘古 70 亿参数的稠密模型、盘古 Pro MoE 720 亿参数的混合专家模型和基于昇腾的模型推理技术。华为表示,“此举是华为践行昇腾生态战略的又一关键举措,推动大模型技术的研究与创新发展,加速推进人工智能在千行百业的应用与价值创造。”

根据华为官网显示:

  • 盘古 Pro MoE 72B 模型权重、基础推理代码,已正式上线开源平台

  • 基于昇腾的超大规模 MoE 模型推理代码,已正式上线开源平台。

  • 盘古 7B 相关模型权重与推理代码将于近期上线开源平台。

开源地址:https://gitcode.com/ascend-tribe

盘古 Pro MoE:

昇腾原生的分组混合专家模型

盘古 Pro MoE 模型基于分组混合专家模型(Mixture of Grouped Experts, MoGE)架构构建,总参数量为 720 亿、激活参数量达 160 亿,并针对昇腾 300I Duo 和 800I A2 平台进行系统优化。

其中,MoGE 是华为提出的创新架构,旨在从路由机制上实现跨设备的计算负载均衡。

混合专家模型(MoE)在大语言模型(LLMs)中逐渐兴起,该架构能够以较低计算成本支持更大规模的参数,从而获得更强的表达能力。这一优势源于其稀疏激活机制的设计特点,即每个输入 token 仅需激活部分参数即可完成计算。然而,在实际部署中,不同专家的激活频率存在严重的不均衡问题,一部分专家被过度调用,而其他专家则长期闲置,导致系统效率低下。

MoGE 架构设计示意图

而 MoGE 的核心思想是在专家选择阶段对专家进行分组,并约束 token 在每个组内激活等量专家,在典型的分布式部署中,每个专家分组对应独立的计算设备,从而 MoGE 天然地实现了跨设备的计算负载均衡,这一设计显著提升了训练和推理场景下的系统吞吐量。

据介绍,盘古 Pro MoE 在昇腾 800I A2 上实现了单卡 1148 tokens/s 的推理吞吐性能,并可进一步通过投机加速等技术提升至 1528 tokens/s,显著优于同等规模的 320 亿和 720 亿参数的稠密模型;在昇腾 300I Duo 推理服务器上,其也实现了极具性价比的模型推理方案。

另华为的研究表明,昇腾 NPU 能够支持盘古 Pro MoE 的大规模并行训练。多项公开基准测试结果表明,盘古 Pro MoE 在千亿内总参数模型中处于领先地位。

超大规模 MoE 模型的

推理部署方案

在 2025 年新年致辞中,华为轮值董事长孟晚舟曾提到:“华为十多个实验室与合作伙伴的工程师组成团队,面对天成 AI 集群系统和单芯片性能的工程挑战,应用了数学补物理、非摩尔补摩尔、系统补单点等思想,在散热、供电、高速、高密及大芯片在板可靠性等工程领域进行突破。”

当前,华为公布并开源相关代码的昇腾超大规模 MoE 模型推理部署方案,正是沿着这一思路,包括以下几个方面的核心技术能力:

  • 从点到面的推理框架侧优化技术

  • 把数学最优实现变为物理最优的 FlashComm 通算优化技术

  • 把串行计算变成四流并发的通算极致掩盖技术

  • 以加法代乘法昇腾 MLA 最优实现

  • 硬件感知亲和的大量创新算子

其中,OmniPlacement 是一种高效负载均衡算法,通过专家重排、层间冗余部署和近实时调度,在 3 个 token 推理步骤内实现近 90% 的专家均衡,大幅提升 MoE 推理性能。

在大模型推理优化领域,投机推理作为一种极具潜力的技术路径,通过引入轻量模型或外部知识数据,为大模型生成推理草稿,解码阶段一次推理多个 token,提升了计算密度。以 DeepSeek V3/R1 模型为例,其创新性地引入 MTP(Multi-Token Prediction)投机层,有效实现了投机推理技术的落地。投机推理在模型解码阶段的高计算密度天然匹配昇腾高算力带宽比的特点,为充分发挥这一优势,在低时延大并发场景下实现高吞吐,华为提出了投机推理框架 FusionSpec,持续提升 MTP 在昇腾上的推理性能,并使得 MTP 部分框架耗时从 10ms 左右降为 1ms。

OptiQuant 是一个基于华为昇腾芯片模型量化算法的精度解决方案,设计了层间自动混精、自动混合校准、离群值抑制、可学习的截断和 SSZW 参数量化算法,在 DeepSeek R1/V3 大模型推理场景中,实现了 INT8 量化模式与 FP8 的模型推理精度持平,而且进一步发挥了 Atlas 800I A2 和 CloudMatrix384 集群推理硬件性能。

FlashComm 系列技术通过三大创新实现“以数学补物理”的突破,用于解决大模型推理过程中面临的通信瓶颈:

  • FlashComm: 大模型推理中的 AllReduce 通信优化技术。将 AllReduce 基于通信原理进行拆解,并结合后续计算模块进行协同优化。

  • FlashComm2:大模型推理中以存换传的通信优化技术。在保持计算语义等价的前提下,实现 ReduceScatter 和 MatMul 算子的计算流程重构。

  • FlashComm3: 大模型推理中的多流并行技术。充分挖掘昇腾硬件的多流并发能力,实现 MoE 模块的高效并行推理。

在热门开源模型的实测中,FlashComm 技术展现出惊人的工程落地能力:在 Atlas 800I A2 上用两节点 16 卡部署 DeepSeekV3/R1 的场景下,采用 FlashComm 通信方案,Prefill 阶段端到端时延减少了 22%~26%。在 Atlas 800I A2 上采用单节点 8 卡部署 Llama 3.1-70B 的 A8W8 量化模型时,采用 FlashComm 通信方案,在不同并发下,Decode 阶段端到端时延减少了 4% 至 14%。

随着大语言模型的参数规模持续扩大,其推理过程对计算资源的需求持续增加,部署模式已从单卡演进到单节点再逐步演进为多卡多节点协同计算。在此过程中,华为希望通过优化一系列关键算子来提升硬件效率:

  • AMLA:以加代乘的高性能昇腾 MLA 算子。针对昇腾优化 MLA 算子,性能优于 FlashMLA 实现。

  • 大模型推理中昇腾算子融合技术与设计原理。首次披露了基于昇腾的融合算子的设计原则。

  • SMTurbo:面向高性能原生 LoadStore 语义加速。介绍了基于 CloudMatrix384 集群的 Load/Store 语义加速方案。

此外,华为围绕盘古模型和昇腾平台开展软硬协同系统优化,在系统侧构建 H2P 分层混合并行优化、TopoComm 拓扑亲和通信优化、DuoStream 多流融合通算掩盖等技术,实现最优分布式并行推理提高计算效率;在算子侧设计开发 MulAttention 融合计算、SwiftGMM 融合计算、MerRouter 融合计算等算子融合技术,充分释放昇腾芯片的算力。基于上述昇腾亲和的系统优化,Pangu Pro MoE 的推理性能提升 6~8×。

   7B 模型优于 Qwen,

灵活切换快慢思考

当前,为追求卓越推理能力而设计的大语言模型(LLM)普遍面临着巨大的计算成本和推理延迟挑战,这限制了它们的实际应用与部署。为此,华为提出了 盘古 Embedded,一个在昇腾(Ascend)NPU 上开发的高效大语言模型推理器。

其核心是一个具备“快思慢想”(fast and slow thinking)能力的双系统框架。该框架通过一个用于常规请求的“快思考”模式和一个用于复杂推理的“慢思考”模式,在延迟和推理深度之间实现了精妙的平衡。此外,模型具备元认知能力,能够根据任务复杂度自动选择最优模式。我们通过一个创新的两阶段训练框架构建此模型,该框架融合了迭代蒸馏、模型合并以及由多源自适应奖励系统(MARS)引导的强化学习。

基于该双系统框架,华为构建了 盘古 Embedded 7B 模型,并在昇腾 NPU 平台上进行了深度系统优化。该模型在单一、统一的架构内实现了快速响应和高质量推理的灵活切换。

华为的研究表明,仅有 70 亿参数的盘古 Embedded 在多个权威的复杂推理基准测试中(如 AIME, GPQA 等),其表现优于 Qwen3-8B 和 GLM4-9B 等规模相近的业界领先模型。

参考链接:

https://gitcode.com/ascend-tribe/ascend-inference-cluster/blob/main/FlashComm/FlashComm%E5%A4%A7%E6%A8%A1%E5%9E%8B%E6%8E%A8%E7%90%86%E4%B8%AD%E7%9A%84AllReduce%E9%80%9A%E4%BF%A1%E4%BC%98%E5%8C%96%E6%8A%80%E6%9C%AF.pdf

https://arxiv.org/pdf/2505.22375

声明:本文为 AI 前线整理,不代表平台观点,未经许可禁止转载。

会议推荐

首届 AICon 全球人工智能开发与应用大会(深圳站)将于 8 月 22-23 日正式举行!本次大会以 “探索 AI 应用边界” 为主题,聚焦 Agent、多模态、AI 产品设计等热门方向,围绕企业如何通过大模型降低成本、提升经营效率的实际应用案例,邀请来自头部企业、大厂以及明星创业公司的专家,带来一线的大模型实践经验和前沿洞察。一起探索 AI 应用的更多可能,发掘 AI 驱动业务增长的新路径!


今日荐文

图片

你也「在看」吗?👇

MoGE这种专家分组的思想其实在很多领域都有体现,比如微服务架构中的服务路由,或者数据库分片。借鉴意义很大,核心就是要把任务进行拆解,分配给不同的“专家”处理。如果让我设计,我会重点考虑以下几点:1. 专家的能力差异;2. 任务的类型和复杂度;3. 网络延迟和带宽;4. 动态调整的机制。

影响肯定很大!首先,降低了国内开发者使用先进大模型的门槛,大家可以基于盘古进行二次开发,甚至定制化自己的模型。产业应用上,我认为在智能制造、智慧医疗、城市治理等方面都有潜力。比如,智能制造中可以用盘古优化生产流程,智慧医疗中辅助诊断,城市治理中提升决策效率。

这不就是传说中的“让专业的人做专业的事”嘛!哈哈。MoGE的精髓在于“分组”,把擅长相似任务的专家放在一组,可以提高整体效率。如果我来设计,我会加入一些自适应的策略,比如根据专家的历史表现动态调整任务分配权重,或者引入强化学习来优化路由策略。当然,成本也是一个不得不考虑的因素。

这个“快思慢想”框架有点像人的大脑,简单的事情凭直觉快速处理,复杂的事情则需要认真思考。这种架构的优势在于可以兼顾效率和准确性。但是,实际应用中可能会遇到以下问题:1. 如何定义“复杂度”?2. 如何训练模型具备“元认知能力”?3. 如何保证“慢思考”模式的实时性?这些都需要进一步研究。

格局要变!想想看,如果更多的企业和开发者基于盘古做创新,形成一个强大的开源社区,那对整个中国AI产业的自主可控都很有意义。产业机会嘛,我觉得在一些对数据安全要求比较高的领域,比如政务、军工,可能会有更大的需求。当然,也期待看到更多个人开发者能玩出新花样。

这次开源,我觉得是华为在构建中国AI生态的重要一步。技术上,我们可以更深入地学习MoE架构和昇腾推理的优化方案。应用上,盘古的通用能力很强,可以结合不同行业的Know-How,打造更垂直、更专业的AI解决方案。比如,金融风控、教育个性化辅导等等。

我觉得“快思慢想”的关键在于“元认知”,让模型自己知道自己是否能搞定这个任务。听起来很玄乎,但其实可以通过一些技术手段来实现,比如confidence score、uncertainty estimation等等。挑战肯定有,比如:如何避免模型过度自信?如何处理两种模式的切换开销?如何保证“慢思考”模式的稳定性和可靠性?感觉还有很多坑要填。

MoGE这个思路很赞,把计算任务分解成小块,然后让不同的“专家”去处理,有点像“分而治之”。我觉得在云计算、大数据处理等方面都很有借鉴意义。设计负载均衡方案时,除了要考虑专家资源,还要关注任务之间的依赖关系,避免出现“木桶效应”。另外,监控和告警机制也很重要,出了问题要能及时发现和处理。

“快思慢想”这个概念很有意思,其实就是根据任务的难度选择不同的推理模式。简单的任务用“快思考”快速响应,复杂的任务用“慢思考”保证质量。我理解这就是一种Trade-off。挑战嘛,我觉得最大的挑战在于如何准确判断任务的复杂度,以及如何平滑切换两种模式。如果判断错误或者切换不及时,反而会影响用户体验。