华为盘古大模型开源:技术解析与应用展望

华为开源盘古大模型,包含70亿和720亿参数版本,并分享昇腾推理技术。直播将深入解析模型训练与推理优化,展现应用效果,不容错过。

原文标题:直播预告:「开箱」华为盘古首个开源大模型

原文作者:机器之心

冷月清谈:

华为开源了盘古 Embedded 和盘古 Pro MoE 两款大模型,以及基于昇腾的模型推理技术。盘古 Pro MoE 在 SuperCLUE 榜单上表现优异,达到国内领先水平,尤其在智能体任务、文本理解和创作领域。盘古 Embedded 在学科知识、编码、数学和对话能力方面也表现出色。这些模型采用了分组混合专家 MoGE 算法、自适应快慢思考合一等技术,具有高效的训练和推理能力,对于注重效率的行业应用至关重要。本次直播将邀请华为盘古幕后的研究人员深入解析这两个模型在训练和推理优化方面的核心技术,并通过盘古 Pro MoE 的实际演示展现其应用效果,帮助大家深入理解并解答相关疑问。

怜星夜思:

1、盘古 Embedded 模型采用的快慢思考框架具体是如何实现效率与深度自适应协调的?在实际应用中,手动/自动模式切换是如何发挥作用的?
2、盘古 Pro MoE 模型中提到的 MoGE 创新架构,通过混合专家分组的路由策略来解决传统 MoE 模型的负载不均衡问题。那么,这个分组的依据是什么?是如何保证不同设备间专家数量均衡的?在实际训练过程中,这种策略会带来哪些额外的挑战?
3、昇腾平台 Pangu Pro MoE 全链路高性能推理系统优化实践中,提到的 H2Parallel 分层混合并行优化、TopoComm 拓扑亲和通信优化、DuoStream 多流融合通算掩盖等技术,分别解决了哪些具体的问题?这些技术在其他AI芯片或者平台上是否具有普适性?

原文内容


这周一,开源阵营又迎来一个重磅玩家 —— 华为盘古。


这次,这个新玩家一口气宣布了两个大模型的开源 ——70 亿参数的稠密模型盘古 Embedded」和 720 亿参数的混合专家模型「盘古 Pro MoE」,甚至连基于昇腾的模型推理技术也一并开源了。



综合来看,这两个大模型都不是「等闲之辈」:在 SuperCLUE 5 月榜单上,盘古 Pro MoE 在千亿参数量以内的模型中,排行并列国内第一。在智能体任务上,它的打榜成绩甚至比肩 6710 亿参数的 DeepSeek-R1,在文本理解和创作领域也达到开源模型的第一名。盘古 Embedded 也是相当能打,在学科知识、编码、数学和对话能力方面均优于同期同规模模型。


更重要的是,这些模型采用了一些领先的技术来实现高效的训练和推理,比如分组混合专家 MoGE 算法、自适应快慢思考合一以及全链路的高性能推理系统优化。在极度注重效率的行业应用中,这些技术至关重要,也是当前大模型赛道除了性能之外的竞争重点。


在之前的文章中,机器之心已经对这些技术做了一些介绍(见文末扩展阅读)。在阅读过程中,大家可能有一些疑问。不过,没关系,7月4日,我们请来了华为盘古幕后的多位研究人员进行技术分享和交流,一次性帮大家解答疑惑。


这些研究人员将深入解析两个模型在训练和推理优化方面的核心技术,并通过盘古 Pro MoE 的实际演示展现其应用效果。无论你是学术研究者还是行业从业者,都将从这场技术分享中获得宝贵的洞察和启发。



主题一:盘古 Embeded: 灵活切换快慢思考的高效大语言模型


内容概览


本研究提出了盘古 Embeded(一款兼具高效性与推理能力的灵活思维语言模型),该模型基于昇腾神经网络处理器(NPUs)训练,具备快速与深度交替的思维能力。


针对现有推理大语言模型存在的计算成本过高(参数量大)和延迟问题(由冗长的思维链冗长),我们构建了多维优化框架,整合三大核心技术:(1)迭代式蒸馏微调策略平衡基础推理能力提升与任务特定适配;(2)通过延迟容忍调度框架实现昇腾平台上的可扩展强化学习,该框架创新性地结合延时同步并行(SSP)与分布式优先数据队列;(3)双系统快慢思维框架实现效率与深度的自适应协调,提供手动 / 自动模式切换功能以灵活应对不同任务需求。


实验表明,盘古 Embeded 在显著降低推理延迟的同时保持卓越推理精度,特别适用于移动设备等资源受限场景。本研究开创了在保持实际部署能力前提下,通过统一方法提升端侧大语言模型推理能力的路径。


分享嘉宾


陈汉亭,北京大学智能科学专业博士,现任华为诺亚方舟实验室高级研究员,主要研究方向为大语言模型架构、压缩加速、reasoning 等,在国际顶级会议、期刊发表论文 50+篇,论文被引用 8000+次,担任 NeurIPS 等国际顶级学术会议领域主席,曾获 CVPR24 最佳学生论文 runner up,曾入选斯坦福全球 Top2% 学者榜单。



主题二:昇腾原生的盘古 MOE 大模型


内容概览


MOE 模型可以兼容模型效果和推理效率,已经逐渐成为业界模型的主流。本研究提出 Pangu Pro MoE,一款昇腾原生的 MOE 大模型(总参数 72B,激活参数 16B),兼顾精度和效率,在权威榜单 SuperCLUE 千亿内模型档位上并列国内第一。


为解决传统 MoE 模型的负载不均衡问题,本研究提出 MoGE 创新架构,通过混合专家分组的路由策略,最大程度保证了不同设备间专家数的均衡,并在昇腾平台上建模仿真,选取昇腾亲和的最优规格。此外,通过混合并行优化、通算融合、量化压缩、算子优化等系统方法,软硬协同优化,大幅提升了模型在昇腾 910、昇腾 310 等硬件平台的推理效率。


基于大量高质量数据,模型在 4000 + 昇腾 NPU 集群长稳训练,拥有强大的慢思考能力,在通用知识、数学推理等多个方面均取得了优于现有同规模模型的效果,详细技术报告可见:https://arxiv.org/pdf/2505.21411.


分享嘉宾


唐业辉,华为诺亚方舟实验室高级研究员,主要研究方向是深度学习和 AI 大模型,特别是大语言模型的架构、训练和高效部署。他负责训练了多个盘古基础大模型,其中盘古 Pro MoE(72B)大模型、盘古 Ultra MoE(718B)大模型综合能力同量级业界领先,1.5B、3B 等端侧大模型在多款终端产品商用。他博士毕业于北京大学,在 NeurIPS、ICML 等顶会发表论文 50 余篇,谷歌学术被引 8000 余次,并担任 NeurIPS 等国际顶级会议领域主席(Area Chair)。



主题三:昇腾平台 Pangu Pro MoE 全链路高性能推理系统优化实践


内容概览


Scaling Law 持续演进的趋势下,混合专家(MoE)架构凭借其动态稀疏计算特性而备受青睐,其能够在同等算力规模下训练出参数更大且效果更优的模型,已成为通往通用人工智能(AGI)的关键路径。然而,MoE 模型在推理部署时存在内存占用高、访存效率低、路由不均衡等问题,直接部署的推理性能低下。


针对这些难题,本研究围绕盘古 Pro MoE 模型和昇腾平台开展软硬协同系统优化,在系统侧构建 H2Parallel 分层混合并行优化、TopoComm 拓扑亲和通信优化、DuoStream 多流融合通算掩盖等技术,实现最优分布式并行推理提高计算效率;在算子侧设计开发 MulAttention 融合计算、SwiftGMM 融合计算、MerRouter 融合计算等算子融合技术,充分释放昇腾的澎湃算力。


通过模型架构与昇腾平台亲和的系统优化,能够大幅提升盘古 Pro MoE 模型在昇腾平台的推理效率,实现极致推理性能。


分享嘉宾


李小松,华为先进计算与存储实验室高级研究员,博士毕业于清华大学,主要研究方向为推理系统性能优化和 AI 计算系统架构,在国际顶级会议和期刊发表论文 10 余篇。



主题四:盘古 Pro MoE 实例演示


内容概览


围绕通用问答、复杂推理、金融场景等任务,我们将直播演示盘古模型的特性并做深度解析。


分享嘉宾


刘方程,华为诺亚方舟实验室研究员,硕士研究生毕业于北京大学。近期的主要研究方向包括语言模型的预训练和推理加速。多项研究成果发表于 ICML、NeurIPS 等顶级学术会议,曾获得 ImageNet 无限制对抗攻击 @CVPR2021 赛道冠军。



扩展阅读:


  • ?》


直播间


本次分享将在机器之心视频号与黄大年茶思屋科技网站直播,欢迎大家关注预约。




这涉及到模型内部的决策机制。一种可能的实现方式是,模型在接收到输入后,首先进行初步的快速处理,基于结果的不确定性或任务的复杂度,决定是否需要进入慢思考模式。如果初步结果置信度高或者认为任务简单,就直接输出;否则,激活慢思考模块,进行更深入的分析。手动/自动模式切换则允许开发者根据具体的应用场景进行干预,例如在资源受限的设备上,可以强制模型使用快思考模式,以节省计算资源。

这个问题问到了MoE模型的核心!我理解分组的依据可能是专家之间的相似性或者擅长的领域。例如,可以将擅长处理自然语言的专家分到一组,擅长处理图像的专家分到另一组。然后,根据输入数据的特性,动态地将数据路由到最合适的专家组进行处理。保证不同设备间专家数量均衡,可能需要复杂的调度算法和通信机制。这种策略带来的挑战也很明显,比如如何有效地衡量专家之间的相似性,如何设计高效的路由算法,以及如何在分布式环境下保证数据的一致性。

盘古Embedded的快慢思考框架,我理解核心在于模仿人类的思考方式。快思考类似直觉反应,依赖于模型预训练的知识,速度快但可能不够深入;慢思考则更像逻辑推理,通过逐步分析来解决问题,更准确但耗时。自适应协调的关键在于判断任务的难度,并动态调整两种思考模式的比例。手动模式适用于对任务类型有明确预期的场景,比如客服机器人可以针对不同用户问题采用不同策略。自动模式则更智能,模型能自我评估问题复杂度,选择合适的思考路径。

谢邀,这题我会一点点。个人理解,分组的依据可能是基于专家对于不同类型数据的处理能力,比如文本、图像、语音等。通过对专家进行分组,可以更有效地将数据分配给最合适的专家组进行处理,从而提高整体的效率。为了保证不同设备间专家数量的均衡,可能需要引入一些负载均衡的算法,比如动态调整专家组的大小,或者将部分专家迁移到负载较低的设备上。但是这种策略也会带来一些额外的挑战,比如如何选择合适的分组依据,如何设计高效的负载均衡算法。这些都需要深入的研究和实践。

这些优化技术都围绕着一个核心目标:最大化利用硬件资源,减少瓶颈。H2Parallel通过更灵活的模型并行策略,应对不同层间的计算需求差异;TopoComm则关注数据传输效率,让计算节点间的通信更高效;DuoStream则试图隐藏通信延迟,提高整体吞吐量。这些技术在其他平台上的普适性取决于平台的硬件特性和软件生态。一些通用的优化思路,例如算子融合,在不同平台上都有价值,但具体的实现可能需要针对平台进行适配。

这个问题很有意思!从我的理解来看,快慢思考的切换就像是CPU的睿频技术。在简单任务下,模型使用“快思考”模式,迅速给出答案,节省计算资源;而面对复杂任务时,则切换到“慢思考”模式,进行更深入的分析和推理。手动/自动模式切换则提供了更高的灵活性:手动模式允许开发者根据实际场景进行精细调整,例如在对实时性要求极高的场景下强制使用快思考;自动模式则让模型能够根据任务的复杂程度自主选择,实现最佳的效率和精度平衡。

MoGE架构的核心在于“混合”,这个混合既体现在专家类型的混合,也体现在路由策略的混合。分组依据可能综合考虑专家的功能、性能等多个维度,例如将计算复杂度相近的专家分到一组,以减少负载差异。保证均衡的关键在于动态调整,可能需要一个反馈机制,监测各设备的负载情况,并实时调整路由策略。额外的挑战在于架构的复杂性,需要更精细的调优和更强大的基础设施支持。

这些优化技术都是在特定硬件平台上的深度定制。H2Parallel 解决的是模型并行的问题,可以让模型在多个设备上运行,从而提高推理速度。TopoComm 解决的是通信效率的问题,让设备之间的通信更加高效。DuoStream 解决的是计算和通信之间的瓶颈问题,通过将计算和通信并行进行,从而提高整体的效率。这些技术在其他 AI 芯片或平台上是否具有普适性,取决于这些平台是否具有相似的硬件特性。如果平台具有相似的硬件特性,那么这些技术就可以被移植到这些平台上。

这些技术听起来就很硬核!H2Parallel 可能是为了解决模型太大,单卡放不下的问题,通过模型并行来分摊计算和存储压力。TopoComm 则是针对分布式环境下的通信优化,让数据传输更快更高效。DuoStream 感觉像是异步计算,让计算和通信可以并行进行,减少等待时间。至于普适性,有些技术可能依赖于昇腾平台的特性,但并行计算、通信优化这些思路在其他平台也应该适用,只是具体的实现方式可能会有所不同。