百度开源文心大模型 4.5 系列,涵盖 10 余款模型

百度开源文心大模型4.5系列,包含10款模型,权重和代码完全开源,多项技术创新使其在多项测试中达到SOTA水平。

原文标题:文心大模型 4.5 系列正式开源,涵盖 10 余款模型

原文作者:AI前线

冷月清谈:

百度正式开源文心大模型 4.5 系列,包含 47B、3B 激活参数的混合专家模型以及 0.3B 参数的稠密型模型等共 10 款模型,并完全开源预训练权重和推理代码。该系列模型已可在飞桨星河社区、HuggingFace 等平台下载部署使用。文心大模型 4.5 通过多模态异构 MoE 预训练、可扩展高效的基础设施以及针对特定模态的后训练等技术创新,在文本理解生成、图像理解及跨模态推理等任务上性能突出。实验结果表明,该系列模型在多个文本和多模态基准测试中达到 SOTA 水平,尤其在指令遵循、世界知识记忆、视觉理解和多模态推理任务上表现出色。

怜星夜思:

1、文心大模型 4.5 系列此次开源,对国内大模型生态会产生什么影响?
2、文章提到文心大模型 4.5 在多模态方面表现出色,你认为多模态大模型未来有哪些应用前景?
3、文章中提到了 MoE (混合专家) 架构,这种架构有什么优势?为什么百度要在文心大模型 4.5 中采用这种架构?

原文内容

作者 | 褚杏娟

6 月 30 日,百度正式开源文心大模型 4.5 系列模型,涵盖 47B、3B 激活参数的混合专家(MoE)模型,与 0.3B 参数的稠密型模型等 10 款模型,并实现预训练权重和推理代码的完全开源。

目前,文心大模型 4.5 开源系列已可在飞桨星河社区、HuggingFace 等平台下载部署使用,系列权重按照 Apache 2.0 协议开源,同时开源模型 API 服务也可在百度智能云千帆大模型平台使用。值得关注的是,此次文心大模型 4.5 系列开源后,百度实现了框架层与模型层的“双层开源”。

相关链接:

https://huggingface.co/models?other=ERNIE4.5

https://aistudio.baidu.com/modelsoverview

早在今年 2 月,百度就已预告了文心大模型 4.5 系列的推出计划,并明确将于 6 月 30 日起正式开源。

文心大模型 4.5 是百度于 2025 年 3 月 16 日发布的新一代多模态基础大模型,属于百度人工智能核心产品体系的重要升级版本。此次百度一次性推出 10 款文心大模型 4.5 系列开源模型,在独立自研模型数量占比、模型类型数量、参数丰富度、开源宽松度与可靠性等关键维度上,均处于行业领先位置。

据介绍,ERNIE 4.5 型号(尤其是基于 MoE 的 A47B 和 A3B 系列)的先进功能由几项关键技术创新支撑:

  • 多模态异构 MoE 预训练。基于文本与视觉模态进行训练,更精准捕捉多模态信息的细微差异,从而提升文本理解生成、图像理解及跨模态推理等任务性能。为避免模态间学习相互干扰,百度团队设计了异构 MoE 结构,并引入了模态隔离路由机制,采用路由正交损失与多模态 token 均衡损失双重优化。这些架构设计确保两种模态特征均得到高效表征,从而在训练过程中实现相互强化。
  • 可扩展高效的基础设施。百度团队提出了一种新异构混合并行和分层负载均衡策略,以实现 ERNIE 4.5 模型的高效训练。通过采用节点内专家并行、内存优化流水线调度、FP8 混合精度训练和细粒度重计算方法,显著提升预训练吞吐量。在推理方面,提出了多专家并行协作方法和卷积码量化算法,以实现 4-bit/2-bit 无损量化。此外,团队还引入了具有动态角色切换的 PD 分解,以有效利用资源,从而提升 ERNIE 4.5 MoE 模型的推理性能。基于 PaddlePaddle 构建的 ERNIE 4.5 可在各种硬件平台上提供高性能推理。
  • 针对特定模态的后训练。为了满足实际应用的多样化需求,团队针对特定模态对预训练模型的变体进行了微调,并针对通用语言理解和生成进行了优化。VLM 专注于视觉语言理解,并支持思考和非思考模式。每个模型都结合使用了监督微调 (SFT) 、 直接偏好优化 (DPO) 或一种名为统一偏好优化 (UPO) 的改进强化学习方法进行后训练。

此外,文心大模型 4.5 开源系列均使用飞桨深度学习框架进行高效训练、推理和部署。在大语言模型的预训练中,模型 FLOPs 利用率(MFU)达到 47%。实验结果显示,其系列模型在多个文本和多模态基准测试中达到 SOTA 水平,尤其在指令遵循、世界知识记忆、视觉理解和多模态推理任务上效果突出。

百度表示,在文本模型方面,文心大模型 4.5 开源系列基础能力强、事实准确性高、指令遵循能力强、推理和编程能力出色,在多个主流基准评测中超越 DeepSeek-V3、Qwen3 等模型。在多模态模型方面,文心大模型 4.5 开源系列拥有卓越的视觉感知能力,同时精通丰富视觉常识,并实现了思考与非思考统一,在视觉常识、多模态推理、视觉感知等主流的多模态大模型评测中优于闭源的 OpenAI o1。此外,在轻量模型上,文心 4.5-21B-A3B-Base 文本模型效果与同量级的 Qwen3 相当,文心 4.5-VL-28B-A3B 多模态模型也是目前同量级最好的多模态开源模型,甚至与更大参数模型 Qwen2.5-VL-32B 不相上下。

文心 4.5 预训练模型在主流基准测试中表现

文心 4.5-300B-A47B 模型在主流基准测试中表现 
文心多模态后训练模型(支持思考、关闭思考)的多个多模态基准测试 

点击底部阅读原文访问 InfoQ 官网,获取更多精彩内容!


会议推荐

首届 AICon 全球人工智能开发与应用大会(深圳站)将于 8 月 22-23 日正式举行!本次大会以 “探索 AI 应用边界” 为主题,聚焦 Agent、多模态、AI 产品设计等热门方向,围绕企业如何通过大模型降低成本、提升经营效率的实际应用案例,邀请来自头部企业、大厂以及明星创业公司的专家,带来一线的大模型实践经验和前沿洞察。一起探索 AI 应用的更多可能,发掘 AI 驱动业务增长的新路径!


今日荐文

图片

你也「在看」吗?👇

从资源利用的角度看,MoE 是一种更高效的模型扩展方式。传统的模型扩展方式是增加模型参数,但这会导致计算成本大幅增加。MoE 通过选择性地激活部分专家,可以在保证性能的同时,降低计算成本。这对于大规模模型的训练和部署至关重要。

开源确实是好事,但是关键还得看实际应用效果。如果开源的模型在实际场景中表现不佳,或者部署和使用过于复杂,可能最终也只是热闹一时。希望这次文心大模型 4.5 的开源能够真正解决一些实际问题,推动产业升级。

MoE 的优势在于它可以在不显著增加计算成本的情况下,提升模型的容量和性能。简单来说,MoE 就像一个专家团队,每个专家负责处理特定类型的问题。当一个问题到来时,模型会根据问题的特点,选择合适的专家来处理。这样,模型就可以处理更复杂的问题,而不需要每个专家都掌握所有知识。

文心大模型 4.5 的开源无疑会加速国内大模型技术的发展。更多的开发者可以基于这些开源模型进行二次开发和创新,降低了入门门槛,推动整个行业的繁荣。同时,竞争也会更加激烈,迫使各家厂商不断提升自身的技术实力。

多模态大模型未来潜力无限啊!比如,在智能客服领域,可以结合语音、图像和文本信息,更准确地理解用户需求,提供个性化服务。在医疗领域,可以通过分析医学影像和病历文本,辅助医生进行诊断。甚至在自动驾驶领域,也可以利用多模态信息提高感知能力,确保行车安全。

我觉得这事儿挺好的,有点像当年安卓开源一样。能让更多的小公司和研究机构参与进来,避免被几家大厂垄断。而且开源也有助于发现和修复bug,提高模型的质量。

我觉得吧,多模态听起来高大上,其实很多应用场景还是很实际的。比如,我上次看到一个项目,想做一个“看图说话”的机器人,给盲人朋友讲新闻。这种应用虽然不复杂,但是很有意义。

从学术角度来看,多模态学习是实现通用人工智能的关键一步。人类的认知是多模态的,我们通过视觉、听觉、触觉等多种感官获取信息。多模态大模型能够更好地模拟人类的认知过程,从而实现更高级的智能。长期来看,它将推动人工智能在各个领域的应用。

我理解 MoE 就像是把一个大公司拆成几个小部门,每个部门专攻一块业务。这样做的好处是能提高效率,避免资源浪费。文心大模型 4.5 采用 MoE 架构,估计也是为了应对大模型训练和推理的挑战,毕竟参数太多了,全部激活跑起来估计服务器都要烧了。