TPAMI 2025: Uni-MoE——首个基于稀疏 MoE 的统一多模态大语言模型

Uni-MoE是首个基于MoE的统一多模态大模型,能高效处理多种模态数据,显著提升性能与效率。

原文标题:TPAMI 2025|专家混合+多模态统一:Uni-MoE 打开大模型性能与效率新维度

原文作者:数据派THU

冷月清谈:

Uni-MoE 是首个基于稀疏专家混合架构(MoE)统一多模态大语言模型,旨在解决当前多模态大模型虽性能优异但训练与推理成本高昂的挑战。它能够高效处理图像、视频、语音、音频及文本等多种模态输入。该模型的核心创新在于:利用模态特定的编码器与连接器(如CLIP、BEATs和Whisper),将多模态信息融合并映射到统一的语言语义空间;同时,通过在语言模型主体中嵌入稀疏MoE层,实现了token级别的智能路由,让不同的数据类型或任务由特定的“专家”FFN模块处理,从而大幅降低了计算开销并提升了推理效率。为确保模型的高效协作与强大泛化能力,Uni-MoE设计了一套三阶段渐进式训练策略:包括跨模态对齐、独立的专家FNN模块训练以及最终的联合LoRA微调。实验证明,Uni-MoE在多个复杂多模态基准任务上均超越了现有主流方法,并且激活路径分析显示专家之间形成了清晰的分工,充分印证了MoE架构在多模态领域的有效性与扩展潜力。这项研究为构建更高效、更通用的多模态大模型提供了新的范式。

怜星夜思:

1、文章提到Uni-MoE使用了MoE架构来提高效率,你觉得这种专家混合(MoE)结构,除了提升模型效率,在解决特定多模态挑战(比如不同模态间的语义理解差异大、模态异构性问题)上,还有哪些独特的潜力?它对于单模态大模型来说,是不是也能有类似的帮助?
2、Uni-MoE提到了三阶段渐进式训练策略,这种分阶段训练听起来很科学,但会不会在实际操作中带来一些新的挑战?比如,训练成本会不会反而更高、不同阶段的衔接会不会很麻烦,或者在资源管理上有没有什么特别的要求?
3、Uni-MoE 目前支持图像、视频、语音、音频、文本等五种模态。如果未来需要扩展到更多样化的模态,比如AR/VR中的触觉、嗅觉信息,MoE架构还能保持它的优势,或者说,这种扩展性有没有理论上的上限?

原文内容

来源:多模态机器学习与大模型
本文约1500字,建议阅读5分钟
本文提出 Uni-MoE:首个基于稀疏专家混合架构(MoE)的统一多模态大语言模型。


  • 论文标题: Uni-MoE: Scaling Unified Multimodal LLMs with Mixture of Experts

  • 作者: Yunxin Li, Shenyuan Jiang, Baotian Hu*, Longyue Wang*, Wanqi Zhong, Wenhan Luo, Lin Ma, Min Zhang

  • 作者单位:

    • 哈尔滨工业大学(深圳)

    • 香港科技大学

    • 美团

  • 论文链接: IEEE TPAMI, DOI: 10.1109/TPAMI.2025.3532688

  • 代码链接: 

    https://github.com/HITsz-TMG/UMOE-Scaling-Unified-Multimodal-LLMs

  • 项目主页: 

    https://uni-moe.github.io


简介


本文提出 Uni-MoE:首个基于稀疏专家混合架构(MoE)的统一多模态大语言模型,支持图像、视频、语音、音频、文本等多种模态。Uni-MoE 利用模态特定的编码器与连接器融合多模态信息,并在 LLM 中引入稀疏专家结构实现高效推理。作者设计了三阶段训练策略,显著提升了多专家协同能力与模型泛化性。实验证明 Uni-MoE 在多个复杂多模态基准任务上超越现有主流方法,同时大幅降低了计算开销。



图1. Uni-MoE的插图。与以前的密集MLLM相比,它采用MOE架构来构建一个可以处理各种方式的统一MLLM。文中将稀疏的routing控制与轻量级的finetuning方法Lora一起激活不同的专家,旨在降低计算成本。


研究动机


当前多模态大模型(如 GPT-4V、Gemini)性能优异,但其训练与推理成本极高。尽管稀疏 MoE 架构可提高单模态模型效率,但尚缺乏统一的多模态 MoE 架构模型。Uni-MoE 的目标是实现一个统一、扩展性强的多模态 LLM,同时具备高效性与泛化性。


论文贡献


  1. 模型框架:提出首个统一的稀疏 MoE 多模态框架 Uni-MoE,支持图像、视频、音频、语音、文本五种模态。

  2. 训练策略:提出三阶段渐进式训练流程,提升专家间协同与跨模态泛化能力。

  3. 实验验证:在图像、视频、语音理解等多个数据集上超越现有最优模型,验证 MoE 架构的有效性。

  4. 系统扩展性强:通过 expert-level model parallelism 与 modality-level data parallelism 实现高效训练与推理。


Uni-MoE模型


图 2. Uni-MoE 训练方法概述。渐进式训练阶段包括:1)利用来自不同模态和语言的对来训练连接器,将这些元素映射到统一的语义空间,为多模态理解奠定基础;2)使用跨模态数据培养特定模态的专家,以确保深度理解,为构建具有凝聚力的多专家模型做好准备;3)将多位训练好的专家纳入 LLM,并使用 LoRA 技术在混合多模态数据上完善统一的多模态模型。


模型框架可分为以下三个模块:

  • 模态专属编码器:CLIP(图像/视频),BEATs(音频),Whisper(语音)等

  • 模态连接器(Connectors):将多模态特征映射到语言空间

  • 语言模型主体(LLM):内嵌稀疏 MoE 层,每层包括:

    • 共享的多头注意力层

    • 多个 FFN 专家

    • token 级别路由器 Router


Connector——模特连接器

为了方便将多种模态输入高效地转换为语言格式, Uni-MoE 模型建立在预训练的LLaVA 之上。该基础模型集成了 CLIP 作为视觉编码器,以及一个线性投影层,该层将图像特征转换为 Vicuna-LLaMA语言域内对应的软图像标记。在视频内容处理方面,从每个视频中选择八个代表性帧,并通过使用平均池化来聚合它们基于帧的(图像)表示,将它们转换为视频标记。在音频领域,我们通过部署两个不同的编码器来增强特征提取:Whisper 编码器和 BEATs 编码器,后者是一种复杂的音频处理工具,可以从音频转换器生成双向编码器表示。遵循类似于 Qformer的策略,文中分别提取固定长度的语音和音频特征向量,然后通过线性投影层将它们映射到软音频和语音标记中。具体工作流程如下:




在相同操作的四层之后,应用一个可学习的线性层将最后一个输出投影到LLM的表示空间中。


Uni-MoE

通过上述连接器,可获得任意模态的编码tokens。对于任意模态输入,将相应的token连接成一个序列,并将其输入到语言模型中。将图像、视频、文本、音频和语音的嵌入表示分别表示为 I、V 、T 、A 和 S.以理解视频为例,配置 MoE 的第 l 个块的计算过程如下:



Router是一个线性函数,选择 top-k 专家:



其中:



训练流程(Progressive Strategy)

三阶段训练:


  1. 跨模态对齐:训练连接器映射各模态至语言空间,仅更新连接器参数

  2. 专家训练:使用模态特定数据训练各专家 FFN 模块

  3. 联合调优:冻结 LLM 主体,仅通过 LoRA 微调专家模块


实验结果


实验设置

  • 模型规模:基于 LLaMA-7B

  • MoE 结构:Top-2 路由器,4 或 8 个专家

  • 数据集:VQAv2, OK-VQA, MMBench, ActivityNet-QA, ClothoAQA 等

  • 评估指标:EM、CIDEr、Acc 等



实验结果与分析


  • 专家之间形成清晰分工(图像→专家2,语音→专家4)

  • 多模态 token 的路由路径学习能力强

  • 激活路径表明专家被合理利用而非平均分配


编辑:于腾凯

校对:林亦霖




关于我们

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。




新浪微博:@数据派THU

微信视频号:数据派THU

今日头条:数据派THU

哇塞,触觉和嗅觉信息都来了,那AI岂不是要成为“六边形战士”了吗?我觉得MoE架构肯定能把这个潜力挖掘出来。它本来就是分工合作的模式嘛,来一个新模态,就给它配一个“触觉专家”或者“嗅觉专家”,专门处理这方面的数据。想象一下,未来的AI不仅能看能听能说,还能“闻”到咖啡香,或者“感受”布料的质地,那应用场景简直是无限!但是,问题可能在数据收集和转换上,怎么把这些感官信息数字化,让AI理解?这估计是个大工程。而且,如果模态多到一定程度,专家路由器会不会“选择困难症”?每次处理都得在几十几百个专家里选,这决策速度会不会变慢?理论上限嘛,我猜就是人类能感知到的信息种类,AI最终都能处理吧,只是时间问题和技术难度问题。

针对讨论二:关于三阶段训练策略,确实,这种精细化训练在理论上能提升模型性能,但实际操作中存在挑战。首先,训练成本可能会显著增加。每阶段都需要单独的数据集准备、模型调优和资源分配,调试和验证每个阶段的成果也耗费时间,这使得总体的计算和时间成本可能高于一次性端到端训练。其次,不同阶段的衔接是一个工程难点。如何确保前一阶段训练的知识能够有效且无缝地传递给下一阶段,避免模型遗忘或收敛困难,这对超参数的调整和中间状态的管理提出了更高要求。最后,资源管理确实有特殊要求。你可能需要为不同阶段安排不同的GPU集群或计算资源,确保数据的流转和模型的加载保存顺畅,这就增加了运维的复杂性。总之,是“细节决定成败”的典型例子。

针对讨论三:关于MoE架构在扩展到更多模态(如触觉、嗅觉)时的表现和理论上限,我认为MoE的模块化结构在理论上是具有良好可扩展性的。我们可以为每种新增模态引入对应的编码器、连接器,甚至专门的专家。然而,挑战在于这些新兴模态的数据采集、特征表示以及与现有模态的对齐难度极大。例如,触觉和嗅觉信息的“数字化”和“标准化”当前仍是研究热点。如果这些模态的信息过于稀疏或难以有效融入统一的语义空间,那么即使引入新的专家,MoE的效率优势也可能被稀释。理论上限方面,我认为主要受限于信息传递的保真度、专家数量的调度难度,以及在海量模态下如何避免“专家”之间产生过高的协同开销。当前,对于通用感知模态的扩展潜力是巨大的,但涉及更具主观性和情境依赖性的模态时,需要更深入的跨模态研究。

关于MoE在解决多模态挑战上的潜力,我觉得它就像给AI搭建了一个“多元文化交流中心”。以前不同模态就是不同语言,大家各自说各自的,AI消化起来费劲。MoE让每个“专家”像一个精通特定语言的翻译官,专门处理某个模态的信息,或者专门攻克某些跨模态的“方言”。比如,有一个专家专门负责把视觉信息翻译成语言大模型能理解的“通用语”,另一个专家负责音频的。这样一来,不仅解决了模态间的异构性,还能让每个专家在自己的领域里深耕细作,提高专业度。对单模态模型来说,它简直是“治多疑症”的良方。当一个模型要处理的任务太多太杂时,分给不同的“专家”处理,既能保证速度,又能保证准确性,比一个模型硬抗所有活儿强太多了!