Uni-MoE是首个基于MoE的统一多模态大模型,能高效处理多种模态数据,显著提升性能与效率。
原文标题:TPAMI 2025|专家混合+多模态统一:Uni-MoE 打开大模型性能与效率新维度
原文作者:数据派THU
冷月清谈:
怜星夜思:
2、Uni-MoE提到了三阶段渐进式训练策略,这种分阶段训练听起来很科学,但会不会在实际操作中带来一些新的挑战?比如,训练成本会不会反而更高、不同阶段的衔接会不会很麻烦,或者在资源管理上有没有什么特别的要求?
3、Uni-MoE 目前支持图像、视频、语音、音频、文本等五种模态。如果未来需要扩展到更多样化的模态,比如AR/VR中的触觉、嗅觉信息,MoE架构还能保持它的优势,或者说,这种扩展性有没有理论上的上限?
原文内容
来源:多模态机器学习与大模型本文约1500字,建议阅读5分钟
本文提出 Uni-MoE:首个基于稀疏专家混合架构(MoE)的统一多模态大语言模型。
-
论文标题: Uni-MoE: Scaling Unified Multimodal LLMs with Mixture of Experts
-
作者: Yunxin Li, Shenyuan Jiang, Baotian Hu*, Longyue Wang*, Wanqi Zhong, Wenhan Luo, Lin Ma, Min Zhang
-
作者单位:
-
哈尔滨工业大学(深圳)
-
香港科技大学
-
美团
-
论文链接: IEEE TPAMI, DOI: 10.1109/TPAMI.2025.3532688
-
代码链接:
https://github.com/HITsz-TMG/UMOE-Scaling-Unified-Multimodal-LLMs
-
项目主页:
https://uni-moe.github.io
简介
本文提出 Uni-MoE:首个基于稀疏专家混合架构(MoE)的统一多模态大语言模型,支持图像、视频、语音、音频、文本等多种模态。Uni-MoE 利用模态特定的编码器与连接器融合多模态信息,并在 LLM 中引入稀疏专家结构实现高效推理。作者设计了三阶段训练策略,显著提升了多专家协同能力与模型泛化性。实验证明 Uni-MoE 在多个复杂多模态基准任务上超越现有主流方法,同时大幅降低了计算开销。
图1. Uni-MoE的插图。与以前的密集MLLM相比,它采用MOE架构来构建一个可以处理各种方式的统一MLLM。文中将稀疏的routing控制与轻量级的finetuning方法Lora一起激活不同的专家,旨在降低计算成本。
研究动机
当前多模态大模型(如 GPT-4V、Gemini)性能优异,但其训练与推理成本极高。尽管稀疏 MoE 架构可提高单模态模型效率,但尚缺乏统一的多模态 MoE 架构模型。Uni-MoE 的目标是实现一个统一、扩展性强的多模态 LLM,同时具备高效性与泛化性。
论文贡献
-
模型框架:提出首个统一的稀疏 MoE 多模态框架 Uni-MoE,支持图像、视频、音频、语音、文本五种模态。
-
训练策略:提出三阶段渐进式训练流程,提升专家间协同与跨模态泛化能力。
-
实验验证:在图像、视频、语音理解等多个数据集上超越现有最优模型,验证 MoE 架构的有效性。
-
系统扩展性强:通过 expert-level model parallelism 与 modality-level data parallelism 实现高效训练与推理。
Uni-MoE模型
图 2. Uni-MoE 训练方法概述。渐进式训练阶段包括:1)利用来自不同模态和语言的对来训练连接器,将这些元素映射到统一的语义空间,为多模态理解奠定基础;2)使用跨模态数据培养特定模态的专家,以确保深度理解,为构建具有凝聚力的多专家模型做好准备;3)将多位训练好的专家纳入 LLM,并使用 LoRA 技术在混合多模态数据上完善统一的多模态模型。
模型框架可分为以下三个模块:
-
模态专属编码器:CLIP(图像/视频),BEATs(音频),Whisper(语音)等
-
模态连接器(Connectors):将多模态特征映射到语言空间
-
语言模型主体(LLM):内嵌稀疏 MoE 层,每层包括:
-
共享的多头注意力层
-
多个 FFN 专家
-
token 级别路由器 Router
Connector——模特连接器
为了方便将多种模态输入高效地转换为语言格式, Uni-MoE 模型建立在预训练的LLaVA 之上。该基础模型集成了 CLIP 作为视觉编码器,以及一个线性投影层,该层将图像特征转换为 Vicuna-LLaMA语言域内对应的软图像标记。在视频内容处理方面,从每个视频中选择八个代表性帧,并通过使用平均池化来聚合它们基于帧的(图像)表示,将它们转换为视频标记。在音频领域,我们通过部署两个不同的编码器来增强特征提取:Whisper 编码器和 BEATs 编码器,后者是一种复杂的音频处理工具,可以从音频转换器生成双向编码器表示。遵循类似于 Qformer的策略,文中分别提取固定长度的语音和音频特征向量,然后通过线性投影层将它们映射到软音频和语音标记中。具体工作流程如下:
在相同操作的四层之后,应用一个可学习的线性层将最后一个输出投影到LLM的表示空间中。
Uni-MoE
通过上述连接器,可获得任意模态的编码tokens。对于任意模态输入,将相应的token连接成一个序列,并将其输入到语言模型中。将图像、视频、文本、音频和语音的嵌入表示分别表示为 I、V 、T 、A 和 S.以理解视频为例,配置 MoE 的第 l 个块的计算过程如下:
Router是一个线性函数,选择 top-k 专家:
其中:
训练流程(Progressive Strategy)
三阶段训练:
-
跨模态对齐:训练连接器映射各模态至语言空间,仅更新连接器参数
-
专家训练:使用模态特定数据训练各专家 FFN 模块
-
联合调优:冻结 LLM 主体,仅通过 LoRA 微调专家模块
实验结果
实验设置
-
模型规模:基于 LLaMA-7B
-
MoE 结构:Top-2 路由器,4 或 8 个专家
-
数据集:VQAv2, OK-VQA, MMBench, ActivityNet-QA, ClothoAQA 等
-
评估指标:EM、CIDEr、Acc 等