全模态大模型(Omni-MLLM)最新综述:突破模态与任务限制

哈工大SCIR发布首个Omni-MLLM系统性综述,解析全模态大模型如何突破模态与任务限制。文章深入探讨模型架构、训练方法、挑战与未来方向。

原文标题:论文浅尝 | 迈向更全面的多模态大模型:多模态大模型如何突破模态与任务限制?(哈工大SCIR)

原文作者:数据派THU

冷月清谈:

本文是对全模态大语言模型(Omni-MLLM)的系统性综述,旨在帮助读者了解该领域的发展现状与未来趋势。文章首先介绍了Omni-MLLM的概念及其在处理复杂多模态任务中的优势,并将其分解为多模态编码、多模态对齐、多模态交互和多模态生成四个核心组成部分。针对每个组成部分,文章详细阐述了不同的实现方法,例如连续编码、离散编码和混合编码,以及投影对齐和嵌入对齐等对齐策略。此外,文章还深入探讨了Omni-MLLM的训练过程,包括多模态对齐预训练和多模态指令微调,并总结了现有模型在模态扩展、跨模态能力和应用场景等方面面临的挑战,为初学者提供入门指引,并推动相关研究的进一步发展。

怜星夜思:

1、Omni-MLLM在处理多模态数据时,如果遇到某些模态的数据质量不高或缺失,会对其性能产生什么影响?有哪些方法可以缓解这种问题?
2、文章提到了Omni-MLLM在扩展更多模态时面临训练效率和灾难性遗忘的问题。你认为除了文章中提到的方法,还有哪些潜在的解决方案?
3、Omni-MLLM在实际应用中,你认为哪些领域最有潜力?会面临哪些伦理和社会问题?

原文内容

来源:开放知识图谱
本文约4000字,建议阅读8分钟
本文是首个专注于Omni-MLLM的系统性综述。


论文链接:

https://arxiv.org/abs/2412.11694

仓库链接:

https://github.com/threegold116/Awesome-Omni-MLLMs


1. 引言


不断发展的多模态大语言模型(MLLMs)展现了实现通用人工智能的潜力,其通过将大语言模型与特定模态的预训练模型结合,扩展了单一非语言模态的理解与生成能力,例如视觉MLLMs、音频MLLMs和3D-MLLMs。然而,这些特定模态MLLMs(Specific-MLLMs)难以应对现实场景中涉及多模态的复杂任务,因此研究者正致力于扩展模态范围,推动全模态MLLMs(Omni-MLLMs)的发展。为了应对现实场景中的复杂任务,越来越多的研究者将目光投向了全模态大语言模型(Omni-MLLMs),其旨在实现全模态的理解与生成。


Omni-MLLMs通过整合多种非语言模态的预训练模型,在Specific-MLLMs的基础上扩展了理解和生成能力。其利用大语言模型的涌现能力,将不同非语言模态视为不同“外语”,在统一空间内实现跨模态信息的交互与理解。与Specific-MLLMs相比,Omni-MLLMs不仅能执行多种单模态理解和生成任务,还能处理涉及两种或以上非语言模态的跨模态任务,使单一模型能够处理任意模态组合(这里的单模态和跨模态指参与交互的非语言模态数量)。


哈工大社会计算与交互机器人研究中心知识挖掘组(秦兵教授和刘铭教授带领)系统地梳理了相关研究,并对Omni-MLLMs进行了全面的调查。具体而言,我们首先通过细致的分类体系,阐释了Omni-MLLMs实现统一多模态建模的四个核心组成部分,为读者提供了新颖的视角。接着,我们介绍了通过两阶段训练实现的有效整合,并讨论了相关数据集及评估方法。此外,我们总结了当前Omni-MLLMs面临的主要挑战,并展望了未来发展方向。我们希望本文能为初学者提供入门指引,并推动相关研究的进一步发展。


2. Omni-MLLMs分类



3. Omni-MLLMs结构


作为特定模态大语言模型(Specific-MLLMs)的扩展,全模态大语言模型(Omni-MLLMs)继承了编码、对齐、交互和生成的架构,并进一步拓宽了所涉及的非语言模态类型。


3.1多模态编码


3.1.1连续编码


连续编码是指将模态编码到连续特征空间中。采用连续编码的Omni-MLLMs通常整合多个预训练的单模态编码器,将不同模态编码到各自的特征空间,或通过预对齐编码器将多模态统一编码到同一特征空间。


优缺点:连续编码能保留更多的原始特征信息,但不同异构模态编码特征需要复杂的对齐结构进行对齐。


3.1.2离散编码


离散是指将模态编码到离散特征空间中。采用离散编码的Omni-MLLMs通常整合多个离散编特定模态的标记器将模态数据转换为离散标记,从而实现多模态的离散统一表示。


优缺点:离散编码便于模态的统一处理和生成,但离散编码会丢失大量细节信息。


3.1.3混合编码


一些Omni-MLLMs结合离散与连续编码方法,针对不同模态选择最优编码策略,以兼顾模态统一处理与细节信息保留。


3.2多模态对齐



3.2.1投影对齐


连续编码的Omni-MLLMs在编码器与大语言模型之间插入适配器(称为投影器),将连续编码的模态特征映射到文本嵌入空间中。对于处于特异特征空间的模态,通常采用多分支投影(multi-branch),通过多个投影器分别将各模态特征对齐到文本嵌入空间,以解决维度不匹配和特征错位问题。


对于提前对齐处于同一特征空间的多个模态,除了多分支投影外,Omni-MLLMs也可以采用共享投影器实现多模态的统一对齐,以减少多投影器的参数量,这种方法称为单分支投影(uni-branch)。


投影器的实现方式多样,包括MLP、线性层、基于注意力的方法(如Q-Former和Perceiver)以及结合CNN的特征压缩方法。多分支Omni-MLLMs可能针对不同模态采用不同的投影器实现。


3.2.2嵌入对齐


离散编码的Omni-MLLMs通过扩展大语言模型的词汇表和嵌入层,将非语言模态的离散标记嵌入到语言模型的连续特征空间中,实现模态对齐。而部分工作也会通过复写词汇表中的部分低频词以实现对齐。混合编码模型则同时采用投影方法和嵌入方法,以结合两种编码策略的优势。


3.3多模态交互


大多数Omni-MLLMs在输入层将对齐的非语言模态特征与文本特征拼接,实现逐层交互,而部分工作则将模态特征插入大语言模型的特定层或所有层,以减少原始模态信息损失。


在交互涉及的模态数量方面,与Specific-MLLMs仅限于单一非语言模态与文本的双模态交互不同,Omni-MLLMs不仅支持多种双模态交互(dual-modality交互),还能实现涉及两种以上非语言模态的全模态交互(omni-modality交互),展现了Omni-MLLMs处理任意模态组合的能力。


3.4多模态生成


Omni-MLLMs通过整合不同生成模型,不仅能输出文本,还能生成非语言模态。


  • 基于文本的生成方法直接利用大语言模型的文本输出调用Text-to-X生成模型;

  • 基于模态标记的生成方法通过扩展大语言模型头部生成模态特定的离散标记,再通过解码器生成多模态内容;

  • 基于表示的生成方法则通过信号标记将表示映射到多模态解码器可理解的表示,以缓解离散标记引入的噪声。


4.Omni-MLLMs训练


为实现不同向量空间的对齐并提升任意模态设置下的指令跟随能力,Omni-MLLMs扩展了特定模态大语言模型(Specific-MLLMs)的标准两阶段训练流程:多模态对齐预训练和多模态指令微调。


4.1多模态对齐预训练


多模态对齐预训练包括编码端的输入对齐和解码端的输出对齐。输入对齐训练不同模态特征空间与大语言模型嵌入空间的对齐,而输出对齐训练嵌入空间与各模态解码器输入空间的对齐。输入对齐和输出对齐可以分别进行,也可以同时进行。


输入对齐主要利用不同模态的X-Text配对数据集,通过最小化描述文本的生成损失进行优化。多分支Omni-MLLMs对各模态的投影器分别进行对齐训练,而单分支Omni-MLLMs则采用渐进式策略按特定顺序对齐多模态。此外,部分分支Omni-MLLMs通过预对齐的模态特征空间间接实现其他低资源非语言模态与文本的对齐。


输出对齐训练通常使用与输入对齐相同的X-Text配对数据集,并遵循相同的训练顺序。基于标记的生成方法通过最小化模态特定离散标记的文本生成损失优化扩展的大语言模型头部,而基于表示的生成方法则通过信号标记的生成损失、输出表示与解码器条件向量的L2距离以及条件潜变量去噪损失来优化输出投影器。


4.2多模态指令微调


指令微调阶段旨在提升Omni-MLLMs在任意模态下的泛化能力,主要通过指令跟随数据集计算响应文本的生成损失进行优化。对于具备生成能力的模型,还可能结合输出对齐阶段的损失进行优化。


与特定模态大语言模型相比,Omni-MLLMs不仅利用多种单模态指令数据进行训练,还使用跨模态指令数据增强跨模态能力,部分工作采用多步微调策略,按特定顺序引入单模态和跨模态指令数据以逐步提升能力。


4.3其他训练技巧


  • 一些Omni-MLLMs直接利用特定模态大语言模型(Specific-MLLMs)训练好的投影器,以减少对齐阶段的训练开销。

  • 采用PPO和ADPO等人类反馈训练方法,以更好地对齐人类偏好。

  • 在渐进式对齐预训练或多步指令微调过程中,一些工作将先前训练的模态数据与当前新模态数据混合训练,以避免以学习模态知识的灾难性遗忘。


5.数据构建和测试


5.1对齐训练数据


Omni-MLLMs利用多种模态的文本描述数据集构建X-Text配对数据进行对齐预训练。而对于数据稀缺的模态(如深度图和热力图),部分工作采用DPT模型或图像翻译模型在图像-文本数据基础上合成。此外,部分工作还使用交错数据集进行对齐预训练,以增强上下文理解能力。


5.2指令微调训练数据


大多数工作利用跨模态下游数据集结合预定义模板构建跨模态指令。部分Omni-MLLMs利用标注数据集的标签或预训练模型提取多模态元信息,并使用强大的LLMs生成跨模态指令。另外一些工作通过TTS工具或Text2X模型将单模态指令转换为跨模态指令,例如将图像-文本指令转换为图像-语音-文本指令(Uni-Moe),或将纯文本指令转换为多模态指令(AnyGPT)。


5.3测试基准


  • 单模态理解:评估Omni-MLLMs对不同非语言模态的理解和推理能力,包括下游X-Text2Text数据集(如X-Caption、X-QA和X-Classification)以及综合多任务基准测试。

  • 单模态生成:评估Omni-MLLMs生成单一非语言模态的能力,包括Text2X生成任务(如音频生成)和Text-X2Text编辑任务(如语音和视频编辑)。

  • 跨模态理解:评估Omni-MLLMs对多种非语言模态(如图像-语音-文本、视频-音频-文本以及图像-3D-文本)的联合理解和推理能力。

  • 跨模态生成:Omni-MLLMs结合其他非语言模态输入生成非语言模态的能力。例如,X-VILA提出的Xs-Text2X基准测试包括图像-文本生成音频和图像-音频-文本生成视频等任务。


6.现有挑战和方向


6.1更多模态的扩展


大多数Omni-MLLMs只能处理2-3种非语言模态,且在扩展更多模态时仍面临一些挑战。

  • 训练效率:通过额外对齐预训练和指令微调引入新模态会增加训练成本,利用特定模态大语言模型(Specific-MLLMs)的先验知识或预对齐编码器可减少开销,但可能影响跨模态性能。

  • 灾难性遗忘:扩展新模态可能调整共享参数,导致已训练模态知识的遗忘,混合训练数据或仅微调模态特定参数可部分缓解,但会增加训练复杂性;

  • 低资源模态:数据合成方法可缓解低资源模态的文本配对数据和指令数据缺乏问题,但缺乏真实模态数据可能导致对该模态的理解偏差。


6.2跨模态能力


  • 长上下文:当输入包含多个序列模态(如视频、语音)时,多模态标记序列的长度可能超出大语言模型的上下文窗口,导致内存溢出,而标记压缩或采样方法虽能减少输入标记数量,但会降低跨模态性能。

  • 模态偏差:由于训练数据量不平衡和模态编码器性能差异,Omni-MLLMs在跨模态推理中可能倾向于关注主导模态而忽略其他模态信息,平衡模态数据量或增强特定模态模块可能有助于缓解此问题。

  • 时序对齐:处理具有时序依赖性的多模态数据时,保留其时间对齐信息对跨模态理解至关重要,部分工作通过交错模态特定标记或插入时间相关特殊标记来保留音视频的时序对齐信息。

  • 数据与基准测试:尽管Omni-MLLMs采用多种方法生成跨模态指令数据,但在指令多样性、长上下文对话和多模态交互范式方面仍有改进空间,同时跨模态基准测试在任务丰富性和指令多样性方面也落后于单模态基准测试,且覆盖的模态种类有限。


6.3应用场景


Omni-MLLM的出现为多种应用带来了新的机遇和可能性,包括实时多模态交互(如视觉与语音的高效实时交互)、综合规划(利用多模态互补性实现更优的路径和动作规划)以及世界模拟器(不仅理解和生成多模态,还能预测任意模态组合的状态转换)。


7.总结


本文对Omni-MLLM进行了全面的综述,深入探讨了该领域的核心内容。具体而言,我们将Omni-MLLM分解为四个关键组成部分,并根据模态编码和对齐方法对其进行了分类。我们详细总结了Omni-MLLM的训练过程及其使用的相关资源,并归纳了当前面临的挑战和未来发展方向。本文是首个专注于Omni-MLLM的系统性综述,希望为相关领域的进一步研究提供参考和启发。

    

编辑:于腾凯
校对:林亦霖



关于我们

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。




新浪微博:@数据派THU

微信视频号:数据派THU

今日头条:数据派THU

这问题的格局一下就打开了!Omni-MLLM的应用前景简直是无限的,但潜在的伦理问题也确实需要我们认真思考。

我觉得最有潜力的领域包括:

1. 医疗健康:结合病人的影像数据、病历文本、生理信号等多模态信息,辅助医生进行诊断和治疗。
2. 智能交通:结合摄像头、雷达、GPS等多模态信息,实现更安全、更高效的自动驾驶。
3. 人机交互:结合语音、视觉、触觉等多模态信息,打造更自然、更智能的交互体验。

伦理和社会问题方面:

1. 数据隐私:多模态数据往往包含用户的敏感信息,如何保护用户隐私是一个重要的问题。
2. 算法偏见:如果训练数据存在偏见,Omni-MLLM可能会延续甚至放大这些偏见。
3. 可解释性:Omni-MLLM的决策过程往往难以解释,这可能会导致人们对其产生不信任感。

比如在医疗诊断中,如果模型给出了错误的诊断结果,但我们无法解释其原因,可能会延误病人的治疗。

这个问题很有深度!训练效率和灾难性遗忘确实是扩展Omni-MLLM的拦路虎。除了文章里提到的,我想到几个可能的方向:

1. 元学习(Meta-learning):让模型学会如何快速适应新的模态。简单来说,就是先让模型在多个模态上进行训练,学习一个通用的“学习器”,然后用这个“学习器”来快速适应新的模态。
2. 知识蒸馏(Knowledge Distillation):用一个已经训练好的多模态模型(teacher model)来指导一个新的模型(student model)的学习。这样可以把teacher model的知识迁移到student model上,从而避免从头开始训练。
3. 模型融合(Model Fusion):把多个已经训练好的单模态模型融合在一起,形成一个多模态模型。这种方法的好处是可以充分利用已有的资源,减少训练成本。

扩展模态就像是给一个已经很聪明的学生学习新的科目,既要学得快,又不能忘了以前的知识。我想到一个可能有点“玄学”的解决方案:

1. 模块化设计:将模型设计成多个独立的模块,每个模块负责处理一种模态。这样在增加新的模态时,只需要添加一个新的模块,而不需要修改原来的模块。有点像乐高积木,随时可以拼插新的组件。
2. 低秩适应(LoRA):通过训练,对原模型参数更新权重,来完成对模型的fine-tune,可以用较少的资源来完成更新。
3. 持续学习(Continual Learning):让模型能够持续地学习新的知识,而不会忘记以前的知识。这方面有很多研究,比如基于重放(replay-based)的方法、基于正则化(regularization-based)的方法等等。

当然,这些方法都还在探索阶段,具体效果还需要实验验证。

数据决定了模型效果的上限,这句话在多模态领域同样适用。数据质量问题,轻则影响模型精度,重则导致模型产生偏见。

从学术角度看,解决数据质量和缺失的问题,可以从以下几个方面入手:

1. 模态对齐(Modality Alignment):确保不同模态的数据在语义上对齐,减少噪声的干扰。
2. 信息瓶颈(Information Bottleneck):通过限制模型能够学习的信息量,迫使其关注最重要的特征,从而提高鲁棒性。
3. 因果推理(Causal Inference):尝试识别不同模态之间的因果关系,从而更好地处理数据缺失和噪声。

以上方法都需要结合具体的应用场景进行调整和优化。

Omni-MLLM就像一个全能的“感知器”,能够感知和理解来自不同渠道的信息。我认为以下领域最有潜力:

1. 教育:根据学生的学习习惯、知识水平、情绪状态等多模态信息,提供个性化的学习资源和辅导。
2. 娱乐:创作更沉浸式、更具互动性的游戏、电影、音乐等娱乐内容。
3. 安全:通过分析视频监控、声音、传感器数据等多模态信息,实现更智能的安全监控和预警。

伦理问题方面:

1. 滥用:Omni-MLLM可能会被用于非法目的,比如人脸识别追踪、语音合成诈骗等等。
2. 失业:Omni-MLLM可能会取代一些重复性的工作,导致失业率上升。
3. 信息茧房:Omni-MLLM可能会根据用户的偏好,推送相似的信息,导致用户陷入信息茧房。

因此,在发展Omni-MLLM的同时,我们需要认真考虑如何规避这些风险。

这个问题问到了点子上!数据质量和缺失确实是多模态模型的阿喀琉斯之踵。如果某个模态质量差或者直接缺失,模型可能会过度依赖其他模态,导致偏差,甚至做出错误的判断。

缓解方法有很多,比如:

1. 数据增强:利用现有的高质量数据生成更多样、更全面的数据,比如使用GAN来生成缺失模态的近似数据。
2. 模态融合策略:设计更鲁棒的融合机制,根据模态的质量动态调整权重,让高质量的模态发挥更大的作用。
3. 对抗训练:引入对抗训练,让模型学习区分不同质量的模态,并对低质量模态进行降权处理。
4. 数据清洗:这个大方向上有很多细致的工作可以做,比如去除错误标注,处理异常值等等。

数据质量绝对是关键!想象一下,如果给Omni-MLLM输入一张模糊的照片和一个清晰的文本描述,模型很可能过度依赖文本,忽略了图像中可能存在的关键信息。数据缺失就更不用说了,直接少了一条信息来源。

我个人觉得,解决这个问题可以考虑以下几个方面:

1. 预处理:对数据进行清洗、修复,尽可能提高数据质量。比如,图像可以使用超分辨率技术提高清晰度,缺失数据可以使用插值法进行填充。
2. 模型设计:设计一种能够处理数据缺失的模型结构。比如,可以使用注意力机制,让模型自动学习哪些模态更重要,从而忽略缺失或低质量的模态。
3. 集成学习:训练多个模型,每个模型专注于不同的模态组合,然后将它们的预测结果进行集成。这样即使某个模态缺失,其他模型仍然可以提供有效的信息。

从理论角度出发,我认为可以尝试以下方法:

1. 基于梯度的元学习算法:例如,可以使用 Reptile 算法,通过在多个模态上进行小步梯度更新,来学习一个能够快速适应新模态的初始化参数。
2. 基于记忆的持续学习算法:例如,可以使用 iCaRL 算法,通过存储一些具有代表性的样本,来避免灾难性遗忘。
3. 基于注意力的模态选择机制:让模型能够根据输入的模态组合,动态地选择应该关注哪些模态,从而提高模型的泛化能力。

从技术哲学角度来看,Omni-MLLM的应用需要关注以下几个方面:

1. 透明性(Transparency):确保Omni-MLLM的决策过程是透明的,可以被审查和理解。
2. 公平性(Fairness):确保Omni-MLLM不会歧视任何群体,所有人都应该被平等对待。
3. 责任性(Accountability):明确Omni-MLLM的责任主体,如果出现问题,谁应该承担责任。

此外,还需要关注Omni-MLLM对人类认知和社会结构的影响,避免技术带来的负面后果。