MokA:兼顾模态特性与交互的多模态大模型高效微调方法

人大和上海人工智能实验室提出MokA,一种兼顾模态特性与交互的多模态大模型微调方法,实验证明其在多个任务和模型基座上均取得显著性能提升。

原文标题:充分激发模态协作,MokA量身打造MLLM微调新范式

原文作者:机器之心

冷月清谈:

本文介绍了来自中国人民大学和上海人工智能实验室的研究团队提出的MokA方法,该方法针对多模态大模型微调时忽略模态特性和交互的问题,提出了兼顾单模态信息独立建模和模态间交互建模的方案。MokA方法在LoRA的基础上,引入模态特异的A矩阵、跨模态注意力机制和模态共享的B矩阵,以实现对单模态信息的独立建模和模态间交互建模。实验证明,MokA在音频-视觉-文本、视觉-文本和语音-文本等多个场景下,均能显著提升模型性能,并且适用于LLaMA、Qwen等多种主流LLM基座。

怜星夜思:

1、MokA方法中,模态特异的A矩阵、跨模态注意力机制和模态共享的B矩阵分别起到了什么作用?如果去掉跨模态注意力机制,模型性能会受到什么影响?
2、MokA方法在哪些场景下具有优势?在哪些场景下可能表现不佳?
3、论文中提到MokA在LLaMA和Qwen等主流LLM基座上都进行了实验,并取得了不错的效果。那么,MokA是否可以应用到其他类型的多模态大模型上?如果可以,需要注意哪些问题?

原文内容



本文第一作者卫雅珂为中国人民大学四年级博士生,主要研究方向为多模态学习机制、多模态大模型等,师从胡迪副教授。作者来自于中国人民大学和上海人工智能实验室


近年来,多模态大模型(MLLMs)已经在视觉语言、音频语言等任务上取得了巨大进展。然而,当在多模态下游任务进行微调时,当前主流的多模态微调方法大多直接沿用了在纯文本大语言模型(LLMs)上发展出的微调策略,比如 LoRA。但这种「照搬」 策略,真的适用于多模态模型吗?


来自中国人民大学高瓴人工智能学院 GeWu-Lab 实验室、上海人工智能实验室的研究团队在最新论文中给出了一种全新的思考方式。他们指出:当下 MLLMs 微调方案大多简单的将单模态策略迁移至多模态场景,未结合多模态学习特性进行深入思考。事实上,在多模态场景中,单模态信息的独立建模(Unimodal Adaptation)和模态之间的交互建模(Cross-modal Adaptation)是同等重要的,但当前的微调范式往往没有关注思考这两个重要因素,导致对单模态信息的充分利用及跨模态充分交互存在较大局限性。


为此,研究团队充分结合多模态场景的学习特性,提出了 MokA(Multimodal low-rank Adaptation)方法,在参数高效微调背景下对单模态信息的独立建模和模态之间的交互建模进行了并重考量。实验覆盖音频 - 视觉 - 文本、视觉 - 文本、语音 - 文本三大代表性场景,并在 LLaMA、Qwen 等主流 LLM 基座上进行了系统评估。结果显示,MokA 在多个 benchmark 上显著提升了任务表现。



  • 论文标题:MokA: Multimodal Low-Rank Adaptation for MLLMs

  • 论文链接:https://arxiv.org/abs/2506.05191

  • 项目主页:https://gewu-lab.github.io/MokA


多基座、多场景下均实现性能提升



当下被忽略的模态特性


在本文中,研究团队指出当前多数高效多模态微调方法存在一个关键性限制:它们直接借鉴自单模态的大语言模型的设计。以 LoRA 为例,如下公式所示,在多模态场景中,直接应用 LoRA 将会使得同样的可学习参数 W 被用于同时处理和适配来自不同模态的输入 x。其中,图片 代表第 i 个模态的输入。


图片


而在真实场景中,不同模态的信息存在异质性。因此,这种直接 “照搬” 单模态微调方法的实践忽视多模态场景中模态之间的本质差异,可能导致模型难以充分利用所有模态的信息。基于此研究团队提出,要高效地微调多模态大模型,单模态信息的独立建模(Unimodal Adaptation)和模态之间的交互建模(Cross-modal Adaptation)缺一不可:



如上公式所示意,既需要单模态独有参数保证单模态信息适配不受其他模态干扰,同时也需要跨模态参数对模态间交互对齐进行适配建模。


MokA:关注模态特性的多模态微调方法


基于以上思想,研究团队提出了 MokA 方法,兼顾单模态信息的独立建模和模态之间的交互建模。



MokA 在结构上继承了 LoRA 的核心思想,以保持高效的优点。但基于多模态场景对于 A、B 投影矩阵的角色进行了重新定义。如上图所示,MokA 包括三个关键模块:模态特异的 A 矩阵,跨模态注意力机制和模态共享的 B 矩阵。


模态特异的 A 矩阵: MokA 考虑多模态场景,使用模态特异的 A 矩阵,从而可以在参数空间中保留模态独立性,确保每种模态的信息压缩过程不会互相干扰,是实现单模态信息独立建模的关键一步。


跨模态注意力机制:这一模块的主要目的是显式增强跨模态之间的交互。在进行 instruction tuning 时,通常文本信息包含了具体的问题或任务描述,而其他模态信息提供了回答问题的场景。因此,为了显式加强跨模态交互,MokA 在独立压缩后的低秩空间内对文本和非文本模态之间进行了跨模态建模,加强任务和场景间的关联关系。


模态共享的 B 矩阵:最后,在独立子空间中的各个模态被统一投影到一个共享空间中,利用一个共享的低秩矩阵 B 进行融合,以共享参数的方式进一步隐式实现跨模态对齐。



最终,MokA 的形式化表达如上所示。在多模态场景下,MokA 有效保证了对单模态信息的独立建模和模态之间的交互建模。


实验结果


实验在三个具有代表性的多模态任务场景上进行了评估,分别包括音频 - 视觉 - 文本、视觉 - 文本以及语音 - 文本。同时,在多个主流语言模型基座(如 LLaMA 系列与 Qwen 系列)上系统地验证了方法的适用性。结果表明,MokA 在多个标准评测数据集上均取得了显著的性能提升,展现出良好的通用性与有效性。


表 1: 在音频 - 视觉 - 文本的实验结果。


表 2: 在视觉 - 文本场景的实验结果。


表 3:在语音 - 文本场景的实验结果。


总述


综上所述,MokA 作为一种面向多模态大模型的高效微调方法,兼顾了单模态特性建模与模态间交互建模的双重需求,克服了对模态差异性的忽视问题。在保留 LoRA 参数高效优势的基础上,MokA 通过模态特异 A 矩阵、跨模态注意力机制与共享 B 矩阵协同工作,实现了有效的多模态微调。实验验证表明,MokA 在多个任务和模型基座上均取得显著性能提升,展现适应性和推广潜力,为多模态大模型的微调范式提供了新的方向。


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

从论文角度来分析,模态特异的A矩阵主要负责单模态信息的压缩和特征提取,确保每种模态的信息不会被其他模态的信息所干扰,从而更好地保留单模态的独有特征。跨模态注意力机制则显式地建模文本和非文本模态之间的关系,尤其是在Instruction Tuning的场景下,这种机制能够加强任务描述和场景之间的关联。模态共享的B矩阵则负责将不同模态的信息融合到一个共享空间中,实现跨模态的对齐。如果去掉跨模态注意力机制,模型在理解和利用不同模态之间的关联信息方面会受到很大的限制,可能会导致模型无法充分理解多模态数据的整体含义,从而影响模型在多模态任务上的表现。

感觉A矩阵就像是给每种模态都配了一个专属的“翻译官”,确保它们的信息在传递过程中不会失真。跨模态注意力机制就像是一个“媒婆”,专门负责牵线搭桥,让不同的模态之间建立联系。而B矩阵则像是一个“融合器”,把各种模态的信息捏合在一起,形成一个完整的整体。如果把“媒婆”给撤了,那不同的模态之间可能就各自为政,互不理睬,模型自然也就没法发挥出全部的实力了。

MokA的思路具有一定的通用性,原则上可以应用到其他类型的多模态大模型上。但需要注意的是,不同模型的内部结构和模态融合方式可能存在差异,因此需要根据具体情况进行调整。例如,对于一些模态交互比较弱的模型,可能需要增强跨模态注意力机制的设计。此外,还需要考虑模型的计算资源限制,选择合适的低秩矩阵维度,以保证微调的效率。

MokA在需要深度理解和融合多模态信息的场景应该很有优势,比如跨模态推理、多模态内容生成等。但如果各个模态的信息相对独立,交互较少,或者数据集质量不高,那可能就没啥优势了。

个人觉得MokA在需要精细化理解和对齐多模态信息的任务中会表现出色,例如跨模态检索、视觉问答等。但在模态信息冗余度很高,或者模型需要快速适应新模态的任务中,MokA可能不如一些更轻量级的微调方法有效。此外,如果数据集中存在大量的噪声或模态缺失,MokA的性能也可能会受到影响。

我觉得就像是给不同的汽车发动机加装涡轮增压器一样,虽然原理都是提升动力,但具体的安装方式和参数设置肯定要根据发动机的型号来调整。MokA就像是一个“多模态涡轮增压器”,它可以应用到各种多模态大模型上,但前提是要根据模型的具体情况进行适配,否则可能会出现“水土不服”的情况。

A矩阵负责保留模态独立性,互不干扰;跨模态注意力连接文本和其他模态,增强关联;B矩阵融合信息,隐式跨模态对齐。如果去掉跨模态注意力机制,那模型可能就没法充分理解不同模态之间的联系,就像聊天时get不到对方的梗一样,效果肯定会打折扣。

这么说吧,MokA就像一个擅长精细烹饪的大厨,面对食材丰富、需要慢工出细活的菜肴,他能做得非常出色。但如果让他去做快餐,或者食材本身质量很差,那他可能就没法发挥出自己的优势了。所以,MokA更适合那些需要深度理解和融合多模态信息的任务,而不是那些追求速度或者数据质量不高的任务。

理论上应该可以,MokA的核心思想是兼顾单模态和跨模态建模,这个思路对各种多模态模型都适用。但具体应用时,可能需要根据模型的结构和特点,对A、B矩阵和注意力机制进行一些调整。