多模态基础模型：监督微调的局限与强化学习的泛化潜力

DatapiTHU · 2025 年3 月 31 日 13:22

本文研究了多模态基础模型监督微调的局限性，并探索了强化学习在实现鲁棒泛化方面的潜力，强调RL在复杂环境中实现适应性性能的重要性。

原文标题：【伯克利博士论文】迈向视觉-语言基础模型：局限、改进与泛化

原文作者：数据派THU

原文链接： http://mp.weixin.qq.com/s?__biz=MzI1MjQ2OTQ3Ng==&mid=2247654975&idx=3&sn=3c987a7302a1a5e7528fe6c0164cd39b&

冷月清谈：

本文深入探讨了多模态基础模型在开发和训练中所面临的关键挑战。研究首先揭示了基于监督微调(SFT)方法训练的多模态大语言模型(MLLMs)在复杂任务中表现出的局限性，如灾难性遗忘和视觉理解方面的缺陷。研究者通过多模态评估框架(EMT)和多模态视觉模式基准(MMVP)系统性地评估了这些问题，结果表明，SFT可能无法赋予MLLMs强大的视觉理解能力和保留先前知识的能力。随后，文章探索了强化学习(RL)在提升模型鲁棒性和泛化能力方面的潜力。研究提出了一种通过RL微调大型视觉-语言模型(VLMs)的框架，并结合思维链(CoT)提示来促进高效探索和学习。实验结果表明，与SFT相比，RL微调能显著提高模型在未见规则变化和新视觉情境下的泛化性能，甚至增强底层视觉识别能力。研究强调了SFT为指令遵循提供基础，而RL对于在复杂动态环境中实现鲁棒、适应性强的性能至关重要。

怜星夜思：

1、文章提到监督微调(SFT)可能导致模型在先前学习任务上的性能下降，也就是“灾难性遗忘”。在你的实际工作中，有没有遇到类似的问题？你是如何解决的？
2、文章中使用了思维链(CoT)提示来促进强化学习，你觉得除了CoT，还有什么其他的提示方法可以用来提高VLMs的性能？这些提示方法分别有什么优缺点？
3、文章强调了强化学习(RL)在提升模型泛化能力方面的作用。你认为RL在多模态学习中还有哪些潜在的应用场景？你对未来RL在多模态学习中的发展方向有什么期待？

原文内容

来源：专知
本文约1000字，建议阅读5分钟
本论文研究了多模态基础模型在开发和训练中的关键挑战。

本论文研究了多模态基础模型在开发和训练中的关键挑战，重点关注当前监督微调（SFT）方法的局限性，并探索强化学习（RL）在实现鲁棒泛化方面的潜力。研究工作分为两个主要部分：

第一部分：理解监督微调下多模态基础模型的局限性

尽管多模态大语言模型（MLLMs）在基准任务上表现出色，但在需要更深层次理解或适应新情境的看似简单任务中，它们常常表现出令人惊讶的弱点。本论文首先研究了 MLLMs 中的灾难性遗忘现象，即在新任务上进行微调可能导致模型在先前学习任务上的性能显著下降。我们引入了多模态评估框架（EMT），这是一种新颖的评估方法，旨在系统性地评估这种遗忘现象。研究结果表明，即使是利用强大预训练视觉编码器的 MLLMs，在经过 SFT 后，在基本图像分类任务上的性能也会显著下降。此外，我们深入探讨了 MLLMs 在视觉方面的具体缺陷。我们提出了多模态视觉模式基准（MMVP），这是一组精心设计的视觉问答任务，旨在探测这些模型的视觉基础能力。结果显示，当前最先进的 MLLMs 存在系统性缺陷，突显了底层视觉编码器（如 CLIP）的弱点与整体模型性能之间的强相关性。这些发现表明，当前的 SFT 方法虽然在任务特定适应方面有效，但可能不足以赋予 MLLMs 强大的视觉理解能力和保留先前习得知识的能力。

第二部分：利用强化学习实现鲁棒泛化

认识到 SFT 的局限性后，本论文进一步探索了强化学习（RL）在实现更鲁棒和可泛化的多模态智能方面的潜力。我们提出了一种新颖的框架，用于通过 RL 微调大型视觉-语言模型（VLMs），使其能够在需要视觉理解和语言推理的任务上进行端到端训练。该框架的一个关键组成部分是引入了思维链（CoT）提示，利用 VLMs 固有的推理能力来促进更高效的探索和学习。我们对 RL 和 SFT 进行了对比分析，重点关注对未见规则变化和新视觉情境的泛化能力。结果表明，与 SFT 相比，RL 微调始终能带来更优越的泛化性能。通过 RL 训练的模型在规则修改的任务上表现更好，能够更有效地适应视觉输入的变化，甚至展现出增强的底层视觉识别能力。此外，我们研究了推理时计算的作用，证明在 RL 训练期间增加验证迭代次数可以进一步提高泛化能力。这突显了 SFT 虽然为指令遵循提供了必要的基础，但 RL 对于在复杂、动态环境中实现鲁棒、适应性强的性能至关重要。

总结

本论文提供了有力的证据，表明当前基于 SFT 的多模态基础模型训练存在局限性，并展示了 RL 在克服这些局限性方面的巨大潜力，为开发更具泛化能力和智能的 AI 系统铺平了道路。

关于我们

数据派THU作为数据科学类公众号，背靠清华大学大数据研究中心，分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识，努力建设数据人才聚集平台、打造中国大数据最强集团军。

新浪微博：@数据派THU

微信视频号：数据派THU

今日头条：数据派THU

VioletRaven051 · 2025 年4 月 1 日 06:50

一个很有前景的应用场景是多模态对话系统。传统的对话系统往往只依赖于文本输入，而多模态对话系统可以结合图像、语音等信息，提供更丰富、更自然的人机交互体验。RL可以用于优化对话策略，让对话系统能够更好地理解用户的意图，并提供更个性化的服务。我希望未来的对话系统能够像真人一样，理解我们的情感，并给出贴心的回复。

Nexus38d · 2025 年4 月 1 日 07:13

灾难性遗忘确实是SFT方法的一个常见问题。一个比较学术的解决方案是采用持续学习（Continual Learning）策略。例如，可以使用iCaRL（Incremental Classifier and Representation Learning）或者EWC（Elastic Weight Consolidation）等算法，这些算法能够在学习新任务的同时，尽量保留之前学习到的知识。EWC通过对模型参数的重要性进行评估，并在训练新任务时对重要的参数施加约束，从而减少遗忘。

FieryPhoenix505 · 2025 年4 月 2 日 01:53

我觉得RL在多模态机器人控制方面很有潜力。比如，让机器人通过视觉和语言的引导，完成一些复杂的任务，比如组装家具、烹饪等。通过RL，机器人可以不断地学习和优化自己的动作，最终达到人类的水平。期待未来能看到更多这样的智能机器人出现！

GlowingStarfish420 · 2025 年4 月 2 日 08:45

我比较期待RL能够帮助我们发现多模态数据中隐藏的关联。现在很多多模态模型都是“黑盒”，我们不知道它们是如何利用不同模态的信息的。通过RL，我们可以设计一些奖励函数，让模型自动地学习不同模态之间的关系，从而更好地理解世界。如果能把这个研究透彻，说不定能搞出个“通用人工智能”呢！

Pulse48v · 2025 年4 月 2 日 19:51

啊，这个“灾难性遗忘”深有体会！之前搞一个图像识别项目，用预训练模型fine-tune，结果在新数据集上效果是好了，但是原来数据集的识别率直接垮了！后来我用了两种方法，一种是加正则化项，防止模型参数变化太大；另一种是结合新旧数据一起训练，保持模型的“记忆”。感觉还是挺管用的。

MorningDew906 · 2025 年4 月 2 日 23:08

我觉得可以试试用知识图谱来做提示。比如，给VLM提供一些相关的实体和关系，让它更好地理解场景。知识图谱的优点是能够提供结构化的知识，帮助模型进行推理；缺点是构建知识图谱需要大量的人工工作，而且知识的覆盖度也有限。

GlowingStarfish420 · 2025 年4 月 3 日 00:25

除了CoT，还可以考虑使用对比提示（Contrastive Prompting）。这种方法通过提供正例和反例，引导VLM学习区分不同概念。例如，在图像分类任务中，可以提供一张猫的图片和一个不是猫的图片，让模型学习区分猫和其他物体。对比提示的优点是能够提高模型的辨别能力，缺点是需要精心设计正反例，否则可能会误导模型。

Lunar391e · 2025 年4 月 6 日 18:54

哈哈，我之前也遇到过！简直是“拆东墙补西墙”。我的土办法是每次fine-tune之后，都用旧数据跑一遍，如果效果掉太多，就调整学习率或者加大数据增强。虽然笨点，但至少保证模型不会完全忘记老本行。

VelvetFox904 · 2025 年4 月 6 日 19:08

嘿嘿，我想到一个有点“歪门邪道”的办法，就是用对抗样本来提示！先生成一些对抗样本，然后让VLM来“识别”这些样本，看看它能不能找到真正的原因。这个方法的好处是能够激发模型的学习潜力，提高模型的鲁棒性；缺点是可能会让模型学到一些奇怪的知识，导致不可预测的行为。