多模态大模型视觉盲点:如何减少幻觉现象?

原文标题:ECCV 2024|是真看到了,还是以为自己看到了?多模态大模型对文本预训练知识的过度依赖该解决了

原文作者:机器之心

冷月清谈:

- 多模态大语言模型(MLLM)因过度依赖预训练文本知识而容易产生幻觉,即生成与输入图像不符的回答。 - 提出一种偏好对齐方法 Bootstrapped Preference Optimization(BPO),自动构建偏好样本,缓解模型幻觉现象并提升视觉理解能力。 - BPO 方法设计了两种构建偏好负样本的方法:弱化图像提示和错误注入。 - 实验结果表明,经过 BPO 微调后的 MLLM 在 MM-Vet、LLaVA-Wild 和 Object HalBench 基准测试中表现优异,在视觉认知能力上得到提升。 - 与传统的监督微调训练(SFT)相比,BPO 微调在不同类别的子任务下表现出更好的效果。 - 定性结果展示了 BPO 微调后 MLLM 能生成更符合图像输入且包含更少错误信息的答案。

怜星夜思:

1、如何评价BPO方法在实际应用中的效果?
2、除了BPO方法,还有哪些其他方法可以减少多模态大模型的幻觉现象?
3、多模态大模型对文本预训练知识的过度依赖是否会阻碍其在某些领域的应用?

原文内容

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected][email protected]
本文第一作者皮仁杰是香港科技大学三年级博士生,师从张潼教授和周晓方教授。此前获得香港大学计算机工程学士学位。研究兴趣为多模态大语言模型,以数据为中心的人工智能,以及自动化机器学习。


随着大型语言模型(LLMs)的进步,多模态大型语言模型(MLLMs)迅速发展。它们使用预训练的视觉编码器处理图像,并将图像与文本信息一同作为 Token 嵌入输入至 LLMs,从而扩展了模型处理图像输入的对话能力。这种能力的提升为自动驾驶和医疗助手等多种潜在应用领域带来了可能性。

 
尽管 MLLMs 具有出色的图文理解能力,但它们仍然会出现错误或幻觉,生成与输入图像不相符的相应,例如回答不存在的对象或错误识别属性等。我们认为多模态大模型在不同训练阶段的数据量和训练时间的不平衡是产生这类偏见的主要原因之一。多模态大模型的语言模块往往使用了海量的文本数据进行预训练,而模态对齐阶段则使用更小的数据规模和更短的训练时间。

为了解决上述问题,我们提出了一种偏好对齐方法 --Bootstrapped Preference Optimization(BPO),能在缓解多模态大模型的幻觉现象的同时提升模型的视觉理解能力。


  • 论文标题:Strengthening Multimodal Large Language Model with Bootstrapped Preference Optimization
  • 论文链接:https://arxiv.org/pdf/2403.08730
  • 代码链接:https://github.com/pipilurj/bootstrapped-preference-optimization-BPO-


具体来讲,我们设计了两种方法去自动构建偏好学习的负样本,使得多模态模型对与训练的过度依赖暴露出来。之后,我们用原本的数据标注当作正样本,对多模态模型进行偏好微调。总的来说,我们的主要贡献有:
 
1. 我们提出了一种新的视角,将多模态对齐问题转化为偏好学习任务,其中预训练偏见和视觉理解能力被视为旧的和新的偏好;

2. 我们介绍了一种自动化构建大规模偏好数据集的方法。通过该方法能构造出大量带有预训练偏见信息的负面样本;

3. 在大量实验上证明了我们的方法能有效地提升多模态大模型对于图像的认知能力,训练后的模型在多个基准测试中性能得到提升。
 
可扩展的偏好数据集构建

对于偏好数据集的正面样本,已经有许多为监督微调而设计的现成数据集,例如通过 LlaVA 和 MiniGPT4 生成的高质量标注问答数据、ShareGPTV 利用强大的 GPT4-V 作为工具为图像生成高质量标题。我们将这些已标注完成的公开数据集作为偏好数据集中的正面响应,在保证高质量数据对的同时避免了昂贵的人工标注。

为了能收集到能反映预训练偏见的负面响应数据,我们提出了两种方法。

a. 弱化图像提示:我们给偏好数据集中的图片数据加上噪声,以此破坏图像特征,使多模态大模型在回答时更倾向原始的预训练分布,由此产生的错误响应会包含 LLM 模块的固有偏见。从图中可以看到,我们通过像图片中加入不同程度的噪声,正确答案出现的概率就越小,带有预训练偏见的答案出现的概率也就越大。


b. 错误注入:我们要求多模态大模型对应的大语言模型直接改写响应,要求模型生成与答案相近但不完全一样的错误回答。
 
接下来,我们采用直接偏好优化(DPO)对多模态模型进行优化:


实验评估

我们采用经过 BPO 微调过后的 LLaVA 模型(LLaVA-7B-BPO 和 LLaVA-13B-BPO)在 MM-Vet,LLaVA-Wild 和 Object HalBench 上测试。MM-Vet 和 LlaVA-Bench 是专门用来衡量模型综合能力的榜单,Object HalBench 则是评估多模态大模型的视觉可信度。

实验结果表明,经过 BPO 微调后的模型在三个基准测试榜单的所有任务中均取得领先。在大多数任务上,LLaVA-7B-BPO 的表现甚至超过了未曾微调的 LLaVa1.5-13B 模型。


我们还将 BPO 与监督微调训练(SFT)进行对比。我们通过直接使用数据集中的正样本作为监督数据对模型进行微调。实验表明经过 BPO 微调过的多模态大模型在不同类别的子任务下的表现均优于 SFT 微调。


在定性结果上,我们对比了 BPO 微调前后多模态大模型的表现。我们发现经过 BPO 微调后的模型能生成更忠诚于图像输入的答案,并且包含更少错误信息。


更多研究细节,可参考原论文。



© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]


除了 BPO 方法之外,还有其他一些方法可以减少多模态大模型的幻觉现象,例如:

  • 数据增强: 使用数据增强技术,如图像变换、噪声添加,来增加模型对图像特征的鲁棒性。
  • 对抗训练: 使用对抗样本训练模型,提高模型对虚假图像的辨别能力。
  • 正则化技术: 添加正则化项,如 dropout、L1/L2 正则化,防止模型过度拟合预训练文本知识。

对文本预训练知识的过度依赖可能会限制多模态大模型在涉及推理和常识的任务中的泛化能力。在大规模文本语料库上进行训练可能会引入不适用于所有领域或上下文的知识。这可能会阻碍模型将知识应用到与训练数据不同的新情况或问题中。

除了上面提到的方法外,还可以考虑探索使用多模态数据进行训练,例如同时使用图像和文本数据来训练模型。这样可以增强模型对不同模态信息的理解, potentially减少对文本知识的过度依赖。

此外,过度依赖文本知识可能会使多模态模型容易受到对抗性攻击。攻击者可以利用模型对特定单词或表达方式的敏感性,通过精心设计的输入来误导模型。这可能会产生严重的安全性问题,尤其是在模型被用于安全关键型应用程序中。

BPO方法是否能有效提升多模态大模型在自动驾驶和医疗助手等领域的应用潜力?是否能够减少实际场景中的幻觉现象,提高模型的可靠性?这些问题需要开发者通过实际测试来回答。

迁移学习是 reduce hallucination 的一个有效方法。我们可以将在大规模文本数据集上预训练的模型作为基础,然后将该模型迁移到特定领域或任务。领域特定的知识可以帮助模型学习相关的特征,并减少对预训练数据集的幻觉依赖。比如,我们可以迁移一个在医疗文本语料库上训练的模型到某种罕见疾病的诊断任务中。从而生成更准确和可靠的预测。

是的,多模态大模型对文本预训练知识的过度依赖可能会阻碍其在某些领域的应用。例如,在医疗领域,过度依赖文本知识可能会导致模型受到错误或过时的医疗信息的误导,从而影响其诊断和治疗建议的准确性。

BPO 方法可以通过自动构建偏好学习负样本,缓解多模态大模型的幻觉问题。在医疗助手领域,幻觉现象可能会导致模型给患者错误的诊断建议,甚至危及患者安全。因此,解决幻觉现象对于医疗助手 applications至关重要。未来可以考察 BPO 方法在实际医疗场景中的表现,以及是否能有效提升医疗助手的可靠性。

BPO方法在实际应用中的表现需要根据具体应用场景进行评估。从论文报道的实验结果来看,它在MM-Vet、LLaVA-Wild和Object HalBench基准测试中都取得了较好的提升。但在实际应用中,模型的性能可能受限于数据质量、应用场景复杂度等因素。因此,在实际部署前,需要进行针对性的评估。