CHiP：跨模态分层偏好优化，显著降低多模态大语言模型幻觉率

DatapiTHU · 2025 年5 月 14 日 17:03

NUS、复旦团队提出CHiP方法，通过跨模态分层偏好优化，显著降低多模态大语言模型幻觉率，最高降幅达55.5%。

原文标题：多模态幻觉新突破！NUS、复旦团队提出跨模态偏好优化新范式，幻觉率直降55.5%

原文作者：数据派THU

原文链接： http://mp.weixin.qq.com/s?__biz=MzI1MjQ2OTQ3Ng==&mid=2247657070&idx=2&sn=a83a991df1c629d432cef8d91524601d&

冷月清谈：

本文介绍了一种新的跨模态偏好优化范式CHiP，旨在解决多模态大语言模型中存在的幻觉问题。研究发现，现有的多模态直接偏好优化（DPO）模型在图像-文本语义对齐和幻觉识别方面存在局限性。为了解决这些问题，CHiP方法融合了视觉偏好与多粒度文本偏好（响应级、片段级、词元级），从而系统性地提升跨模态对齐能力。实验结果表明，在多个基准数据集上，CHiP相较于传统DPO方法可以显著降低幻觉率，最高可达55.5%。同时，该方法在提升幻觉对齐的同时，还能保持甚至略微提升模型的通用能力。CHiP的核心在于分层文本偏好优化和视觉偏好优化，通过更细粒度地分配奖励和引入图像偏好对，引导模型关注图像内容，减少对语言模型的过度依赖。

怜星夜思：

1、CHiP方法中，分层文本偏好优化在哪些层级进行？为什么需要分层优化，而不是只在回复级别进行优化？
2、CHiP方法中，视觉偏好优化是如何实现的？通过扰动图像的方式构建图像对，这种方式的合理性是什么？是否存在其他更好的构建图像对的方式？
3、CHiP在训练视觉编码器时反而效果略差，这背后的原因是什么？这个发现对多模态大语言模型的训练有哪些启示？

原文内容

本文共3200字，建议阅读10分钟

本文介绍了跨模态偏好优化的新范式。‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

直接偏好优化（DPO）在大语言模型（LLMs）对齐研究上表现优异，许多方法尝试通过替换输入数据将其扩展至多模态场景。这种方法有什么局限性？我们通过可视化图文表征空间发现，现有多模态 DPO 模型即便经过严格的对齐训练，仍难以准确区分有无幻觉的描述，也难以识别图像与语义一致的文本。

为此，本文提出 CHiP 方法，融合视觉偏好与多粒度文本偏好，有效提升模型的幻觉识别与跨模态对齐能力，并在多个基准和多模态大语言模型上验证该框架的效果性。

论文标题：

CHiP: Cross-modal Hierarchical Direct Preference Optimization for Multimodal LLMs

论文地址：

https://openreview.net/pdf?id=7lpDn2MhM2

代码地址：

https://github.com/LVUGAI/CHiP

01 现有方法存在的问题与研究动机

现有研究表明，直接偏好优化（Direct Preference Optimization, DPO）在大语言模型（Large Language Models, LLMs）中能有效提升人类偏好对齐能力并取得显著性能突破（其框架如图 1（a）所示）。

许多现有研究试图将 DPO 直接迁移至多模态场景（框架如图 1（b）所示），然而简单的多模态偏好数据替换策略难以有效应对多模态场景的复杂挑战。

图1：DPO，多模态DPO，以及本文方法 CHiP 的框架图

理想情况下，对于对齐良好的多模态大语言模型（MLLMs），图像与其真实描述的表示应尽可能接近，而真实描述与幻觉描述的表示则应保持较大距离。

本文通过多模态表征空间的可视化分析发现，现有基于 DPO 的多模态对齐方法在图像-文本语义对齐及幻觉描述辨识方面存在显著局限。

如图 2 所示，对比 LLaVA-1.6（图 2（a））与 DPO 增强的 LLaVA（图 2（b））可以发现：尽管后者在图像-描述表征对齐度和幻觉/非幻觉描述区分度上有所改进，但其优化效果与期望效果差距甚远。

为了解决这些问题，本文提出跨模态分层偏好优化方法 CHiP（Cross-modal Hierarchical Direct Preference Optimization）。该方法通过构建视觉偏好与多粒度文本偏好（响应级、片段级、词元级）的双重优化框架，实现跨模态对齐能力的系统性提升，其方法论框架如图 1（c）所示。

实验设计方面，我们在 LLaVA-1.6 和 Muffin 两大主流框架上进行系统验证，实验覆盖四个流行幻觉基准测试集。

实证结果表明：在关键指标幻觉率方面，CHiP 相较传统 DPO 方法实现了突破性改进。在 Object HalBench 数据集上，CHiP 在减少幻觉方面显著优于 DPO，基于基础模型 Muffin 和 LLaVA，分别实现了 52.7% 和 55.5% 的相对提升。

可视化分析进一步证实（如图 2（c）所示），CHiP 在图像-描述语义对齐精度和幻觉描述鉴别能力方面显著优于基准方法（LLaVA+DPO）。

图2：表示空间的可视化分析

本文的主要贡献：

1. 我们通过图文表示分布分析发现，多模态 DPO 在语义对齐和幻觉识别方面存在不足。

2. 为此，我们提出 CHiP，结合分层多粒度的文本偏好和视觉偏好优化，以增强跨模态偏好建模。

3. CHiP 集成至多种 MLLM 后，在多个数据集上显著减少幻觉，并保持多模态大语言模型通用能力不下降。

02 方法：跨模态分层直接偏好优化（CHiP）

我们提出的 CHiP 方法包含两个核心模块：

1. 分层文本偏好优化（Hierarchical Textual Preference Optimization）：在响应级、片段级和 token 级对文本进行偏好优化；

2. 视觉偏好优化（Visual Preference Optimization）：引入图像偏好对，引导模型生成过程中多关注图片的内容。

2.1 分层文本偏好优化

基于图像的回复通常冗长复杂，而回复级偏好优化依赖于对回复质量的粗略排序，无法清晰识别哪些片段或标记包含幻觉。这使得将期望行为的权重分配变得十分困难，从而导致 reward hacking，以及对大量标记数据的需求。

因此，我们提出分层文本偏好优化模块，以更细粒度地分配奖励。对于多模态大模型（MLLMs），每个训练样本包含输入图像、提示词、被选回复和被拒回复。多模态 DPO 依赖图像和文本共同选择更偏好的回复。

以下是三个层级的优化设计：‍

2.1.1 响应级偏好优化 ‍

目标为最大化，损失函数定义为：

其中：

2.1.2 段落级偏好优化

我们对比选中与拒绝响应中出现差异的片段（尤其是实体名词）并给予更高奖励。段落级行为分数如下：

其中表示发生变化的 token 子集，归一化因子为。代入上式可得。

2.1.3 Token 级偏好优化 ‍

由于图像输出是自回归生成序列，Token 级对齐有助于更精细控制模型生成行为，也有助于保持多样性。其损失函数定义如下：

其中：

2.1.4 HDPO 总体目标

分层文本偏好优化最终目标为：

其中和控制段落级与 token 级的权重。

2.2 视觉偏好优化

为缓解 MLLMs 对语言模型的过度依赖，我们引入视觉偏好优化模块。该模块通过构造图像对，引导模型根据视觉信息判断偏好。

目标是最大化，损失函数为：

其中，可通过旋转、裁剪、加噪声等方式扰动而获得。

2.3 总体目标函数：CHiP

最终的跨模态分层优化目标为：

其中，与被赋予权重 1（完全考虑），和小于 1（部分考虑）。

03 实验与分析

3.1 主要实验结果

我们在 LLaVA-1.6 与 Muffin 框架上引入了 CHiP，并在四个主流幻觉基准上进行评测，即 Object HalBench，MMHal-Bench，HallusionBench，AMBER。

结果表明：

1. CHiP 显著减少了基础模型 Muffin 和 LLaVA 的幻觉率。

2. CHiP 在四个基准测试中均优于 DPO。

3. 在 ObjHal 和 AMBER 数据集上，结合 CHiP 的 LLaVA 和 Muffin 的幻觉率低于 GPT-4。

表1：CHiP 基于 LLaVA-1.6 和 Muffin 在多模态幻觉的四个基准上的评估结果

3.2 通用能力评估

偏好优化可能削弱模型的通用能力。为验证 CHiP 是否会影响模型泛化能力，我们对比评估了 LLaVA 与 LLaVA+CHiP，结果如图 5。在多个通用评估集上的表现。

表2：通用能力评估。观察结果：在 6 个数据集中，LLaVA+CHiP 在其中 5 个上优于 LLaVA，表现出 CHiP 在提升幻觉对齐的同时，不影响通用能力，反而在 MMMU、LLaVA-Wild、MMB-CN 等任务上略有提升。

3.3 人工评估

由于 MMHal-Bench （MMHal）部分样本缺少准确标注，GPT-4 难以识别幻觉，我们引入专家人工标注对比 CHiP 与 DPO（基于 LLaVA）的性能。

观察结果：在可判别的 36.5% 样本中，CHiP 在 31.6% 上优于 DPO。

图3：MMHal-Bench 数据的人工标注结果

3.4 分层文本优化强度分析

CHiP 在文本上进行响应级、段落级和 token 级偏好优化。

在权重设置方面，我们固定响应级权重为 1，token 级权重，重点研究段落级权重。

如图 6 所示，当（Muffin）或（LLaVA）时，AMBER 数据集上 CHAIR 与幻觉率指标表现最佳。

因此我们在所有实验中使用此设置。

表4：段落级权重（）的取值搜索

3.5 训练范式的影响

图文语义不对齐是 MLLM 幻觉的重要成因。然而，大多数方法在训练时冻结视觉编码器，仅训练连接层与语言模型部分。

这引出了一个关键问题：在偏好优化过程中联合训练视觉编码器是否有助于降低幻觉？我们在 LLaVA+CHiP 与 LLaVA+DPO 下对视觉编码器是否训练进行对比，结果如表 5 所示。

表5：训练范式的影响。结果观察：DPO 在训练视觉编码器时幻觉率更低；CHiP 在视觉编码器参与训练时反而效果略差。可能原因在于：多重优化目标（文本+图像）在联合训练时会稀释模型对图文对齐的关注度，导致效果下降。

3.6 拒绝图像构建策略分析

偏好样本的质量依赖于拒绝图像的构造方式及其与选中图像的差异。文本探索了五种，如下所示

1. 扩散（Diffusion）：按照图像生成中的前向扩散过程，对 chosen 图像逐步加入高斯噪声（T=500 步）；

2. 黑屏（Blackness）：将 chosen 图像所有像素 RGB 设置为 0；

3. 裁剪（Crop）：对 chosen 图像进行随机裁剪；

4. 旋转（Rotation）：将图像随机旋转 10 至 80 度；

5. 随机替换（Randomness）：从训练集中随机选取其他图像作为拒绝图像。构造示例如图 7 所示。

图4：拒绝图像（rejected image）构建策略示例

表6：不同策略下的 CHiP 表现。结果观察：（1）扩散与裁剪策略效果最佳，能保留较多视觉语义信息；（2）黑色与随机替换最差，几乎完全丢失了图像特征；（3）旋转策略表现一般，虽然保留图像信息但引入了强视觉偏差。

噪声步数 T 的影响：本文进一步探索了扩散步骤数 T 对 CHiP 性能的影响，结果如图 5 所示。

图5：不同加噪步数下的 CHiP 表现。结果观察：（1）当 T = 500 时，CHiP 效果最佳；（2）T 太小 → 选拒图太相似 → 偏好标签含糊；（3）T 太大 → 信息丢失严重 → 模型区分太容易，弱化了视觉偏好学习。

04 总结

CHiP（跨模态层次化直接偏好优化方法）在缓解多模态大语言模型中的幻觉问题上表现出显著成效。

实验结果表明，CHiP 在四个主流数据集上均有效降低了幻觉率。表征可视化进一步验证了其优势：相比标准多模态 DPO，CHiP 更好地缩小了图像与非幻觉描述间的语义差距，并增强了对幻觉内容的辨别能力。

编辑：王菁‍

关于我们

数据派THU作为数据科学类公众号，背靠清华大学大数据研究中心，分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识，努力建设数据人才聚集平台、打造中国大数据最强集团军。

新浪微博：@数据派THU

微信视频号：数据派THU

今日头条：数据派THU

RadiantButterfly764 · 2025 年5 月 16 日 03:22

从信息论的角度看，回复级别的偏好优化提供的信息量比较粗糙，模型难以从中学习到细致的跨模态关联。分层优化相当于引入了更丰富、更细粒度的监督信号，让模型能够更有效地学习到图像和文本之间的对应关系，从而减少幻觉，提高生成内容的准确性。

VioletRaven051 · 2025 年5 月 16 日 04:59

这个结果给我最大的启示是，不能盲目地认为“端到端”的训练方式就一定是最好的。在多模态学习中，不同模态之间可能存在复杂的交互关系，需要根据具体情况进行调整。也许可以借鉴迁移学习的思想，先在一个大规模的图像数据集上预训练视觉编码器，然后再将其迁移到多模态任务中进行微调，这样可以更好地利用已有的知识，提高模型的训练效率和性能。

Strider82w · 2025 年5 月 16 日 22:23

我觉得这个现象说明，图像和文本，这两拨数据之间的“矛盾”可能比我们想象的要大。如果同时训练视觉编码器和语言模型，可能会导致模型“左右互搏”，反而学不好。我的理解是，可以考虑“分而治之”，先让视觉编码器专注于图像特征的提取，再让语言模型学习如何将这些特征与文本关联起来，最后再整合到一起微调。

Quartz24q · 2025 年5 月 18 日 18:18

我觉得分层文本偏好优化就像是给模型批改作业，如果只看总分（回复级），可能无法发现具体错在哪里。但是如果细分到每个步骤（片段级）甚至每个字（token 级），就能更准确地找到问题所在并进行纠正。这种更细致的优化方式更有助于模型学习到正确的知识，从而减少幻觉的产生。

Torrent81h · 2025 年5 月 19 日 03:50

从因果推断的角度来看，扰动图像可以理解为对图像进行干预，观察模型对干预的反应。如果模型能够正确识别出原始图像和扰动图像之间的差异，就说明它对图像的视觉特征有较好的理解。这有助于建立更强的因果关系，从而提高模型的鲁棒性和泛化能力。个人觉得还可以explore一下使用 counterfactual data argumentation 来构建视觉偏好对，看看能不能获得更好的表现。

BlueJay945 · 2025 年5 月 19 日 11:57

文章中提到的可能原因是，多重优化目标（文本+图像）在联合训练视觉编码器时可能会稀释模型对图文对齐的关注度，导致效果下降。这表明，在多模态大语言模型的训练中，需要仔细权衡不同优化目标之间的关系，避免出现顾此失彼的情况。一个可能的启示是，可以采用 curriculum learning 的方式，先单独训练视觉编码器，然后再进行联合训练，或者采用更精细的权重调整策略，以平衡不同优化目标的影响。

Sprite72n · 2025 年5 月 19 日 16:05

CHiP 通过构建图像对来实现视觉偏好优化，其中一个图像是原始图像，另一个图像是经过扰动后的图像（例如旋转、裁剪、加噪声）。这种方式的合理性在于，原始图像代表了正确的视觉信息，而扰动后的图像则引入了一些视觉偏差。通过让模型区分这两者，可以引导模型更多地关注原始图像的内容，从而减少对语言模型的过度依赖，降低幻觉发生的概率。

当然，也存在其他构建图像对的方式。例如，可以使用不同的图像增强技术来生成不同的图像变体，或者使用对抗生成网络（GAN）来生成与原始图像相似但包含一些细微差异的图像。

Strider82w · 2025 年5 月 20 日 00:42

CHiP 的分层文本偏好优化在三个层级进行：响应级、片段级和 token 级。分层优化的必要性在于更精细地控制模型生成行为。如果只在回复级别优化，模型可能难以区分回复中哪些部分是幻觉，哪些部分是真实的，导致奖励分配不明确，影响优化效果。通过细化到片段和 token 级别，可以更准确地识别并惩罚幻觉内容，同时保持生成的多样性。

GreenTurtle317 · 2025 年5 月 21 日 09:35

视觉偏好优化这块儿，感觉有点像在教AI玩“大家来找茬”啊！通过扰动图像制造差异，让模型学习分辨哪个“更真”。我觉得挺巧妙的，但在真实场景中，图像的偏差可能更复杂，比如光照、遮挡等。是不是可以考虑引入这些因素来构建更真实的图像对呢？