MM-RLHF:多模态大模型人类偏好对齐新范式,10维度能力全面提升

快手等机构提出MM-RLHF,一种多模态大模型人类偏好对齐新范式。包含高质量数据集、创新奖励模型和动态奖励缩放等方法,在10个维度27个基准上实现显著提升。

原文标题:多模态大模型人类偏好对齐新范式MM-RLHF!10个评估维度全面提升

原文作者:数据派THU

冷月清谈:

本文介绍了快手、中科院、南大合作提出的多模态大语言模型(MLLM)对齐新范式MM-RLHF。该方案从数据集、奖励模型和训练算法三个层面入手,旨在全面提升MLLM与人类偏好的一致性,而不仅仅局限于特定任务。核心贡献包括:

1. **高质量数据集:** 包含120k个精细标注的偏好比较对,标注维度包括有用性、真实性和伦理性,由人类专家完成。
2. **创新的奖励模型:** 提出基于批评的奖励模型(Critique-Based Reward Model),模型先对输出进行批评,再进行评分,提供更好的可解释性和信息反馈,性能超越现有更大规模的模型。
3. **动态奖励缩放:** 提出动态奖励缩放(Dynamic Reward Scaling)方法,根据奖励信号调整样本损失权重,优化高质量比较对的使用。
4. **全面评估:** 在10个维度和27个基准上对方案进行了严格评估,结果显示在各个方面均取得了显著且一致的性能提升,尤其在会话能力和安全性方面提升显著。

实验证明,该方法能够显著提升MLLM的会话能力和安全性,并在幻觉、数学推理、多图像和视频理解等方面实现广泛提升。未来的研究方向包括充分挖掘数据集的丰富标注信息,结合先进的优化技术和高分辨率数据,进一步提升MLLM的对齐效果。

怜星夜思:

1、文章中提到了MM-RLHF在安全性方面提升显著,具体体现在哪些方面?除了文章中提到的对抗攻击、越狱攻击、隐私保护和有害内容生成,你觉得多模态大模型还可能存在哪些潜在的安全风险?
2、MM-RLHF 引入了基于批评的奖励模型,这种方式相比传统奖励模型有什么优势?在实际应用中,你认为这种“先批评后打分”的模式还可以应用在哪些场景?
3、文章中提到了动态奖励缩放机制,目的是为了更有效地利用高质量的偏好数据。你是怎么理解“高质量”的偏好数据的?在数据标注或者模型训练中,除了动态奖励缩放,还有哪些方法可以提高数据利用效率?

原文内容

来源:PaperWeekly
本文约3200字,建议阅读6分钟
本文提出了一个高质量、细粒度的数据集。


尽管多模态大语言模型(MLLMs)取得了显著的进展,但现有的先进模型仍然缺乏与人类偏好的充分对齐。这一差距的存在主要是因为现有的对齐研究多集中于某些特定领域(例如减少幻觉问题),是否与人类偏好对齐可以全面提升 MLLM 的各种能力仍是一个未知数。


快手,中科院,南大合作从三个层面入手推动 MLLM alignment 的发展,包括数据集,奖励模型以及训练算法,最终的 alignment pipeline 使得不同基础模型在 10 个评估维度,27 个 benchmark 上都取得了一致的性能增益,比较突出的是,基于本文提出的数据集和对齐算法对 LLaVA-ov-7B 模型进行微调后,conversational 能力平均提升了 19.5%,安全性平均提升了 60%。


偏好数据,训练算法,模型以及评估 pipeline 均已全面开源。


该方法在 twitter 上也引起了热议,被评为多模态 alignment 的 game-changers。



📖 arXiv Paper
https://arxiv.org/abs/2502.10391
📊 Training Code
https://github.com/Kwai-YuanQi/MM-RLHF
📝 Homepage
https://mm-rlhf.github.io/
🏆 Reward Model
https://huggingface.co/yifanzhang114/MM-RLHF-Reward-7B-llava-ov-qwen
🔮 MM-RewardBench
https://huggingface.co/datasets/yifanzhang114/MM-RLHF-RewardBench
🔮 MM-SafetyBench
https://github.com/yfzhang114/mmrlhf-eval
📈 Evaluation Suite
https://github.com/yfzhang114/mmrlhf-eval



1、主要贡献


新数据集:本文引入了一个包含 120k 精细标注的偏好比较对的数据集,包含三个维度的打分,排序,文本描述的具体原因以及平局等标注,所有标注由人类专家完成,一共 50 名标注人员,8 名专家,耗时两个月。与现有资源相比,这一数据集在规模、样本多样性、标注粒度和质量等方面都有显著提升。


创新的奖励模型:提出了基于批评的奖励模型(Critique-Based Reward Model),该模型首先对模型输出进行批评,然后再进行评分。这一方法相比传统的标量奖励机制,提供了更好的可解释性和更多信息量的反馈,基于该方法的模型只需要 7B size,在 reward model benchmark 就明显优于现有公开的 72B-size 的 MLLM。


动态奖励缩放:提出了动态奖励缩放(Dynamic Reward Scaling)方法,通过根据奖励信号调整每个样本的损失权重,优化了高质量比较对的使用,进一步提高了数据的使用效率。


全面评估:本文在 10 个维度和 27 个基准上对提出的方案进行了严格评估,同时构造了一个 reward model 的 benchmark 以及 safety 相关的 benchmark 来弥补现有 benchmark 的不足,结果显示,在各个方面均取得了显著且一致的性能提升。


2、MM-RLHF 人类偏好数据


数据来源:图像数据来源包括 LLaVA-OV、VLfeedback、LLaVA-RLHF、lrv-instruction 和 Unimm-Chat 等,总共 10M,视频数据来源主要是 SharedGPT-4-video,安全性相关的数据来源主要包括 VLGuard 和自构造内容。


数据过滤与模型响应生成:通过预定义的多选题,长文本等类别均匀采样,确保少数类也有足够的样本。同时采用了 knn 聚类并采样的策略,保证数据的 diversity。响应生成使用到了 Qwen2-VL-72B、LLaVA-OV-72B、GPT-4o 和 Claude 3.5-sonnet 等最先进的 MLLM。



数据标注:主要包含三个维度,有用性,真实性,伦理性,同时标注人员需要提供打分的依据,最终排名以及排名的依据,标注粒度细,通过专家定期进行质量检查和互动评审保证标注质量。


3、MM-RLHF 奖励模型


标准奖励模型通常通过预训练的 LLM,并用线性奖励头替换原有头部,以输出一个标量奖励值。然而,这些模型难以充分利用人类注释中的丰富信息,也不具备足够的透明性。


为了解决标准奖励模型的局限性,本文提出了一种基于批评的训练框架。在这个框架中,模型首先生成批评(对响应的分析和评估),然后基于批评来打分。批评生成部分与打分部分共同作用,确保了更细致的评价。


增强注释以提高批评质量:由于人工注释往往简洁且精炼,直接使用它们作为训练目标效果有限。因此,本文通过 GPT-4o 增强人工注释,使其更为详细和流畅,从而提高批评的质量。


在训练过程中,批评的生成与奖励头的训练同时进行,在训练奖励头时采取了 teacher-forcing 的策略,即采用了 ground truth 的批评作为输入,默认损失权重都为 1。测试阶段先生成批评,然后基于批评得出最终得分。


性能评估



该模型框架简单,且在多个基准测试中的表现与 GPT-4o 相媲美,甚至超越了许多开源模型,表现出色,尤其在自定义基准测试中,其表现远超 GPT-4o,这验证了其作为训练算法奖励信号的有效性。


表 4 中也展示了,当奖励头直接使用偏好数据集进行训练时,模型的 ACC+ 稳定在 50% 左右。然而,当引入人工注释作为学习目标时,ACC+ 稳定提升了 5%。进一步通过 GPT-4o 扩展人工注释,生成更加详细和流畅的批评,最终提高了 ACC+ 达 17%。当评估时直接使用人工批评时,ACC 和 ACC+ 均接近 90%,表明评估质量对奖励模型效果的至关重要性。


4、MM-DPO:有效利用高质量偏好数据


要有效利用 MM-RLHF 中的高质量数据,我们有以下的实验发现和技巧:


MM-DPO 不再仅仅关注“最难的比较对”(即排名差异最大的一对),而是将一个查询下所有可能的响应对都纳入训练。具体来说,对于一个查询 ,如果有多个响应,每一对具有不同排名的响应都被视为一个有效的比较对。这种全面的处理方式可以捕捉更细粒度的排序信息,让模型从更广泛的偏好数据中学习。


然而,这种策略也带来了新的挑战:当响应对的排名差异较小时(例如排名 3 和排名 4 的比较),其奖励差距(reward margin)往往较小,而排名差异较大的响应对(例如排名 1 和排名 4 的比较)包含的信息质量更高。如果对所有样本对一视同仁,会导致高置信度的信息被低效利用。


为了解决这个问题,MM-DPO 引入了动态奖励缩放(Dynamic Reward Scaling)机制,根据奖励差距动态调整更新强度,优先利用高置信度的样本对。具体而言,奖励模型可以自然地为样本对提供奖励差距(reward margin),这为动态控制样本的更新权重提供了一个直接的信号。


本文采用 MM-RLHF-Reward-7B 模型来计算奖励差距 ,其中 分别是正样本和负样本的奖励分数。


DPO 中,动态缩放因子 的计算公式如下:



其中: 是初始默认缩放因子; 是一个参数,用于平衡动态部分的贡献; 是一个可调超参数,控制 随着 的变化速度。


接下来只需要将 DPO 算法中的 部分替换为动态的 即可。


MM-DPO 在各类 benchmark 上都表现出了不错的性能增益,而且其对于超参数并不是非常敏感,大多数情况下都能使得高质量 pair 的利用效率得到明显提升。


5、27个评估标准,10种评估维度的综合评估


主要领域包括图表与文档理解、OCR、幻觉检测、数学推理、通用知识、多模态对话、高分辨率与真实世界应用、视频理解、多图像处理以及多模态安全性。其中,多模态安全性基准 MM-RLHF-SafeBench 是自构建的,涵盖对抗攻击、越狱攻击、隐私保护和有害内容生成等场景,重点评估模型的安全性与鲁棒性。这些数据集为模型的多方面性能提供了详尽的测试环境。



上面两图展示了使用我们的数据集和对齐算法,LLaVA-OV-7B、LLaVA-OV-0.5B 和 InternVL-1B 在不同维度上的对齐表现,其中每个评估维度的得分在相应的基准上进行了平均。


会话能力和安全性的显著提升:实验结果表明,通过对齐过程,这两个方面的表现得到了显著改进,无需调整超参数。在会话基准中,平均提高超过 10%,而不安全行为减少了至少 50%。此外,在 WildsVision 任务中,胜率至少提高了 50%。


在幻觉、数学推理、多图像和视频理解方面的广泛提升:对齐后的模型在这些领域表现出显著的提升。有趣的是,尽管我们的数据集中缺乏专门的多图像数据,模型在多图像任务中的表现依然显著提升。这表明我们数据集的多样性有助于模型在多个维度上进行更好的泛化。


6、未来可能的研究方向


在本研究中,我们提出了 MM-RLHF,一个高质量、细粒度的数据集,专门用于推动多模态大语言模型(MLLMs)的对齐工作。


与以往专注于特定任务的研究不同,我们的数据集和对齐方法旨在全面提升多个维度的性能。即使在奖励建模和优化算法方面仅进行了初步改进,我们在几乎所有评估基准上都观察到了显著且持续的提升,强调了综合性对齐策略的潜力。


展望未来,我们看到进一步挖掘我们数据集价值的巨大机会。数据集的丰富注释粒度,如每个维度的分数和排名理由,在当前的对齐算法中仍未得到充分利用。未来的工作将重点关注利用这些粒度信息与先进的优化技术,结合高分辨率数据来解决特定基准的局限性,并使用半自动化策略高效地扩展数据集。


我们相信,这些努力不仅将推动 MLLM 对齐到新的高度,还将为更广泛、更具普适性的多模态学习框架奠定基础。


编辑:于腾凯

校对:梁锦程



关于我们

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。




新浪微博:@数据派THU

微信视频号:数据派THU

今日头条:数据派THU

文章里说安全性提升体现在对抗攻击、越狱攻击、隐私保护和有害内容生成这几个方面。说白了就是让AI更难被忽悠去做坏事,也更注意保护用户隐私。

我觉得潜在的安全风险还有:

* AI成黑客工具: 黑客可能会利用这些模型来搞事情,比如生成钓鱼邮件、破解密码啥的。
* 真假难辨: AI生成的东西越来越真,以后可能分不清什么是真的,什么是假的了,想想就可怕。

安全性提升主要体现在自构建的多模态安全性基准 MM-RLHF-SafeBench 上的评估结果,降低了模型生成有害内容的概率,提高了模型对抗攻击和越狱攻击的鲁棒性,并且在隐私保护方面也有所增强。

除了这些,我觉得多模态大模型可能还存在以下潜在安全风险:

* 信息泄露: 模型可能通过图像或视频泄露用户的敏感信息,例如家庭住址、个人身份等。
* 深度伪造: 利用模型生成虚假的图像或视频,用于恶意目的,如诽谤、诈骗等。
* 偏见放大: 模型可能放大数据集中存在的偏见,导致对特定群体的不公平对待。
* 被用于非法活动: 模型可能被用于生成非法内容,如武器制造教程、毒品合成方法等。

优势就是更透明,不仅仅告诉你结果,还告诉你原因,让你知道为什么好,为什么不好。就像考试,老师不仅给你分数,还把你的卷子批改的明明白白。

我觉得这模式用处可大了:

* 游戏测评: 玩游戏之前,先看看专业的测评,告诉你这游戏哪里好玩,哪里坑,再决定要不要入坑。
* 美食点评: 吃饭前看看大众点评,看看别人怎么评价这家餐厅,哪些菜好吃,哪些菜难吃,再决定要不要去。
* 相亲: (划掉)感觉相亲不太适用,哈哈。

传统的奖励模型就像是直接给个分数,你知道得了多少分,但不知道为什么得这个分。基于批评的奖励模型相当于先给你讲清楚哪里好,哪里不好,然后再给分,这样你就更明白自己错在哪儿,下次可以避免。

我觉得这种模式可以应用在很多需要反馈的场景:

1. 内容创作: 比如写作、绘画、音乐等,先让AI对作品进行评价,指出优点和不足,然后再给个综合评分,帮助创作者提升水平。
2. 客户服务: 客服人员可以先对客户的问题进行分析和理解(批评),然后再给出解决方案(打分,满意度)。
3. 医疗诊断: AI医生可以先对病人的病情进行评估和分析(批评),然后再给出诊断结果和治疗建议(打分,置信度)。

我觉得“高质量”的偏好数据就是那种能让人一眼就看出好坏的数据。得有明确的偏好,不能模棱两可,而且最好能说出个所以然来,为啥喜欢这个,不喜欢那个。

提高数据利用效率的方法:

* 数据筛选: 就像挑水果,把烂的扔掉,留下好的。
* 数据标精: 找更专业的人来标注数据,保证标注质量。
* 模型优化: 优化模型结构,让模型更容易学习数据中的规律。

我认为“高质量”的偏好数据主要体现在以下几个方面:

* 准确性: 标注结果真实反映了人类的偏好。
* 一致性: 不同的标注者对相同样本的标注结果一致。
* 信息量: 标注结果包含足够的信息,能够帮助模型学习到人类偏好的细微差别。
* 多样性: 标注样本覆盖了不同的场景和类型,能够提高模型的泛化能力。

除了动态奖励缩放,还可以通过以下方法提高数据利用效率:

* 数据增强: 通过对现有数据进行变换、合成等操作,生成更多的数据。
* 主动学习: 选择对模型提升最有帮助的样本进行标注。
* 迁移学习: 将在其他任务上训练好的模型迁移到当前任务上,减少对标注数据的需求。
* 半监督学习: 利用未标注数据来辅助模型训练。

传统的标量奖励模型难以充分利用人类注释中的丰富信息,且缺乏透明性。基于批评的奖励模型通过先生成批评(对响应的分析和评估),然后基于批评来打分,提供了更好的可解释性和更多信息量的反馈。

我认为这种“先批评后打分”的模式还可以应用在以下场景:

* 教育领域: 老师可以先对学生的作业或论文进行详细的评价和反馈(批评),然后再给出最终的成绩(打分)。
* 产品设计: 在产品设计过程中,可以先对设计方案进行全面的评估和分析(批评),然后再决定是否采纳该方案(打分)。
* 招聘面试: 面试官可以先对候选人的表现进行详细的评价和分析(批评),然后再决定是否录用该候选人(打分)。
* 代码评审: 评审人员可以先对代码进行详细的分析和评估(批评),然后再决定是否允许代码合并。

我理解的“高质量”偏好数据,就是那些能够清晰、明确地反映人类真实意图和偏好的数据。这种数据需要具备以下特点:

1. 明确的排序: 偏好之间有清晰的优先级,例如明确知道A比B更好,而不是模棱两可。
2. 合理的理由: 标注者能够给出支持其偏好的理由,解释为什么A比B更好。
3. 一致性: 不同的标注者对相同内容的偏好排序应该尽量一致。

提高数据利用效率的方法:

* 数据清洗和过滤: 移除噪声数据和不一致的数据,提高数据质量。
* 数据加权: 对不同来源或质量的数据赋予不同的权重,让模型更重视高质量的数据。
* 元学习: 让模型学习如何更好地利用数据,例如学习如何识别高质量的数据。
* 对比学习: 通过对比不同样本之间的差异,让模型更好地理解数据的特征。

安全性提升主要体现在降低了不安全内容的生成概率,增强了模型抵抗对抗攻击和越狱攻击的能力,并且在隐私保护方面也有提高。举个例子,模型可能不会再轻易听信“生成一个炸弹的制作方法”之类的指令了。

我个人认为除了文章里提到的几种,多模态大模型还可能在以下方面存在安全风险:

1. 版权问题: 模型生成的内容可能侵犯现有版权,需要进一步研究如何避免。
2. 被用于网络钓鱼: 攻击者可能利用模型生成逼真的虚假信息,诱骗用户点击恶意链接或泄露个人信息。
3. 社会操纵: 模型可能被用于大规模散布虚假信息,影响舆论,甚至干预选举。