DPO-Shift:通过参数控制改进直接偏好优化,缓解似然偏移

DPO-Shift 通过参数控制改进直接偏好优化 (DPO),缓解似然偏移问题,实现更精准的语言模型训练。

原文标题:DPO-Shift:一个参数可控改变DPO分布,缓解似然偏移

原文作者:机器之心

冷月清谈:

直接偏好优化 (DPO) 作为一种离线强化学习方法,在大型语言模型训练中展现出其高效性和稳定性。然而,DPO 训练过程中存在似然位移问题,即选定响应和拒绝响应的概率同时下降,导致模型对未明确偏好或拒绝的响应赋予过高概率。本文指出,选定响应和拒绝响应在内容上的相似性可能是导致似然位移的原因。为解决这个问题,本文提出了一种名为 DPO-Shift 的新方法,通过在 Bradley-Terry 模型中为拒绝响应的奖励添加参数函数,从而削弱语义相似响应间的对抗性,进而缓解似然位移。理论分析表明,DPO-Shift 方法在提升选定概率和维持奖励差距之间存在权衡关系,该权衡由参数函数控制,并受初始模型性能和数据质量的影响。实验结果表明,DPO-Shift 能有效缓解似然位移,并在多个下游任务中表现优于 DPO,实现更简洁和更高质量的内容生成。

怜星夜思:

1、DPO-Shift 如何在实际应用中确定最佳参数函数?是否存在一些通用的指导原则或需要根据具体任务进行调整?
2、除了文中提到的似然位移问题,DPO 方法还有哪些局限性?未来的研究方向有哪些?
3、文章中提到 DPO-Shift 在 MT-Bench 和胜率实验中表现优于 DPO。除了这些指标,还有哪些指标可以用来评估 DPO 和 DPO-Shift 的性能?

原文内容

图片


在人工智能领域,如何引导大语言模型产出贴合人类偏好的内容,已成为备受瞩目的研究焦点。强化学习从人类反馈中学习(RLHF)作为该领域的重要方法之一,虽成效显著,但也暴露出多阶段优化流程复杂、计算负担沉重等弊端。而直接偏好优化(DPO)及其衍生变体作为离线算法,凭借简单易用、稳定性强等优势,近来广受关注。

DPO主要通过最大化选定响应与拒绝响应间的奖励差距,来实现对模型的高效训练。不过,在DPO训练过程中,一种名为似然位移的现象逐渐浮现:选定响应与拒绝响应的概率往往同步下降,致使模型对那些既未被明确偏好、也未遭坚决拒绝的响应,赋予了意外升高的概率。当前研究普遍将这一现象归咎于模型容量局限、训练样本特性等因素。

本文通过观察当今广泛应用于模型微调的数据集,发现选定响应与拒绝响应在内容层面存在较高相似度,这或为似然位移的诱因。基于此,为助力模型精准区分两类响应,本文提出一种创新策略:在Bradley-Terry模型中,于拒绝响应的奖励前增设参数函数,借此削弱语义相似响应间的对抗性,进而缓解似然位移问题。 

理论层面,本文针对选定响应的对数似然、奖励差距这两个关键指标函数展开了一系列理论分析。研究结果表明,DPO-Shift方法在提升选定概率与维持奖励差距之间,存在着明确的权衡关系,且这一权衡机制由引入的参数函数调控,同时该权衡结果还紧密依赖初始模型性能及数据质量,这与现有研究结论高度契合。一系列实验充分验证了DPO-Shift方法的有效性,它能够显著缓解DPO训练中的似然位移问题。通过科学合理地设置参数函数,模型可在响应概率与奖励准确性间实现灵活、可控的权衡。在MT-Bench以及胜率实验等下游任务测试中,DPO-Shift展现出超越DPO的性能,同时可以观测到更简洁,质量更高的生成内容。

为了更好的帮助大家了解这项工作,机器之心最新一期线上分享邀请到华南理工大学在读研究生杨晞亮,为大家进行详细介绍 DPO-Shift。

分享主题:DPO-Shift:一个参数可控改变DPO分布,缓解似然偏移

分享摘要:本文聚焦DPO方法中的似然位移问题,提出DPO-Shift方法。该方法在Bradley-Terry模型的拒绝奖励中添加参数函数,以可控地调整概率分布。理论与实验分析表明,通过调节该参数函数,可以在提高选定概率和牺牲奖励差距间进行权衡。一系列下游任务上的验证实验进一步证明了本方法的优越性。

嘉宾简介:杨晞亮是华南理工大学在读研究生,此研究为其在港中文(深圳)担任研究助理时完成。其主要研究兴趣包括拟蒙特卡罗方法,标准化流,大模型偏好对齐,无似然推断等。

论文链接:https://huggingface.co/papers/2502.07599
项目链接:https://github.com/Meaquadddd/DPO-Shift
直播时间:北京时间 3月 5 日 19:00-20:00
直播预约:

本次直播设有 QA 环节,欢迎大家加群一起来聊。

机器之心 · 机动组
机动组聚焦于学术研究、工程实践与产业应用,筛选前沿、专业、实用内容,不定期组织学术研讨、技术交流与实战分享等。欢迎所有 AI 领域技术从业者关注。
点击阅读原文,查看往期回顾。

关于 DPO-Shift 参数函数的最佳设置,目前还没有一个通用的“万能公式”。文章中提到了参数函数的影响与初始模型性能和数据质量有关,这暗示了参数设置需要根据具体任务进行调整。我猜想,未来可能需要针对不同的任务类型、数据集大小和模型结构等因素,开发一些经验性的指导原则或自动化的参数搜索方法。

DPO 的局限性除了似然位移,我觉得还有对奖励模型的依赖。如果奖励模型本身存在偏差,那训练出来的语言模型也会有偏差。另外,DPO 是离线方法,无法像 RLHF 那样在线学习,适应性可能差一些。未来的研究方向,我感觉可以探索如何改进奖励模型,或者结合在线学习的思想来改进 DPO。

对于“文章中提到 DPO-Shift 在 MT-Bench 和胜率实验中表现优于 DPO。除了这些指标,还有哪些指标可以用来评估 DPO 和 DPO-Shift 的性能?”这个问题,除了文章中提到的指标,还可以考虑一些更细粒度的指标,例如对生成文本中不同方面的质量进行评估,比如语法、语义、逻辑等。还可以评估模型的学习效率,比如收敛速度、数据利用率等。

确定最佳参数函数确实是个问题。我理解文章的意思是需要根据具体任务和数据集来调整,可能得做一些实验,通过观察模型在验证集上的表现来选择合适的参数。说不定以后会有大佬根据经验总结出一些规律,或者开发一些自动化调参工具,那就方便多了。

我觉得可以借鉴其他领域类似参数调整的思路,比如网格搜索、贝叶斯优化之类的,先粗略地探索一个范围,然后逐步缩小范围精细化调整。当然,前提是要定义好评估指标,比如文章中提到的响应概率和奖励准确性,然后根据实际需求找到一个平衡点。

对于“DPO-Shift 如何在实际应用中确定最佳参数函数?是否存在一些通用的指导原则或需要根据具体任务进行调整?”这个问题,除了 MT-Bench 和胜率,还可以考虑一些更贴近实际应用场景的指标,比如人工评估生成文本的质量、多样性和流畅度等。还可以评估模型在特定任务上的性能,例如在对话系统中评估对话的连贯性和信息量,在文本摘要中评估摘要的准确性和简洁性等。

针对“除了文中提到的似然位移问题,DPO 方法还有哪些局限性?未来的研究方向有哪些?”这个问题,我觉得可以从模型的鲁棒性方面考虑,比如评估模型在对抗样本攻击下的表现,或者评估模型在处理不同领域、不同风格文本时的泛化能力。还可以评估模型的效率,比如训练时间、推理速度等。

DPO 依赖高质量的偏好数据,如果数据标注质量不高,训练效果也会受影响。此外,DPO 主要关注的是选定响应和拒绝响应之间的差距,可能忽略了其他潜在的有用信息。未来可以考虑如何利用更多信息来改进 DPO,或者探索其他更有效的偏好学习方法。

我想到一个点,DPO 的训练目标是最大化奖励差距,这可能会导致模型为了迎合奖励模型而生成一些“讨巧”的回复,而不是真正理解用户的意图。未来可以考虑如何设计更合理的奖励函数,或者引入一些正则化项来避免这种情况。