DPO-Shift：通过参数控制改进直接偏好优化，缓解似然偏移

almosthuman2014 · 2025 年3 月 4 日 12:52

DPO-Shift 通过参数控制改进直接偏好优化 (DPO)，缓解似然偏移问题，实现更精准的语言模型训练。

原文标题：DPO-Shift：一个参数可控改变DPO分布，缓解似然偏移

原文作者：机器之心

原文链接： http://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650957790&idx=4&sn=0630bef0f70dd5023e4ddb78a6ad38cf&

冷月清谈：

直接偏好优化 (DPO) 作为一种离线强化学习方法，在大型语言模型训练中展现出其高效性和稳定性。然而，DPO 训练过程中存在似然位移问题，即选定响应和拒绝响应的概率同时下降，导致模型对未明确偏好或拒绝的响应赋予过高概率。本文指出，选定响应和拒绝响应在内容上的相似性可能是导致似然位移的原因。为解决这个问题，本文提出了一种名为 DPO-Shift 的新方法，通过在 Bradley-Terry 模型中为拒绝响应的奖励添加参数函数，从而削弱语义相似响应间的对抗性，进而缓解似然位移。理论分析表明，DPO-Shift 方法在提升选定概率和维持奖励差距之间存在权衡关系，该权衡由参数函数控制，并受初始模型性能和数据质量的影响。实验结果表明，DPO-Shift 能有效缓解似然位移，并在多个下游任务中表现优于 DPO，实现更简洁和更高质量的内容生成。

怜星夜思：

1、DPO-Shift 如何在实际应用中确定最佳参数函数？是否存在一些通用的指导原则或需要根据具体任务进行调整？
2、除了文中提到的似然位移问题，DPO 方法还有哪些局限性？未来的研究方向有哪些？
3、文章中提到 DPO-Shift 在 MT-Bench 和胜率实验中表现优于 DPO。除了这些指标，还有哪些指标可以用来评估 DPO 和 DPO-Shift 的性能？

原文内容

在人工智能领域，如何引导大语言模型产出贴合人类偏好的内容，已成为备受瞩目的研究焦点。强化学习从人类反馈中学习（RLHF）作为该领域的重要方法之一，虽成效显著，但也暴露出多阶段优化流程复杂、计算负担沉重等弊端。而直接偏好优化（DPO）及其衍生变体作为离线算法，凭借简单易用、稳定性强等优势，近来广受关注。

DPO主要通过最大化选定响应与拒绝响应间的奖励差距，来实现对模型的高效训练。不过，在DPO训练过程中，一种名为似然位移的现象逐渐浮现：选定响应与拒绝响应的概率往往同步下降，致使模型对那些既未被明确偏好、也未遭坚决拒绝的响应，赋予了意外升高的概率。当前研究普遍将这一现象归咎于模型容量局限、训练样本特性等因素。

本文通过观察当今广泛应用于模型微调的数据集，发现选定响应与拒绝响应在内容层面存在较高相似度，这或为似然位移的诱因。基于此，为助力模型精准区分两类响应，本文提出一种创新策略：在Bradley-Terry模型中，于拒绝响应的奖励前增设参数函数，借此削弱语义相似响应间的对抗性，进而缓解似然位移问题。

理论层面，本文针对选定响应的对数似然、奖励差距这两个关键指标函数展开了一系列理论分析。研究结果表明，DPO-Shift方法在提升选定概率与维持奖励差距之间，存在着明确的权衡关系，且这一权衡机制由引入的参数函数调控，同时该权衡结果还紧密依赖初始模型性能及数据质量，这与现有研究结论高度契合。一系列实验充分验证了DPO-Shift方法的有效性，它能够显著缓解DPO训练中的似然位移问题。通过科学合理地设置参数函数，模型可在响应概率与奖励准确性间实现灵活、可控的权衡。在MT-Bench以及胜率实验等下游任务测试中，DPO-Shift展现出超越DPO的性能，同时可以观测到更简洁，质量更高的生成内容。

为了更好的帮助大家了解这项工作，机器之心最新一期线上分享邀请到华南理工大学在读研究生杨晞亮，为大家进行详细介绍 DPO-Shift。

分享主题：DPO-Shift：一个参数可控改变DPO分布，缓解似然偏移

分享摘要：本文聚焦DPO方法中的似然位移问题，提出DPO-Shift方法。该方法在Bradley-Terry模型的拒绝奖励中添加参数函数，以可控地调整概率分布。理论与实验分析表明，通过调节该参数函数，可以在提高选定概率和牺牲奖励差距间进行权衡。一系列下游任务上的验证实验进一步证明了本方法的优越性。

嘉宾简介：杨晞亮是华南理工大学在读研究生，此研究为其在港中文（深圳）担任研究助理时完成。其主要研究兴趣包括拟蒙特卡罗方法，标准化流，大模型偏好对齐，无似然推断等。

论文链接：https://huggingface.co/papers/2502.07599

项目链接：https://github.com/Meaquadddd/DPO-Shift

直播时间：北京时间 3月 5 日 19:00-20:00

直播预约：

本次直播设有 QA 环节，欢迎大家加群一起来聊。

机器之心 · 机动组

机动组聚焦于学术研究、工程实践与产业应用，筛选前沿、专业、实用内容，不定期组织学术研讨、技术交流与实战分享等。欢迎所有 AI 领域技术从业者关注。

点击阅读原文，查看往期回顾。

Comet761k · 2025 年3 月 6 日 09:25

关于 DPO-Shift 参数函数的最佳设置，目前还没有一个通用的“万能公式”。文章中提到了参数函数的影响与初始模型性能和数据质量有关，这暗示了参数设置需要根据具体任务进行调整。我猜想，未来可能需要针对不同的任务类型、数据集大小和模型结构等因素，开发一些经验性的指导原则或自动化的参数搜索方法。

SpringFlower865 · 2025 年3 月 7 日 12:05

DPO 的局限性除了似然位移，我觉得还有对奖励模型的依赖。如果奖励模型本身存在偏差，那训练出来的语言模型也会有偏差。另外，DPO 是离线方法，无法像 RLHF 那样在线学习，适应性可能差一些。未来的研究方向，我感觉可以探索如何改进奖励模型，或者结合在线学习的思想来改进 DPO。

SparklingRiver075 · 2025 年3 月 7 日 21:58

对于“文章中提到 DPO-Shift 在 MT-Bench 和胜率实验中表现优于 DPO。除了这些指标，还有哪些指标可以用来评估 DPO 和 DPO-Shift 的性能？”这个问题，除了文章中提到的指标，还可以考虑一些更细粒度的指标，例如对生成文本中不同方面的质量进行评估，比如语法、语义、逻辑等。还可以评估模型的学习效率，比如收敛速度、数据利用率等。

GoldenEagle888 · 2025 年3 月 10 日 21:51

确定最佳参数函数确实是个问题。我理解文章的意思是需要根据具体任务和数据集来调整，可能得做一些实验，通过观察模型在验证集上的表现来选择合适的参数。说不定以后会有大佬根据经验总结出一些规律，或者开发一些自动化调参工具，那就方便多了。

SapphireCat928 · 2025 年3 月 11 日 05:53

我觉得可以借鉴其他领域类似参数调整的思路，比如网格搜索、贝叶斯优化之类的，先粗略地探索一个范围，然后逐步缩小范围精细化调整。当然，前提是要定义好评估指标，比如文章中提到的响应概率和奖励准确性，然后根据实际需求找到一个平衡点。

CrystalBear411 · 2025 年3 月 10 日 07:59

对于“DPO-Shift 如何在实际应用中确定最佳参数函数？是否存在一些通用的指导原则或需要根据具体任务进行调整？”这个问题，除了 MT-Bench 和胜率，还可以考虑一些更贴近实际应用场景的指标，比如人工评估生成文本的质量、多样性和流畅度等。还可以评估模型在特定任务上的性能，例如在对话系统中评估对话的连贯性和信息量，在文本摘要中评估摘要的准确性和简洁性等。

Wisp43b · 2025 年3 月 11 日 15:15

针对“除了文中提到的似然位移问题，DPO 方法还有哪些局限性？未来的研究方向有哪些？”这个问题，我觉得可以从模型的鲁棒性方面考虑，比如评估模型在对抗样本攻击下的表现，或者评估模型在处理不同领域、不同风格文本时的泛化能力。还可以评估模型的效率，比如训练时间、推理速度等。

SilentWhale233 · 2025 年3 月 9 日 02:50

DPO 依赖高质量的偏好数据，如果数据标注质量不高，训练效果也会受影响。此外，DPO 主要关注的是选定响应和拒绝响应之间的差距，可能忽略了其他潜在的有用信息。未来可以考虑如何利用更多信息来改进 DPO，或者探索其他更有效的偏好学习方法。

Arcane69f · 2025 年3 月 11 日 02:29

我想到一个点，DPO 的训练目标是最大化奖励差距，这可能会导致模型为了迎合奖励模型而生成一些“讨巧”的回复，而不是真正理解用户的意图。未来可以考虑如何设计更合理的奖励函数，或者引入一些正则化项来避免这种情况。