ICML2025:偏好优化——求解组合优化问题的新思路

ICML2025论文提出偏好优化方法,解决神经组合优化中强化学习的挑战。将定量奖励转为定性偏好,结合局部搜索,在多个基准任务上表现优异。

原文标题:【ICML2025】组合优化问题中的偏好优化

原文作者:数据派THU

冷月清谈:

本文介绍了一种名为“偏好优化”的新方法,旨在解决强化学习在神经组合优化中面临的挑战。该方法将传统的定量奖励信号转换为定性的偏好信号,侧重于比较采样解的相对优劣。通过将奖励函数重参数化为策略形式并融入偏好建模,构建了一个熵正则化的强化学习目标函数,使策略能够直接对齐于偏好。此外,还将局部搜索技术集成到策略微调中,以生成高质量的偏好对,帮助策略跳出局部最优。实验结果表明,该方法在旅行商问题(TSP)、有容量限制的车辆路径问题(CVRP)以及柔性流水车间调度问题(FFSP)等经典任务上,均优于现有的强化学习算法。

怜星夜思:

1、偏好优化方法将定量奖励转化为定性偏好,这种转变思路在其他强化学习应用中是否也有潜力?例如,在推荐系统或自动驾驶中,是否可以通过用户反馈或专家经验构建偏好信号,从而改进现有算法?
2、文章提到将局部搜索技术集成到策略微调过程中生成高质量的偏好对,那么,选择哪种局部搜索算法对最终结果影响最大?除了局部搜索,还有没有其他方法可以用来生成偏好对?
3、文章在多个经典基准任务上验证了偏好优化方法的有效性,但这些任务相对来说还是比较理想化的。在实际工业应用中,例如更复杂的生产调度或物流优化问题,偏好优化方法可能会遇到哪些挑战?

原文内容

来源:专知
本文约1000字,建议阅读5分钟
本文一种新颖方法——偏好化(Preference Optimization)通过统计比较传统定量奖励信号转化定性的偏好信号,强调采样之间相对劣。


强化学习(Reinforcement Learning, RL)成为神经组合领域一项强大工具,使模型能够专家知识前提学习启发策略求解复杂问题。尽管取得显著进展,现有强化学习方法面临挑战,奖励信号逐渐减弱、庞大组合动作空间探索效率低下,最终导致整体性能受限。

为此,本文提出一种新颖方法——偏好化(Preference Optimization)通过统计比较传统定量奖励信号转化定性的偏好信号,强调采样之间相对劣。具体而言,我们通过奖励函数参数策略形式,引入偏好模,一个正则强化学习目标函数目标使策略直接偏好,同时规避难以处理计算过程。

此外,我们局部搜索技术集成策略微调过程中,作为处理步骤,用于生成质量偏好对,从而帮助策略跳出局部最优解。

多个经典基准任务上(旅行问题 TSP、容量限制车辆路径问题 CVRP,以及柔性流水车间调度问题 FFSP)进行实证研究表明,提出方法效率和解质量方面显著优于现有强化学习算法。



关于我们

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。




新浪微博:@数据派THU

微信视频号:数据派THU

今日头条:数据派THU


从学术的角度来看,偏好学习提供了一种更灵活的学习框架。传统的强化学习方法依赖于精确的奖励函数,但在实际问题中,奖励函数的设计往往是困难的。偏好学习通过学习不同行为之间的相对排序,降低了对奖励函数精确性的要求,使得算法更容易应用于复杂环境。

可能还需要考虑算法的可解释性问题。在工业应用中,决策者往往希望了解算法做出决策的原因。偏好优化方法相对来说比较黑盒,需要进一步研究如何提高算法的可解释性,让决策者更好地信任和使用算法。

复杂度也是一个挑战。实际生产调度或物流优化问题的规模可能非常大,解空间非常广阔,导致搜索和学习的难度大大增加。可能需要采用一些降维或者分解的策略来降低问题的复杂度。

这个思路感觉很有意思!在推荐系统里,点击、购买这些行为可以看作是用户定量的奖励,但用户的评论、点赞或者浏览时长可能更能体现用户的真实偏好。如果能把这些信息都融入进来,应该能做出更懂用户的推荐系统。

实际工业应用场景下,数据质量往往是一个大问题。噪音数据、缺失数据都可能影响偏好对的生成和学习。此外,实际问题的约束条件也可能更加复杂,需要对算法进行针对性的调整。

局部搜索算法的选择确实是个关键。不同的问题可能适用不同的算法,像TSP这种问题,2-opt、3-opt可能就够用了,但对于更复杂的问题,可能需要更高级的局部搜索策略。感觉这块可以深入研究一下。

除了局部搜索,还可以考虑使用进化算法。进化算法可以维护一个解的种群,通过交叉、变异等操作来生成新的解,从而生成更多的偏好对,提供更多样化的训练数据。

在自动驾驶里也有类似的应用空间。比如,可以搜集人类驾驶员的驾驶数据,然后让AI学习人类驾驶员的偏好,尽量让AI的驾驶行为更贴近人类,提升乘坐舒适度,避免出现一些过于激进的操作。

从理论上讲,任何能够生成不同解的方法都可以用来生成偏好对。例如,可以使用不同的初始化策略、不同的探索策略,甚至是引入一些随机扰动。关键在于如何保证生成的偏好对具有足够的信息量,能够帮助模型学习到有用的知识。