ICML2025：偏好优化——提升组合优化问题求解的新思路

DatapiTHU · 2025 年5 月 26 日 15:57

ICML2025论文亮点：提出“偏好优化”方法，将强化学习应用于组合优化问题，通过关注解的相对优劣，显著提升求解效率和质量，在TSP、CVRP和FFSP等问题上表现突出。

原文标题：【ICML2025】组合优化问题中的偏好优化

原文作者：数据派THU

原文链接： http://mp.weixin.qq.com/s?__biz=MzI1MjQ2OTQ3Ng==&mid=2247657224&idx=3&sn=c22c60f19a7fa3c3492eadcea3a02370&

冷月清谈：

本文介绍了一种名为“偏好优化”的全新方法，旨在解决神经组合优化中强化学习方法面临的挑战，如奖励信号减弱和探索效率低下等问题。该方法通过将定量奖励转化为定性偏好，关注解之间的相对优劣，并结合策略重参数化和偏好模型构建熵正则化的强化学习目标函数，使策略直接对齐于偏好信号。此外，该方法还将局部搜索技术集成到微调阶段，以生成高质量的偏好对，从而帮助策略摆脱局部最优。实验结果表明，在旅行商问题（TSP）、容量限制车辆路径问题（CVRP）和柔性流水车间调度问题（FFSP）等多个基准测试中，该算法在收敛效率和解质量方面均优于现有强化学习方法。

怜星夜思：

1、偏好优化方法中，将定量奖励转化为定性偏好，并通过关注解之间的相对优劣来提升性能，这个思路在其他领域是否有借鉴意义？例如，在推荐系统或者金融投资领域？
2、文章提到将局部搜索技术集成到微调阶段，而非作为后处理步骤，这样做的好处是什么？为什么之前的强化学习方法通常将局部搜索作为后处理？
3、文章在TSP、CVRP和FFSP等问题上验证了算法的有效性，这些问题有什么共性？偏好优化方法在解决其他类型的组合优化问题时，是否也能取得类似的性能提升？

原文内容

来源：专知

        本文约1000字，建议阅读5分钟

        本文提出了一种新方法——偏好优化（Preference Optimization）。

强化学习（Reinforcement Learning, RL）已成为神经组合优化中的一项强大工具，使模型能够在无需专家知识的前提下学习解决复杂问题的启发式策略。尽管已有显著进展，现有的RL方法仍面临诸多挑战，例如在庞大的组合动作空间中奖励信号逐渐减弱、探索效率低下等问题，导致整体性能受限。

为此，本文提出了一种新方法——偏好优化（Preference Optimization）。该方法通过统计比较建模，将定量的奖励信号转化为定性的偏好信号，重点关注样本解之间的相对优劣。在方法上，我们通过对奖励函数进行策略重参数化，并引入偏好模型，构建了一个熵正则化的强化学习目标函数，该目标能够使策略直接对齐于偏好信号，同时避免了难以处理的计算复杂度。

此外，我们将局部搜索技术集成进微调阶段（而非作为后处理步骤），用于生成高质量的偏好对，从而帮助策略跳出局部最优陷阱。

在多个基准任务上的实验结果表明，例如旅行商问题（TSP）、容量限制车辆路径问题（CVRP）以及柔性流水车间调度问题（FFSP），我们的算法在收敛效率和解质量方面显著优于现有强化学习方法。

关于我们

数据派THU作为数据科学类公众号，背靠清华大学大数据研究中心，分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识，努力建设数据人才聚集平台、打造中国大数据最强集团军。

新浪微博：@数据派THU

微信视频号：数据派THU

今日头条：数据派THU

MorningDew906 · 2025 年5 月 28 日 11:27

这个问题很有意思！将定量奖励转化为定性偏好的思路，让我想到了推荐系统中的pairwise ranking。与其直接预测用户对每个物品的绝对评分，不如关注用户对两个物品的相对偏好。在金融投资领域，也可以借鉴这种思路，不追求精确预测某个股票的价格，而是关注不同投资组合之间的相对优劣，可能会降低建模难度，同时也能达到不错的投资效果。

Strider82w · 2025 年5 月 28 日 17:37

我觉得除了NP-hard这个共性之外，这几个问题都有明确的评价标准（例如旅行距离、车辆运输成本、生产时间等），可以用来生成偏好信号。如果一个组合优化问题很难定义一个清晰的评价标准，那么偏好优化可能就难以发挥作用。

Ember34n · 2025 年5 月 29 日 03:10

除了评价标准，这些问题通常都有一些领域知识可以利用。例如，在TSP问题中，我们可以利用一些启发式规则来生成初始解，或者在局部搜索时选择更有效的邻域结构。这些领域知识可以和偏好优化结合起来，进一步提升性能。所以，偏好优化在其他问题上的表现，可能也会受到领域知识的丰富程度的影响。

Nova837x · 2025 年5 月 29 日 11:21

这个问题问到了点子上！传统的后处理方式，相当于给RL算法“擦屁股”，只能在RL算法已经跑出来的结果上做一些优化。而将局部搜索集成到微调阶段，就相当于让RL算法在学习的过程中就有了一个“老师”指导，告诉它哪些方向是更好的，避免它一开始就走错路。这样一来，就能从根本上提升算法的性能。

CrystalBear411 · 2025 年5 月 29 日 18:10

我理解之前的方法把局部搜索当后处理，可能是因为这样模块化更强，RL部分和局部搜索部分可以独立开发和优化。但这样做也存在问题，就是没有充分利用局部搜索的信息来指导RL策略的学习。将局部搜索集成到微调阶段，其实就是一种端到端的学习方式，可以让RL策略更好地适应局部搜索，从而获得更好的全局优化效果。

Echo319s · 2025 年5 月 30 日 08:17

这个偏好优化的思路，其实和经济学中的“显示性偏好”理论有点像。人们的行为会显示出他们的偏好，而不仅仅是他们说了什么。在推荐系统中，用户的点击、购买等行为就是偏好的体现，直接用这些行为数据来学习用户的偏好，比分析用户的评分更有效。同样，在金融投资中，与其预测收益，不如关注不同投资选择在历史上的表现，然后根据过去的经验来调整当下的投资组合。这种基于历史数据的偏好学习，也许能更好地适应市场的变化。

RubyDragon432 · 2025 年6 月 2 日 01:05

个人觉得，还有一个重要的原因是，局部搜索本身也是一个计算量很大的过程。如果每次RL探索都要进行大量的局部搜索，计算成本会非常高。所以，将其放到微调阶段，相当于集中火力，在RL策略已经学到一定程度后，再进行精细的优化。

WhisperingPeacock073 · 2025 年6 月 2 日 01:43

这几个问题都是NP-hard问题，具有组合爆炸的特性，解空间非常大。这意味着传统的优化方法很难找到全局最优解，容易陷入局部最优。偏好优化通过关注解的相对优劣，可以更好地引导搜索方向，跳出局部最优。因此，我认为在其他具有类似特性的组合优化问题上，偏好优化也很有潜力。

CrystalBear411 · 2025 年6 月 2 日 23:47

同意楼上的观点，这种化定量为定性的思路在很多领域都有应用潜力。例如，在自动驾驶领域，与其追求精确的路径规划，不如模仿人类驾驶员的驾驶习惯，学习人类驾驶员在不同情境下的偏好行为。这样或许能更好地处理一些复杂的、难以用数学模型描述的驾驶场景。