ICML2025:偏好优化——提升组合优化问题求解的新思路

ICML2025论文亮点:提出“偏好优化”方法,将强化学习应用于组合优化问题,通过关注解的相对优劣,显著提升求解效率和质量,在TSP、CVRP和FFSP等问题上表现突出。

原文标题:【ICML2025】组合优化问题中的偏好优化

原文作者:数据派THU

冷月清谈:

本文介绍了一种名为“偏好优化”的全新方法,旨在解决神经组合优化中强化学习方法面临的挑战,如奖励信号减弱和探索效率低下等问题。该方法通过将定量奖励转化为定性偏好,关注解之间的相对优劣,并结合策略重参数化和偏好模型构建熵正则化的强化学习目标函数,使策略直接对齐于偏好信号。此外,该方法还将局部搜索技术集成到微调阶段,以生成高质量的偏好对,从而帮助策略摆脱局部最优。实验结果表明,在旅行商问题(TSP)、容量限制车辆路径问题(CVRP)和柔性流水车间调度问题(FFSP)等多个基准测试中,该算法在收敛效率和解质量方面均优于现有强化学习方法。

怜星夜思:

1、偏好优化方法中,将定量奖励转化为定性偏好,并通过关注解之间的相对优劣来提升性能,这个思路在其他领域是否有借鉴意义?例如,在推荐系统或者金融投资领域?
2、文章提到将局部搜索技术集成到微调阶段,而非作为后处理步骤,这样做的好处是什么?为什么之前的强化学习方法通常将局部搜索作为后处理?
3、文章在TSP、CVRP和FFSP等问题上验证了算法的有效性,这些问题有什么共性?偏好优化方法在解决其他类型的组合优化问题时,是否也能取得类似的性能提升?

原文内容

来源:专知
本文约1000字,建议阅读5分钟
本文提出了一种新方法——偏好优化(Preference Optimization)。

强化学习(Reinforcement Learning, RL)成为神经组合中的一项强大工具,使模型能够专家知识前提学习解决复杂问题启发策略。尽管已有显著进展,现有RL方法面临挑战,例如庞大组合动作空间奖励信号逐渐减弱、探索效率低下问题,导致整体性能受限。

为此,本文提出一种方法——偏好化(Preference Optimization)方法通过统计比较模,定量奖励信号转化定性的偏好信号,重点关注样本之间相对劣。方法上,我们通过奖励函数进行策略参数化,引入偏好模型,一个正则强化学习目标函数目标能够使策略直接偏好信号,同时避免难以处理计算复杂度。

此外,我们局部搜索技术集成微调阶段(作为处理步骤),用于生成质量偏好对,从而帮助策略跳出局部最优陷阱。

多个基准任务实验结果表明,例如旅行问题(TSP)、容量限制车辆路径问题(CVRP)以及柔性流水车间调度问题FFSP),我们算法效率和解质量方面显著优于现有强化学习方法。



关于我们

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。




新浪微博:@数据派THU

微信视频号:数据派THU

今日头条:数据派THU


这个问题很有意思!将定量奖励转化为定性偏好的思路,让我想到了推荐系统中的pairwise ranking。与其直接预测用户对每个物品的绝对评分,不如关注用户对两个物品的相对偏好。在金融投资领域,也可以借鉴这种思路,不追求精确预测某个股票的价格,而是关注不同投资组合之间的相对优劣,可能会降低建模难度,同时也能达到不错的投资效果。

我觉得除了NP-hard这个共性之外,这几个问题都有明确的评价标准(例如旅行距离、车辆运输成本、生产时间等),可以用来生成偏好信号。如果一个组合优化问题很难定义一个清晰的评价标准,那么偏好优化可能就难以发挥作用。

除了评价标准,这些问题通常都有一些领域知识可以利用。例如,在TSP问题中,我们可以利用一些启发式规则来生成初始解,或者在局部搜索时选择更有效的邻域结构。这些领域知识可以和偏好优化结合起来,进一步提升性能。所以,偏好优化在其他问题上的表现,可能也会受到领域知识的丰富程度的影响。

这个问题问到了点子上!传统的后处理方式,相当于给RL算法“擦屁股”,只能在RL算法已经跑出来的结果上做一些优化。而将局部搜索集成到微调阶段,就相当于让RL算法在学习的过程中就有了一个“老师”指导,告诉它哪些方向是更好的,避免它一开始就走错路。这样一来,就能从根本上提升算法的性能。

我理解之前的方法把局部搜索当后处理,可能是因为这样模块化更强,RL部分和局部搜索部分可以独立开发和优化。但这样做也存在问题,就是没有充分利用局部搜索的信息来指导RL策略的学习。将局部搜索集成到微调阶段,其实就是一种端到端的学习方式,可以让RL策略更好地适应局部搜索,从而获得更好的全局优化效果。

这个偏好优化的思路,其实和经济学中的“显示性偏好”理论有点像。人们的行为会显示出他们的偏好,而不仅仅是他们说了什么。在推荐系统中,用户的点击、购买等行为就是偏好的体现,直接用这些行为数据来学习用户的偏好,比分析用户的评分更有效。同样,在金融投资中,与其预测收益,不如关注不同投资选择在历史上的表现,然后根据过去的经验来调整当下的投资组合。这种基于历史数据的偏好学习,也许能更好地适应市场的变化。

个人觉得,还有一个重要的原因是,局部搜索本身也是一个计算量很大的过程。如果每次RL探索都要进行大量的局部搜索,计算成本会非常高。所以,将其放到微调阶段,相当于集中火力,在RL策略已经学到一定程度后,再进行精细的优化。

这几个问题都是NP-hard问题,具有组合爆炸的特性,解空间非常大。这意味着传统的优化方法很难找到全局最优解,容易陷入局部最优。偏好优化通过关注解的相对优劣,可以更好地引导搜索方向,跳出局部最优。因此,我认为在其他具有类似特性的组合优化问题上,偏好优化也很有潜力。

同意楼上的观点,这种化定量为定性的思路在很多领域都有应用潜力。例如,在自动驾驶领域,与其追求精确的路径规划,不如模仿人类驾驶员的驾驶习惯,学习人类驾驶员在不同情境下的偏好行为。这样或许能更好地处理一些复杂的、难以用数学模型描述的驾驶场景。