DPSDP:多智能体反思强化大语言模型推理,提升复杂问题解决能力

研究人员提出了DPSDP算法,利用多智能体反思强化学习提升大语言模型推理能力,实验证明其在多个基准测试中有效。

原文标题:【ICML2025】通过多智能体反思强化大语言模型推理

原文作者:数据派THU

冷月清谈:

本文介绍了DPSDP(通过动态规划的直接策略搜索)算法,该算法通过将多回合推理过程建模为马尔可夫决策过程,并利用强化学习训练一个演员-评论员大语言模型系统,从而迭代改进答案。DPSDP通过在自生成数据上进行直接偏好学习,克服了传统方法中反馈空间受限和缺乏协调训练的问题。实验结果表明,DPSDP在多个基准测试中显著提升了大语言模型的推理性能,尤其是在内外分布的任务上。该研究还证实了多智能体协作在提高外部分布泛化能力方面的优势。

怜星夜思:

1、DPSDP算法中,将多回合的改进过程建模为马尔可夫决策过程(MDP)是出于什么考虑?相比于直接进行多轮对话有什么优势?
2、文章提到DPSDP通过直接偏好学习改进答案,那么“偏好”是如何定义的?这个偏好是人工标注的吗?
3、文章中提到在MATH 500基准测试中,使用基于Ministral的模型将首次准确率从58.2%提高到63.2%。这个提升幅度在实际应用中有多大意义?

原文内容

来源:专知
本文约1000字,建议阅读5分钟
通过实证研究,我们使用不同的基础模型实例化DPSDP,并展示了在内外分布基准测试中的改进。


利用更多的测试时计算增强大语言模型推理能力

已证明,利用更多的测试时计算是一种有效的方法,可以提升大语言模型(LLMs)的推理能力。在多种方法中,验证与改进(verify-and-improve)范式尤为突出,因为它使得模型能够进行动态的解决方案探索并整合反馈。然而,现有的方法通常面临反馈空间受限和缺乏不同方协调训练的问题,导致性能不尽如人意。为了应对这一挑战,我们将这一多回合的改进过程建模为一个马尔可夫决策过程(MDP),并引入了DPSDP(通过动态规划的直接策略搜索),一种强化学习算法,它训练一个演员-评论员(actor-critic)大语言模型系统,通过在自生成数据上进行直接偏好学习,迭代地改进答案。

从理论上讲,DPSDP能够在训练分布内匹配任何策略的性能。通过实证研究,我们使用不同的基础模型实例化DPSDP,并展示了在内外分布基准测试中的改进。例如,在MATH 500基准测试中,通过五轮改进步骤进行多数投票,使用基于Ministral的模型将首次准确率从58.2%提高到63.2%。一项消融研究进一步确认了多智能体协作和外部分布泛化的优势。

主要贡献
  1. 方法创新:提出了DPSDP算法,将多回合的推理过程建模为马尔可夫决策过程,并通过直接偏好学习进行答案改进。

  2. 性能提升:在多个基准测试中,DPSDP方法显著提升了大语言模型的推理性能,尤其是在内外分布的任务上。

  3. 多智能体协作:通过多智能体协作,进一步验证了该方法在面对复杂推理任务时的优势,尤其是在提高外部分布的泛化能力上。




关于我们

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。




新浪微博:@数据派THU

微信视频号:数据派THU

今日头条:数据派THU


我认为这里的“偏好”很可能不是简单的绝对正确或错误,而是倾向于“更有希望”的答案。在多轮改进的过程中,即使当前的答案还不完美,但如果模型认为它更有潜力被改进为正确答案,就会给予更高的偏好。这种偏好可能来源于模型自身的判断,也可能来源于某种外部信号的引导。

偏好的定义是关键。一般来说,偏好可以通过多种方式获得,例如人工标注、专家知识或者自动生成的数据。人工标注成本较高,但质量相对较好。专家知识可以提供更专业的指导,但可能存在偏差。自动生成的数据则更灵活,但需要仔细设计生成策略,防止引入噪声。具体到这篇文章,需要查阅原文才能确定偏好的来源和定义方式。

我猜测可能使用了某种奖励模型来评估答案的质量,然后将奖励作为偏好的度量。

建模成MDP主要考虑的是将每一步的改进都看作一个状态转移,这样可以更精确地评估每一步行动的价值,从而引导模型朝着更好的方向优化。直接多轮对话可能缺乏这种细粒度的控制和评估机制。

优势在于:

* 可控性更强:MDP允许我们定义明确的奖励函数,引导模型学习期望的行为。
* 优化目标明确:通过求解MDP,我们可以找到最优的策略,即在每一步都采取最佳行动。
* 理论基础扎实:MDP是强化学习中的经典模型,有完善的理论体系支持。

我认为这个提升幅度是具有统计意义的,并且证明了DPSDP算法的有效性。在学术研究方面,这是一个积极的结果,值得进一步探索。但在实际应用中,还需要考虑模型的计算成本和部署难度。如果为了提升5%的准确率,需要付出过高的代价,那么可能并不划算。

从算法设计的角度来看,MDP提供了一种结构化的方式来处理序列决策问题。在LLM推理中,每一步的改进都可以看作是一个决策,而最终的答案质量则可以作为奖励信号。通过MDP,我们可以利用强化学习算法来学习一个策略,该策略能够最大化期望奖励,即找到最优的改进路径。个人认为,直接多轮对话很难进行有效的策略学习,因为缺乏明确的状态和奖励定义。

我觉得这个提升幅度要看怎么理解。如果原来的模型已经能解决大部分简单问题,那么这5%的提升可能只体现在解决了更难的问题上。但如果原来的模型经常犯低级错误,那么这5%的提升可能就意味着模型变得更可靠了。总之,要结合具体应用场景来分析。

我猜这个“偏好”应该是让模型自己打分,比如让模型判断哪个答案更“正确”,或者更符合某种标准。然后用这个分数来调整模型的参数,让它以后更倾向于生成“好答案”。不知道是不是有点像“良心发现”机制hhh。

5%的提升,乍一看不多,但考虑到MATH 500是出了名的难题,本身基线准确率就不高,能提升5%已经相当可观了。在一些高风险领域,例如医疗诊断或者金融风控,哪怕提高1%的准确率,也能避免很多错误决策,产生巨大的价值。

另外,这个结果也说明DPSDP还有很大的潜力,未来可能在其他任务上取得更大的突破。

我觉得建模成MDP,关键在于引入了“状态”的概念,让模型能记住之前的推理过程,而不是像无头苍蝇一样瞎撞。多轮对话可能就变成每个回合都是全新的开始,之前的努力都白费了。MDP这种方式,有点像玩RPG游戏,每一步都影响后续的发展,最终目标是通关(解决问题)。