DPSDP：多智能体反思强化大语言模型推理，提升复杂问题解决能力

DatapiTHU · 2025 年6 月 17 日 16:09

研究人员提出了DPSDP算法，利用多智能体反思强化学习提升大语言模型推理能力，实验证明其在多个基准测试中有效。

原文标题：【ICML2025】通过多智能体反思强化大语言模型推理

原文作者：数据派THU

原文链接： http://mp.weixin.qq.com/s?__biz=MzI1MjQ2OTQ3Ng==&mid=2247657951&idx=3&sn=eea0aeaeb2a726c8aac5060eaba4c3ff&

冷月清谈：

本文介绍了DPSDP（通过动态规划的直接策略搜索）算法，该算法通过将多回合推理过程建模为马尔可夫决策过程，并利用强化学习训练一个演员-评论员大语言模型系统，从而迭代改进答案。DPSDP通过在自生成数据上进行直接偏好学习，克服了传统方法中反馈空间受限和缺乏协调训练的问题。实验结果表明，DPSDP在多个基准测试中显著提升了大语言模型的推理性能，尤其是在内外分布的任务上。该研究还证实了多智能体协作在提高外部分布泛化能力方面的优势。

怜星夜思：

1、DPSDP算法中，将多回合的改进过程建模为马尔可夫决策过程(MDP)是出于什么考虑？相比于直接进行多轮对话有什么优势？
2、文章提到DPSDP通过直接偏好学习改进答案，那么“偏好”是如何定义的？这个偏好是人工标注的吗？
3、文章中提到在MATH 500基准测试中，使用基于Ministral的模型将首次准确率从58.2%提高到63.2%。这个提升幅度在实际应用中有多大意义？

原文内容

来源：专知

        本文约1000字，建议阅读5分钟

        通过实证研究，我们使用不同的基础模型实例化DPSDP，并展示了在内外分布基准测试中的改进。

利用更多的测试时计算增强大语言模型推理能力

已证明，利用更多的测试时计算是一种有效的方法，可以提升大语言模型（LLMs）的推理能力。在多种方法中，验证与改进（verify-and-improve）范式尤为突出，因为它使得模型能够进行动态的解决方案探索并整合反馈。然而，现有的方法通常面临反馈空间受限和缺乏不同方协调训练的问题，导致性能不尽如人意。为了应对这一挑战，我们将这一多回合的改进过程建模为一个马尔可夫决策过程（MDP），并引入了DPSDP（通过动态规划的直接策略搜索），一种强化学习算法，它训练一个演员-评论员（actor-critic）大语言模型系统，通过在自生成数据上进行直接偏好学习，迭代地改进答案。

从理论上讲，DPSDP能够在训练分布内匹配任何策略的性能。通过实证研究，我们使用不同的基础模型实例化DPSDP，并展示了在内外分布基准测试中的改进。例如，在MATH 500基准测试中，通过五轮改进步骤进行多数投票，使用基于Ministral的模型将首次准确率从58.2%提高到63.2%。一项消融研究进一步确认了多智能体协作和外部分布泛化的优势。

主要贡献

方法创新：提出了DPSDP算法，将多回合的推理过程建模为马尔可夫决策过程，并通过直接偏好学习进行答案改进。
性能提升：在多个基准测试中，DPSDP方法显著提升了大语言模型的推理性能，尤其是在内外分布的任务上。
多智能体协作：通过多智能体协作，进一步验证了该方法在面对复杂推理任务时的优势，尤其是在提高外部分布的泛化能力上。

关于我们

数据派THU作为数据科学类公众号，背靠清华大学大数据研究中心，分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识，努力建设数据人才聚集平台、打造中国大数据最强集团军。

新浪微博：@数据派THU

微信视频号：数据派THU

今日头条：数据派THU

Strider82w · 2025 年6 月 18 日 00:39

我认为这里的“偏好”很可能不是简单的绝对正确或错误，而是倾向于“更有希望”的答案。在多轮改进的过程中，即使当前的答案还不完美，但如果模型认为它更有潜力被改进为正确答案，就会给予更高的偏好。这种偏好可能来源于模型自身的判断，也可能来源于某种外部信号的引导。

EmeraldDog210 · 2025 年6 月 18 日 17:00

偏好的定义是关键。一般来说，偏好可以通过多种方式获得，例如人工标注、专家知识或者自动生成的数据。人工标注成本较高，但质量相对较好。专家知识可以提供更专业的指导，但可能存在偏差。自动生成的数据则更灵活，但需要仔细设计生成策略，防止引入噪声。具体到这篇文章，需要查阅原文才能确定偏好的来源和定义方式。

我猜测可能使用了某种奖励模型来评估答案的质量，然后将奖励作为偏好的度量。

Shadow53r · 2025 年6 月 20 日 05:04

建模成MDP主要考虑的是将每一步的改进都看作一个状态转移，这样可以更精确地评估每一步行动的价值，从而引导模型朝着更好的方向优化。直接多轮对话可能缺乏这种细粒度的控制和评估机制。

优势在于：

* 可控性更强：MDP允许我们定义明确的奖励函数，引导模型学习期望的行为。
* 优化目标明确：通过求解MDP，我们可以找到最优的策略，即在每一步都采取最佳行动。
* 理论基础扎实：MDP是强化学习中的经典模型，有完善的理论体系支持。

StormyRaven098 · 2025 年6 月 20 日 18:43

我认为这个提升幅度是具有统计意义的，并且证明了DPSDP算法的有效性。在学术研究方面，这是一个积极的结果，值得进一步探索。但在实际应用中，还需要考虑模型的计算成本和部署难度。如果为了提升5%的准确率，需要付出过高的代价，那么可能并不划算。

FrostyPenguin271 · 2025 年6 月 20 日 22:22

从算法设计的角度来看，MDP提供了一种结构化的方式来处理序列决策问题。在LLM推理中，每一步的改进都可以看作是一个决策，而最终的答案质量则可以作为奖励信号。通过MDP，我们可以利用强化学习算法来学习一个策略，该策略能够最大化期望奖励，即找到最优的改进路径。个人认为，直接多轮对话很难进行有效的策略学习，因为缺乏明确的状态和奖励定义。

HarvestMoon921 · 2025 年6 月 23 日 03:24

我觉得这个提升幅度要看怎么理解。如果原来的模型已经能解决大部分简单问题，那么这5%的提升可能只体现在解决了更难的问题上。但如果原来的模型经常犯低级错误，那么这5%的提升可能就意味着模型变得更可靠了。总之，要结合具体应用场景来分析。

CloudySky415 · 2025 年6 月 23 日 09:05

我猜这个“偏好”应该是让模型自己打分，比如让模型判断哪个答案更“正确”，或者更符合某种标准。然后用这个分数来调整模型的参数，让它以后更倾向于生成“好答案”。不知道是不是有点像“良心发现”机制hhh。

NobleStag037 · 2025 年6 月 23 日 12:58

5%的提升，乍一看不多，但考虑到MATH 500是出了名的难题，本身基线准确率就不高，能提升5%已经相当可观了。在一些高风险领域，例如医疗诊断或者金融风控，哪怕提高1%的准确率，也能避免很多错误决策，产生巨大的价值。

另外，这个结果也说明DPSDP还有很大的潜力，未来可能在其他任务上取得更大的突破。

LuckyRabbit007 · 2025 年6 月 23 日 16:45

我觉得建模成MDP，关键在于引入了“状态”的概念，让模型能记住之前的推理过程，而不是像无头苍蝇一样瞎撞。多轮对话可能就变成每个回合都是全新的开始，之前的努力都白费了。MDP这种方式，有点像玩RPG游戏，每一步都影响后续的发展，最终目标是通关（解决问题）。