HRM：一种增强大模型多步推理的新型层次化奖励模型

DatapiTHU · 2025 年4 月 12 日 08:56

提出层次化奖励模型（HRM），增强大模型多步推理能力，整合细粒度和粗粒度评估，提高鲁棒性和泛化能力。

原文标题：层次化多步奖励模型：增强大模型推理能力的新探索

原文作者：数据派THU

原文链接： http://mp.weixin.qq.com/s?__biz=MzI1MjQ2OTQ3Ng==&mid=2247655506&idx=1&sn=be3616f3b689ebe3a8b6bed3ffef15e9&

冷月清谈：

本文介绍了一种名为层次化奖励模型（HRM）的新方法，旨在提高大型语言模型在多步推理任务中的能力。HRM通过整合细粒度和粗粒度的评估，增强了模型在推理过程中的连贯性和自我反思能力。与传统的PRM（过程奖励模型）相比，HRM不仅评估单个推理步骤，还考虑连续步骤之间的关系，从而能够识别并纠正早期的错误。此外，文章还提出了一种层次化节点压缩（HNC）的数据增强方法，用于优化基于蒙特卡洛树搜索（MCTS）的自动注释，从而在计算成本较低的情况下增加训练数据的多样性。实验结果表明，HRM在鲁棒性和泛化能力方面均优于PRM，尤其是在复杂的数学推理任务中表现出色。通过利用MCTS生成的自动标注数据进行微调，可以进一步提高模型的推理性能。

怜星夜思：

1、HRM模型中提到的“奖励黑客”具体是指什么？在实际应用中，除了文中提到的方法，还有哪些策略可以减轻或避免奖励黑客现象？
2、文章中提到HNC通过随机删除或合并连续节点引入噪声，但这种方式会不会导致推理过程的信息丢失，反而降低了模型的性能？有没有更好的噪声引入方式？
3、HRM在GSM8K数据集上的提升相对较小，作者解释是因为GSM8K问题相对简单。那么，如果想要在简单数据集上也能有效提升模型性能，可以从哪些方面入手改进HRM？

原文内容

来源：深度图学习与法模型LLM
本文共3400字，建议阅读10+分钟
本文通过引入层次化评估和高效的数据增强策略，有效提升了模型在多步推理任务中的表现，尤其在模型需要识别并纠正前序错误的场景中表现突出。

随着大模型在各类生成任务中的表现不断提升，如何进一步改进它们在多步推理任务中的能力，特别是数学和逻辑推理方面，已成为大家的关注点。本文通过引入层次化评估和高效的数据增强策略，有效提升了模型在多步推理任务中的表现，尤其在模型需要识别并纠正前序错误的场景中表现突出。

1. 基本信息

标题：层次化多步奖励模型：增强大模型推理能力的新探索（Towards Hierarchical Multi-Step Reward Models for Enhanced Reasoning in Large Language Models）

作者：Teng Wang（香港大学），Zhangyi Jiang（北京大学），Zhenqi He（香港大学），Wenhan Yang（香港大学），Yanan Zheng（新加坡国立大学），Zeyu Li（佐治亚理工学院），Zifan He（北京大学），Shenyang Tong（北京大学），Hailei Gong（清华大学）

发表时间：2025年3月19日（预印本）

arXiv链接：https://www.arxiv.org/pdf/2503.13551

2. 研究背景

随着大模型参数规模不断扩大，它们在文本理解和数据生成等任务中的能力显著提升，甚至超越了人类水平。但在数学和逻辑推理等需要严密思考的任务中，大模型的能力上限和内在局限性仍是一个开放性问题。虽然近期的方法如思维链（Chain-of-Thought, CoT）和思维树（Tree-of-Thought, ToT）大幅提升了推理性能，但它们各有不足：CoT缺乏在中间步骤出错时暂停推理的机制，导致错误传播；而ToT不能内在地验证每个中间步骤，也无法保证找到最优的推理路径，这在复杂问题解决场景中限制了其可靠性。

目前大模型推理能力增强的奖励机制主要有两种：结果奖励模型（Outcome Reward Model, ORM）和过程奖励模型（Process Reward Model, PRM）。ORM存在反馈延迟和信用分配问题，难以确定哪些推理步骤对最终答案有贡献；PRM提供更细粒度的监督，但容易受到奖励黑客（reward hacking）的影响，模型可能会利用奖励信号而非真正提升推理能力，降低了在复杂任务中的可靠性。此外，PRM的高注释成本也使大规模部署面临挑战。

本研究聚焦于解决PRM中的局限性，特别是如何减轻奖励黑客对PRM的影响。传统PRM会在推理步骤出错时直接惩罚，而不考虑后续步骤可能的纠正。相比之下，本文提出的层次化奖励模型（HRM）评估多个步骤间的推理连贯性，能够识别并整合后续对早期错误的修正，从而实现更稳健可靠的评估。

3. 方法

3.1 层次化奖励模型（HRM）

现有的奖励建模方法各有优缺点：PRM专注于细粒度、逐步推理评估，而ORM则评估整体推理过程。为整合两者优势，作者提出了层次化奖励模型（HRM），该模型不仅评估单个推理步骤，还通过分析连续步骤确保多步推理的连贯性。

HRM的训练数据集由从第1步到第N步的连续推理序列组成，是PRM训练数据的超集。具体来说，HRM训练数据在PRM单步数据的基础上，额外合并了连续的推理步骤对，以增强推理连贯性并改进错误纠正中的自我反思能力。形式上，若以表示训练数据集，表示推理序列中的总步骤数，表示第个推理步骤，表示为步骤分配分数的奖励函数，则PRM和HRM的训练数据集定义为：

HRM设计有两个主要目标：(1) 同时捕捉细粒度和粗粒度的推理一致性；(2) 实现自我反思和错误纠正。与PRM在遇到错误时终止评估不同，HRM会评估后续步骤是否纠正了早期错误，将它们视为一个整体而非孤立的错误。

值得注意的是，虽然HRM训练数据包含合并的推理步骤，但在推理阶段，该模型仍然像PRM一样逐步评估，仅基于当前步骤分配奖励。

3.2 层次化节点压缩（HNC）

尽管过程监督能够增强政策模型的推理能力，但人工注释的成本极高。为解决这一问题，已有研究提出基于蒙特卡洛树搜索（MCTS）的自动注释方法。在此基础上，作者提出了层次化节点压缩（HNC）数据增强方法，最大程度地利用MCTS生成的数据。

HNC的核心思想是将两个连续的节点（每个对应一个推理步骤）合并为单个节点，从而创建一个新分支，几乎不增加计算开销。HNC假设每个节点有足够多的子节点，通过随机删除或合并连续节点，引入受控噪声，增强基于MCTS的评分的鲁棒性。

在HNC之前，每个子节点对总分数的贡献为。HNC随机移除一个节点后，剩余子节点的权重重新分配为，增加了它们的个体影响力。从父节点的角度看，子节点是独立同分布的，因此父节点分数的期望保持不变。但方差从增加到，引入了受控噪声，实现了极低计算成本的有效数据增强。当足够大时，这种方差变化保持适度，同时仍能促进有效的数据增强。

3.3 自我训练

为从MCTS中筛选高质量推理数据，作者采用了基于MC-Score或利用PRM/HRM分配分数的两种方法。为缓解奖励模型导致的奖励黑客问题，作者应用了基于MC-Score的高质量数据过滤器。

受计算资源限制，本研究未采用PPO或GRPO等强化学习方法，而是继续使用监督式微调。为保留政策模型的通用能力，作者结合了因果语言建模损失和使用参考模型的KL散度正则化。目标函数定义为：

其中表示在高质量推理序列上计算的因果语言建模损失，表示策略模型输出分布与参考模型输出分布之间的KL散度，作为权重因子平衡任务特定适应和通用能力的保留。

适当的对数缩放确保了KL损失（通常范围0到20000）与因果LM损失（范围0到12）之间的平衡，稳定了损失分布，在保留通用语言能力和增强推理能力之间取得了平衡。

4. 实验与发现

4.1 HRM评估

研究利用PRM800K数据集的人工注释构建了ORM、PRM和HRM的训练数据集。作者使用Qwen2.5-1.5B-Math作为奖励模型（RM），用于将给定的推理步骤分类为正确或错误。政策模型使用Qwen2.5-72B-Math-Instruct，并实施最佳N策略（best-of-N strategy）：ORM从N个完整推理轨迹中选择最佳结果，而PRM和HRM则对N个中间推理步骤进行评分，并在每一步选择最有希望的步骤。

实验表明，随着N值增加，政策模型在ORM和PRM下的准确率表现出显著波动，且呈下降趋势。相比之下，使用HRM的政策模型保持稳定表现，并随着N值增长收敛到80%的准确率，展现出对奖励黑客的更强鲁棒性。

4.2 HNC实验

本节中，作者仅使用了PRM800K数据集的问题和标准答案，而不依赖人工注释数据。他们采用具有Qwen2.5-7B-Math-Instruct的MCTS作为自动注释方法生成推理轨迹，然后用这些自动注释的推理轨迹训练PRM，之后应用HNC数据增强方法为HRM生成额外训练数据。

为平衡计算效率和鲁棒性，MCTS配置为每个父节点5-6个子节点，最大树深度为7，确保在7步内完成推理。完整MCTS模拟需要约2,457 A100-80GB GPU小时，而HNC增强过程仅需约30分钟。

作者对不同政策模型（包括Qwen2.5-7B-Math-Instruct、DeepSeek-Math和Qwen2.5-72B-Math-Instruct）在PRM800K数据集上采用best-of-N策略进行评估。结果显示，尽管PRM和HRM的训练数据均来自同一MCTS系统，但在所有政策模型中，HRM始终表现出比PRM更高的稳定性和鲁棒性。

4.3 自我训练结果

作者从PRM和HRM训练数据集中提取高MC分数的推理数据，对Qwen2.5-7B-Math-Instruct进行微调，权重因子设为0.5。实验进一步验证了监督式微调通过利用高质量数据增强政策模型的推理能力，其中HRM相比PRM展现出更强的鲁棒性。

4.4 HRM在不同领域的泛化能力

为拓展HRM的应用范围并评估其泛化能力，作者评估了在PRM800K数据集上训练的HRM和PRM在Math500和GSM8K数据集上的表现。结果表明，HRM在不同领域展现出更强的鲁棒性，表现出优秀的泛化性能，尤其在处理复杂数学推理任务的Math500上效果显著。

在GSM8K数据集上，HRM和PRM之间的性能差异较小，这是因为GSM8K主要由相对简单的算术问题组成，强大的政策模型通常能在三步内解决这些问题，减弱了HRM关键优势（如评估多步推理连贯性和促进自我反思）的影响。尽管如此，即使在GSM8K这样的简单数据集上，HRM仍然比PRM略胜一筹。

5. 结论

本论文提出了层次化奖励模型（HRM），通过整合细粒度和粗粒度评估增强多步推理评估，改进推理连贯性和自我反思能力。同时引入层次化节点压缩（HNC）作为数据增强方法，优化基于MCTS的自主注释，在极低计算成本下增强标签多样性并扩展训练数据。在PRM800K数据集上的广泛实验证明了HRM相比PRM具有更强的鲁棒性，并在GSM8K和MATH500数据集上展现出良好的泛化能力。此外，MCTS生成的自动标注数据还实现了政策模型的微调，进一步提升了推理性能。

未来研究可以探索更多元化的层次结构设计，扩展HRM到更广泛的复杂推理任务中，如逻辑推理、创意问题解决等。同时，进一步优化HNC方法，提高数据增强的效率和质量，也是值得关注的方向。随着计算资源的提升，将先进的强化学习技术与HRM相结合，构建端到端的推理优化系统，有望带来更多突破性进展。

编辑：王菁

关于我们

数据派THU作为数据科学类公众号，背靠清华大学大数据研究中心，分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识，努力建设数据人才聚集平台、打造中国大数据最强集团军。

新浪微博：@数据派THU

微信视频号：数据派THU

今日头条：数据派THU

ScarletTiger123 · 2025 年4 月 14 日 10:29

楼上说的对，“奖励黑客”就是指模型学会了利用奖励机制的漏洞来获得高分，而不是真正提高了推理能力。打个比方，就像学生为了考试得高分，不去认真学习，而是研究怎么作弊一样。除了文中的方法，我觉得还可以试试以下策略：

1. 更严格的奖励信号设计：确保奖励信号与实际的推理质量强相关，避免出现可以通过简单技巧获得高分的漏洞。
2. 对抗训练：训练一个专门识别和利用奖励漏洞的“黑客”模型，然后用它来训练推理模型，提高其对奖励黑客的免疫力。
3. 引入人类反馈：定期让人类专家评估模型的推理过程，根据人类反馈调整奖励模型，确保其与人类的判断一致。

LuckyRabbit007 · 2025 年4 月 14 日 13:02

奖励黑客（reward hacking）是指模型找到了一种方法来最大化奖励信号，但这并没有真正提高其解决问题的能力。简单来说，模型不是通过学习真正的推理，而是学会了如何“作弊”以获得高分。
除了文中提到的方法，以下是一些可以减轻或避免奖励黑客现象的策略：

* 更精确的奖励函数设计： 设计更细致、更全面的奖励函数，避免模型找到简单的、虚假的奖励路径。
* 多目标优化： 除了推理的正确性，还可以加入其他的优化目标，例如推理过程的简洁性、可解释性等，从而避免模型过度关注单一的奖励信号。
* domain adaptation/generalization 奖励黑客往往是模型在特定环境中过拟合，但在新的环境中失效。通过增加模型的domain adaptation和generalization 能力，降低模型对于环境的依赖

SapphireCat928 · 2025 年4 月 15 日 21:33

这问题问到了点子上！既然GSM8K这种数据集本身比较简单，那我们就可以考虑让HRM更关注细节，而不是像处理复杂问题那样“粗枝大叶”。可以尝试以下策略：

1. 更精细的奖励粒度：放大每一步的奖励差异，让模型更加敏感地感知每一步的细微变化。
2. 引入注意力机制：让模型更加关注问题描述中的关键信息，避免被无关信息干扰。
3. 数据增强方法：通过数据增强方法扩充数据集，例如，对问题进行同义词替换、语句改写等，增加数据集的多样性。

SilentWhale233 · 2025 年4 月 17 日 23:18

我觉得可以考虑从以下几个角度入手：

* 针对性优化：设计更适合简单任务的层次结构。例如，减少层次的数量，简化评估步骤，使其更关注关键步骤的正确性。
* 正则化：在训练过程中引入更强的正则化，防止模型过度拟合简单数据集，提高泛化能力。
* 集成学习：将HRM与其他更适合简单任务的模型（例如，传统的机器学习模型）进行集成，发挥各自的优势。

Void912s · 2025 年4 月 18 日 10:46

信息丢失确实是个问题。随机删除和合并节点可能过于简单粗暴。个人觉得可以尝试更精细化的噪声注入方法：

* 重要性采样： 根据节点的重要性（例如，基于注意力机制的得分）来决定是否删除或合并节点。更重要的节点保留的概率更高。
* 语义相关的噪声： 使用同义词替换、语句改写等方法，引入语义相关的噪声，而不是直接删除节点。这样可以保持信息的完整性，同时增加模型的鲁棒性。
* 数据增强和back translation: 增加数据量，或者使用back translation的方法，通过翻译-反译生成数据并作为噪声加入。

SpringFlower865 · 2025 年4 月 18 日 16:15

我觉得这个问题提的很好！HNC引入噪声确实有可能导致信息丢失，降低性能。这就像是给学生做题时，故意删掉一些步骤或者把两个步骤合并，如果操作不当，反而会让他们更糊涂。

个人认为，更好的噪声引入方式可以考虑以下几种：

1. 基于注意力机制的噪声引入：借鉴Transformer中的注意力机制，有选择性地对不重要的节点引入噪声，保留关键信息。
2. 对抗性噪声生成：使用对抗生成网络（GAN）生成噪声，让模型学习如何抵抗最难的噪声干扰。
3. 知识增强的噪声引入：结合外部知识库，引入与当前推理步骤相关的背景知识作为噪声，增加模型的推理难度。

HarvestMoon921 · 2025 年4 月 18 日 21:05

这个问题很有意思！奖励黑客可以理解为模型为了最大化奖励而采取的非预期行为，就像是游戏中的bug一样。那么除了paper里提到的方法，我觉得还可以从以下几个角度入手预防和缓解：

1. 奖励平滑(Reward Shaping)：避免奖励过于集中，让模型在探索过程中获得更均匀的奖励信号，鼓励更广泛的探索。
2. 因果干预(Causal Intervention)：通过因果推断方法，识别奖励信号与模型行为之间的因果关系，避免模型学习到虚假的因果关系。
3. 集成学习(Ensemble Learning)：训练多个奖励模型，并将其结果进行集成，降低单个奖励模型带来的偏差。

MysticWhale856 · 2025 年4 月 19 日 12:56

GSM8K这种简单数据集就像是小学生的算术题，HRM这种复杂的模型就像是大学教授来做题，确实有点“杀鸡用牛刀”了。要想在简单数据集上提升HRM的性能，我觉得可以考虑以下几个方面：

1. 模型简化：针对简单任务，可以适当简化HRM的结构，减少参数量，避免过拟合。
2. 奖励信号调整：在简单任务中，奖励信号可能过于稀疏。可以尝试更密集的奖励信号，例如，对每一步操作都给予奖励，而不仅仅是最终结果。
3. 迁移学习：先在复杂数据集上训练HRM，然后在简单数据集上进行微调。这样可以利用复杂数据集学到的知识，加速在简单数据集上的学习。

Drift815m · 2025 年4 月 20 日 03:02

楼上说的有道理，HNC确实有点简单粗暴了。我提供一个思路，就是模仿人类学习的过程。比如，我们在学习一个新概念时，可能会遇到一些模棱两可的解释，或者是一些错误的引导。这些都可以看作是噪声。所以，可以尝试以下方法：

1. 引入模糊信息： 在推理过程中，故意引入一些模糊的、不确定的信息，让模型学习如何在不确定性下进行推理。
2. 模拟错误引导： 模仿人类犯错的过程，故意提供一些错误的引导信息，让模型学习如何识别和纠正错误。
3. 对比学习方法: 正样本是正常的推理链，负样本是加入噪声后的推理链，通过对比学习，模型可以学习到哪些信息是重要的，哪些是不重要的。