ACL 2025 新研究揭示过程级奖励模型(PRMs)的「信任危机」:推出PRMBench深入评估其局限性

ACL 2025研究揭示过程级奖励模型(PRMs)在LLM推理细粒度错误检测上陷信任危机。PRMBench基准旨在推动更可靠AI系统发展。

原文标题:ACL 2025|驱动LLM强大的过程级奖励模型(PRMs)正遭遇「信任危机」?

原文作者:机器之心

冷月清谈:

大型语言模型(LLMs)的强大推理能力在很大程度上依赖过程级奖励模型(PRMs)。然而,最近一项研究揭示,现有PRMs在识别推理过程中细微错误方面表现不佳,甚至可能不如随机猜测,从而引发了“信任危机”。传统的评估方法过于关注最终结果,却忽视了推理步骤中复杂的错误类型,如冗余、部分正确或完全错误。

为解决这一评估空缺,复旦大学等机构联合提出了PRMBench,这是一个专为评估PRMs精细化错误检测能力而设计的、极具挑战性的基准。PRMBench的独特之处在于其史无前例的海量与精细化标注(6216个问题,83456个步骤级标签)以及创新性的多维度评估体系,涵盖简洁性、合理性和敏感性三大核心维度及九个子类别。这项研究通过对25个代表性模型(包括开源PRMs和提示为Critic的LLMs)进行广泛实验,首次系统性地揭示了当前PRMs在细粒度错误检测上的深层缺陷。

主要发现包括:即使是最佳模型,其PRMScore也仅略高于随机猜测;开源PRMs普遍落后;“简洁性”维度(识别冗余步骤)成为最大挑战;模型存在显著的“阳性偏好”(善于识别正确步骤,难识别错误步骤);错误位置对性能有影响(错误越靠后越易发现);以及PRMs易受“假阳性”影响,存在“奖励黑客”风险

PRMBench的发布旨在推动PRM评估研究的范式转变,为未来PRM的设计、训练和优化提供关键指导,最终助力构建更可靠、更接近人类推理水平的人工智能系统。

怜星夜思:

1、文章提到现有PRMs在识别“简洁性”(比如冗余步骤)和“假阳性”方面表现不佳,甚至有“阳性偏好”。从技术角度来看,你觉得未来PRM的训练或者架构上,可以有哪些创新的方向来解决这些特定的“盲区”呢?
2、PRM评估能力不足,甚至有“信任危机”,这除了文章提到的可能导致“奖励黑客”攻击,对我们普通用户来说,使用基于LLM的应用时,还可能带来哪些不明显的潜在风险或挑战呢?
3、PRMBench的发布旨在“推动PRM评估研究的范式转变”,并“助力构建更可靠的AI系统”。你认为在未来,除了技术层面的突破,我们还需要在哪些非技术层面(如伦理、法规、教育、社会认知等)做出哪些努力,才能真正建立起一个对PRMs乃至整个AI系统的“信任”基石?

原文内容


近年来,大型语言模型(LLMs)在复杂推理任务中展现出惊人的能力,这在很大程度上得益于过程级奖励模型(PRMs)的赋能。PRMs 作为 LLMs 进行多步推理和决策的关键「幕后功臣」,负责评估推理过程的每一步,以引导模型的学习方向。


然而,它们真的足够可靠吗?一项最新研究——已荣幸被 ACL 2025 Main 接收——揭示了现有 PRMs 在识别推理过程中细微错误方面的显著不足,其表现甚至可能不如随机猜测,敲响了「信任危机」的警钟!



  • 标题:PRMBench: A Fine-grained and Challenging Benchmark for Process-Level Reward Models

  • 论文链接 https://arxiv.org/abs/2501.03124

  • 项目主页 https://prmbench.github.io/

  • 讲解视频 https://www.bilibili.com/video/BV1kgu8z8E6D

  • 单位:复旦大学、苏州大学、上海人工智能实验室、石溪大学、香港中文大学


PRM 真的过时了吗?基于规则奖励的强化学习不断暴露假阳性及推理过程幻觉严重等问题,因此我们需要针对过程的有效监督,而如何评测过程监督的质量就是一个值得探索的问题,目前主流的评估方法往往过度关注最终结果的正确性,而忽视了对推理过程中细致入微的错误类型的识别。


例如,一个推理步骤可能存在冗余、部分正确、甚至完全错误等多种状态,简单的「正确/错误」标签远不足以捕捉其内在的复杂性与细微差别。这种评估粒度的缺失,使得我们难以真正理解 PRMs 的局限性,也阻碍了其能力的进一步提升。


为填补这一空白,复旦大学、苏州大学、上海人工智能实验室、石溪大学、香港中文大学等机构联合提出了 PRMBench,一个专为评估 PRMs 精细化错误检测能力而设计、且极具挑战性的基准。这项被 ACL 2025 接收的突破性研究,不仅深入剖析了现有 PRMs 的「软肋」,更首次系统性地揭示了它们在复杂推理评估中的深层缺陷,为未来研究指明了清晰的方向。


图 1 PRMBench 的主要结构,左侧展示了数据整理的流程;右侧展示了评估主题的示例以及测试模型的相对性能表现。


PRMBench:一次针对 PRMs 的「全方位体检」


PRMBench 并非简单的数据集扩充,而是一套经过精心构建的「全方位体检方案」,旨在系统性、多维度地考察 PRMs 的各项核心能力。


PRMBench 的独特优势


  • 史无前例的海量与精细化标注PRMBench 包含 6216 个精心设计的问题,并拥有高达 83456 个步骤级别的细粒度标签。这确保了评估的深度和广度,能够全面覆盖 PRMs 可能遇到的各种复杂推理场景。


  • 创新性的多维度评估体系PRMBench 从简洁性(Simplicity)、合理性(Soundness)敏感性(Sensitivity)三大核心维度出发,进一步细分为九个子类别:「非冗余性」(Non-Redundancy)、「非循环逻辑」(Non-Circular Logic)、「评价合理性」(Empirical Soundness)、「步骤一致性」(Step Consistency)、「领域一致性」(Domain Consistency)、「置信度不变性」(Confidence Invariance)、「前提条件敏感性」(Prerequisite Sensitivity)、「欺骗抵抗」(Deception Resistance)和「一题多解一致性」(Multi-Solution Consistency)。这一全面而细致的评估框架,力求捕捉 PRMs 在各种潜在错误类型上的表现。


  • 首次系统性揭示现有 PRMs 的深层缺陷研究团队对包括开源 PRMs 和将主流 LLMs 提示为 Critic 模型的 25 个代表性模型进行了广泛而深入的实验。实验结果令人震惊且引人深思,首次系统性地揭示了当前 PRMs 在细粒度错误检测上的显著弱点。


本文的主要发现


  • 整体表现远低于预期即使是表现最佳的模型 Gemini-2-Thinking,其 PRMScore 也仅为 68.8,远低于人类水平的 83.8,且勉强高于随机猜测的 50.0。这明确指出,即使是最先进的 PRMs,在多步过程评估中仍有巨大的提升空间。


  • 开源 PRMs 普遍落后相较于将强大通用语言模型提示为 Critic Model 的表现,当前的开源 PRMs 通常表现出更低的性能,这凸显了其在实际应用中的可靠性问题和潜在的训练偏差。


  • 「简洁性」成为最大挑战在「简洁性」维度上,即使是表现相对较好的 ReasonEval-34B,其 PRMScore 也骤降至 51.5。这表明,PRMs 在识别推理过程中冗余、不必要的步骤方面存在明显的能力不足。


  • 显著的「阳性偏好」现象实验发现,部分模型,例如 ReasonEval-7B 和 RLHFlow-DeepSeek-8B,在评估中表现出显著的「阳性偏好」。它们在正确步骤的判断上准确率很高(超过 95%),但在识别错误步骤(阴性数据)时平均准确率仅为 17%,这严重影响了其可靠性。


  • 错误位置对性能的影响研究深入分析了错误步骤在推理链中位置对 PRMs 性能的影响。结果显示,PRMs 的性能会随着错误步骤在推理链中位置的逐渐后移而呈现出渐进式提升。


  • 「假阳性」影响严重过程级奖励模型(PRMs)往往难以识别那些假阳性步骤,这使得它们存在被模型「钻空子」、易受「奖励黑客」攻击风险。


问题源起:现有 PRMs 的「盲区」


在一项需要举出反例的复杂证明题实践中,我们观察到一个令人担忧的现象:即使像 o1 这样强大的大语言模型,在推理过程中自身已意识到问题,仍可能产生错误的推理步骤。更令人警惕的是,当我们调用现有过程级奖励模型(PRMs)去检测 o1 生成的推理过程时,结果却发现多数 PRMs 无法检测出这种细粒度的错误。这一发现直指核心问题:当前的 PRMs 是否真正具备检测推理过程中细粒度错误的能力?


图 2 当询问模型一道拉格朗日中值定理相关问题时,o1 和 PRM 可能会产生的错误。


然而,现有针对 PRM 评测而设计的基准,大多仅仅关注步骤判断的宏观对错,而忽视了对错误类型本身的细致分类。这意味着当前业界急需一个能够全面评测 PRMs 在细粒度错误上表现的综合基准。而这,正是我们推出 PRMBench 这一精细化基准的根本驱动力。我们希望通过 PRMBench,打破现有评估的局限,真正遴选出能够有效识别细粒度错误的「优秀」PRM,并为未来 PRMs 的发展提供精确的诊断工具。


表 1 PRMBench 与其他现有基准的对比。


PRMBench 构建:实现全面而严谨的评估


图 3 PRMBench 包含三大评测主题:「简洁性」(Simplicity)、「合理性」(Soundness)和「敏感性」(Sensitivity)。


数据来源与构建:


  • 元数据提取基于 PRM800K 数据集,筛选出其完全正确的问题、答案及解题步骤,作为构建我们基准的元数据。


  • 细粒度错误注入针对 PRMBench 的多数评测主题(前 8 个子类别),我们策略性地使用先进的 LLMs(特别是 GPT-4o)将各种细粒度的、预设的错误类型注入到原始的正确解题推理步骤中。对于「一题多解一致性」这一特殊情况,则利用多步推理增强型语言模型为同一问题生成多种不同的、但均正确的解法及其推理步骤,以测试 PRM 的一致性判断能力。


  • 严格的人工验证所有注入错误的实例均经过严格的人工审查,以确保错误类型引入的质量和相关性,保证数据集的真实性和可靠性。


  • 大规模数据集统计最终,PRMBench 构建了包含 6,216 个精心设计的问题,并带有总计 83,456 个步骤级别的细粒度标签的评估数据集。


评估维度与指标:


PRMBench 的评估体系分为三大主要领域,旨在对 PRMs 进行全方位的深度剖析:


  • 简洁性(Simplicity):评估 PRMs 识别和排除冗余推理步骤的能力,包括「非冗余性」和「非循环逻辑」两个子类别。


  • 合理性(Soundness):核心评估 PRM 所生成奖励信号的准确性和对错误类型的正确识别能力,涵盖「评价合理性」、「步骤一致性」、「领域一致性」和「置信度不变性」四个子类别。


  • 敏感性(Sensitivity):衡量 PRMs 在面对细微变化或误导性信息时的鲁棒性和精确识别能力,细分为「前提条件敏感性」、「欺骗抵抗」和「多解一致性」三个子类别。


实验与关键发现


评估模型我们对 25 个主流模型进行了广泛测试,其中包括了各种开源 PRMs(如 Skywork-PRM、Llemma-PRM、MATHMinos-Mistral、MathShepherd-Mistral、RLHFlow-PRM 等)以及通过巧妙提示作为 Critic Models 的优秀闭源语言模型(如 GPT-4o、o1-mini、Gemini-2-Thinking 等)。


评估指标:


  • 负 F1 分数(Negative F1 Score):作为评估错误检测性能的核心指标,着重衡量模型识别错误步骤的准确性。


  • PRMScore这是一个综合性、统一化的分数,通过将 F1 分数(衡量正确识别)和负 F1 分数(衡量错误识别)有机结合,更全面、均衡地反映了模型的整体能力和可靠性。


关键发现:


  • PRMs 整体表现令人担忧我们的实验结果表明,现有 PRMs 在多步过程评估中的能力非常有限。即使是性能最佳的模型,其得分也常常仅略高于随机猜测,这预示着巨大的提升空间。


  • 开源 PRMs 普遍落后相较于将强大通用语言模型提示为 Critic Model 的表现,当前的开源 PRMs 通常表现出更低的性能,这凸显了其在实际应用中的可靠性问题和潜在的训练偏差。


  • 「简洁性」构成最严峻挑战在所有评测维度中,检测推理过程中的冗余步骤(即「简洁性」类别)被证明对 PRMs 来说尤其困难,成为它们面临的最大挑战之一。


表 2 PRMBench 的主要结果概览。


深入分析:揭示 PRMs 的潜在偏见与影响因素


「正确标签偏好」显著许多 PRMs 在评估中表现出对「正确」标签的明显偏好,导致它们在识别错误标签测试样例(即「阴性数据」)时存在困难,这严重影响了其公正性和全面性。


表 3 PRMBench 下模型对于正确标签测试样例(阳性数据)和错误标签测试样例(阴性数据)的得分对比及相似度。


错误位置的影响深入分析发现,PRMs 的性能会随着推理步骤在推理链中位置的逐渐靠后而呈现出渐进式提高。这一现象揭示了 PRMs 在处理推理早期阶段错误时的潜在挑战。


图 4 推理步骤位于推理链中不同位置对模型 PRMScore 的影响。


少样本 ICL 的影响有限实验结果表明,在奖励模型评估过程中使用不同数量的 In-Context Learning(ICL)示例,对闭源模型的性能影响甚微。这提示我们,对于 PRMs 的提升,可能需要更深层次的模型结构或训练范式创新,而非仅仅依赖提示工程。


表 4 不同 Few-shot 数目对于提示为 Critic Model 的通用语言模型表现影响。


PRM 易受「假阳性」影响,暴露「奖励黑客」问题过程级奖励模型(PRMs)往往难以识别那些表面上看似合理、实则存在错误的推理步骤,也难以识别结果正确,但过程存在错误的「假阳性」现象,这使得它们存在被模型「钻空子」、易受「奖励黑客」攻击的风险。为验证这一现象,作者将各模型在 PRMBench 与常用的 Best-of-N(BoN)评估方法上的表现进行了对比。结果显示,PRMBench 在区分模型能力方面具有更高敏感性,而 PRMBench 与 BoN 之间的明显不一致也进一步揭示出当前 PRMs 在应对「假阳性」问题上的显著不足。


表5. 使用不同 PRM 在 Best-of-8 评估与 PRMBench 评估下的得分,可区分性和相似性对比



结语与未来展望


PRMBench 的发布,不仅是一个新的、更高标准的评估基准,更是一声警钟,提醒我们必须重新审视现有 PRMs 的能力边界,并加速其在复杂推理场景下细粒度错误检测能力的发展。


研究的深远意义与展望:


  • 推动 PRM 评估研究的范式转变PRMBench 提供了一个前所未有的全面、精细化评估工具,能够更有效地识别 PRMs 的潜在缺陷和「盲区」,从而促进相关算法和模型的根本性改进。


  • 指引未来 PRM 的开发方向通过详尽揭示现有 PRMs 在不同维度上的优缺点,PRMBench 为未来 PRM 的设计、训练和优化提供了关键的指导性洞察,助力研究人员开发出更具鲁棒性和泛化能力的模型。


  • 助力构建更可靠的 AI 系统只有拥有更可靠、更精确的 PRMs,才能有效提升 LLMs 在复杂推理任务中的表现,从而最终构建出更加值得信赖、更接近人类推理水平的人工智能系统。


「我们坚信,PRMBench 的发布将成为推动过程级奖励模型评估和发展研究的坚实基石,为构建新一代高度可靠的 AI 系统贡献力量!」研究团队表示。


立即探索PRMBench,共同迎接挑战!


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

我觉得吧,信任这东西,光靠“技术牛掰”是不够的,还得“人品好”!对于AI来说,“人品”就是它的责任感和透明度。将来可能得有专门的AI“行为准则”和“行业规范”,就像医生要有医德,律师要有法德。如果AI犯错了,谁来承担责任?这个得明确。还有就是**“AI监理员”这种角色,不光是工程师,还需要法律、伦理甚至心理学专家来评估AI的表现。教育嘛,不仅仅要教年轻人用AI,更要教他们“质疑AI”的能力**,别AI说啥就信啥。毕竟,AI再聪明,目前也只是工具,最终的决策者还是我们人类。

如果PRM的能力不足,对我们普通用户来说确实存在很多潜在风险。最直接的就是信息误导和知识偏差的累积。我们用LLM获取信息、解答问题时,如果LLM的推理过程本身就存在细微错误,但PRM又识别不出来,那么这些错误就会被强化、被学习,最终可能导致LLM持续输出看似合理但实际上是错误的、不完整的或者有偏见的内容。这在教育、医疗、金融等需要高度准确性的领域尤其危险。长此以往,我们对AI生成内容的批判性思维会逐渐弱化,甚至可能形成对AI的过度依赖和盲目信任,从而影响我们的决策质量和认知判断。

我觉得最头疼的可能是难以察觉的“低效”和“浪费”。如果PRM不能有效识别冗余步骤,那LLM在生成复杂推理结果时,可能会走很多弯路,产生很多不必要的中间步骤和计算。这虽然不直接影响最终结果的正确性(因为PRM可能只看最终对错),但会大大增加模型的计算成本和响应时间。对普通用户而言,虽然表面上看不到,但长远来看,这会影响AI服务的效率和普及成本。比如,一个本来3步就能搞定的事情,AI非得给你绕个7、8步,你也不知道它为啥这么笨拙,就只觉得等待时间有点长。

想想看,这就像是AI给你出了一套完美答案,结果这个答案的推导过程掺杂了一些小谎言或者绕了些弯路,但AI自己都觉得没问题。那我们平时用AI写报告、做规划,甚至只是日常聊天开玩笑,万一它“潜移默化”地给我们灌输了一些不那么严谨的逻辑,那不是会把我们自己也带偏吗?以后可能出现“AI式思考”——看起来很流畅很“聪明”,但仔细一推敲,哎呀,中间哪个环节好像有点不对劲,但又说不上来。这简直就是**“隐形逻辑病毒”**啊!

这个问题就像是给一个挑刺的人(PRM)训练,结果他只会夸人(阳性偏好),不会指出不足。要解决这个问题,我觉得核心在于损失函数的设计奖惩机制的微调。除了传统的交叉熵损失,是不是可以引入一些针对“冗余”和“假阳性”的惩罚项?比如,如果模型判断为正确但实际是冗余步骤,就给予更高的惩罚。同时,可以尝试对比学习或度量学习,让模型不仅仅知道“什么是对的”,更要知道“什么是错的,以及它们错在哪里”,从而提高对细微错误的区分能力。再激进一点,甚至可以探索因果推断的方法,让PRM不仅识别现象,还能推断出错误产生的根本原因。

要真正建立对AI系统的信任基石,非技术层面的努力至关重要。首先是伦理和透明度框架的构建。我们需要明确AI在推理过程中对细微错误的容忍度边界,并要求开发者提高PRMs决策的可解释性,让用户和审计者能理解其判断依据,而非一个黑箱。其次是法规和标准制定。例如,在关键领域(如医疗诊断、自动驾驶),应强制要求AI系统通过像PRMBench这样的高标准测试,并定期进行独立审计。再者是社会认知和教育。我们需要向公众普及AI的工作原理和局限性,培养用户的**“AI素养”**,让他们既能享受AI带来的便利,也能理性看待其潜在风险,不盲目信赖。最后,跨学科合作和公众参与也必不可少,让伦理学家、社会学家、法律专家和普通用户共同参与到AI的治理和信任机制构建中来。

关于“简洁性”和“阳性偏好”的问题,我认为可以从几个方面着手。首先是负样本挖掘与构造。现有PRMs可能缺乏足够、高质量的错误步骤负样本进行训练,特别是那些看起来正确但实际冗余或错误的“假阳性”样本。可以尝试更智能的错误注入机制,结合强化学习或对抗生成网络来生成更具挑战性的负样本。其次是多任务学习或多模态融合:比如让PRM在判断步骤正确性的同时,也训练其判断步骤的“必要性”或“贡献度”,将其作为单独的任务进行优化。对于“简洁性”,引入图结构或逻辑链分析也许能更好地捕捉步骤间的依赖关系,剔除冗余。此外,可解释性AI(XAI)技术的引入,也许能帮助PRM“理解”为何某个步骤是冗余的或错误的,而不是简单地进行分类判断。

哎呀,这不就跟我们小时候写作文一样嘛,老师总说要言简意赅,不要说废话。看来AI也还没学会“说人话”里头的“简洁美”。我觉得嘛,是不是可以给AI加个“纠错委员会”?它每次生成完一个步骤,委员会的成员(比如好几个不同的PRM或者甚至用人类标注来高频反馈)就立马给它“挑刺”,专门找那些多余的、不划算的、或者看着对其实不对的步骤。让它从小(训练阶段)就养成“凡事三思,不留遗憾”的好习惯!

哈哈,信任基石啊,这就好比我们去饭店吃饭,光厨师炒菜好吃不行,还得后厨干净,食材可靠,服务员态度好才行。对于PRMs和AI来说,除了技术过硬,社会层面得做的是**“风险共担机制”的建立:如果AI出错了,导致了损失,这个责任怎么划分?是用户、开发者还是监管机构?这需要法律层面的明确。另外,媒体和公众的“正确引导”也很重要,既不过度神话AI,也不过度妖魔化,理性看待它的发展阶段和局限性。可能未来还得有专门的“AI伦理委员会”**,定期开会讨论,听取各方意见,确保AI的发展符合人类社会价值观和公共利益。毕竟,信任是相互的,AI也要“学会”赢得我们的信任才行。