行为校准强化学习:4B模型幻觉抑制能力超越GPT-5

CMU提出行为校准强化学习,4B模型幻觉抑制能力超GPT-5。新方法重塑奖励函数,让模型学会根据置信度回答/拒绝回答,显著提升幻觉抑制效果。

原文标题:4B模型幻觉抑制能力超越GPT-5,CMU等提出行为校准强化学习新方法

原文作者:机器之心

冷月清谈:

卡耐基梅隆大学的研究人员提出了一种名为行为校准强化学习(Behaviorally Calibrated Reinforcement Learning)的新方法,旨在解决大语言模型(LLM)的幻觉问题。该方法通过重新设计奖励函数,使模型能够根据自身置信度选择回答或拒绝回答,从而学会"知之为知之,不知为不知"。研究表明,经过该方法训练的仅有40亿参数的模型,在幻觉抑制能力上甚至超越了GPT-5等前沿大模型。该研究的核心在于解决了当前主流的基于可验证奖励的强化学习(RLVR)中存在的奖励错位问题,通过设计言语化置信度和Critic价值函数两种策略,训练模型输出置信度,并根据用户指定的风险阈值动态调整拒绝行为。实验结果表明,该方法在多个基准测试中均取得了显著成果,尤其是在BeyondAIME等数据集上,模型的信噪比增益和置信度AUC均大幅提升,超越了包括GPT-5在内的多个前沿模型。此外,该研究还发现幻觉缓解与准确率是两种独立的能力,且行为校准是一种可学习的属性,可以通过训练得到改善。

怜星夜思:

1、行为校准强化学习通过让模型学会拒绝回答来减少幻觉,那么这种方法是否会降低模型在某些特定领域的实用性,比如在需要模型给出创造性答案或进行冒险性预测的场景下?
2、文章中提到行为校准强化学习可以迁移到新的领域,那么在迁移过程中,是否需要针对目标领域的数据进行微调,或者完全可以实现零样本迁移?如果需要微调,那么微调的数据量和策略会如何影响模型的性能?
3、文章提到幻觉缓解与准确率是两个独立的能力,那么是否可以通过一些方法,在不牺牲准确率的前提下,进一步提高模型的幻觉抑制能力?或者说,是否存在一些专门用于提高幻觉抑制能力的trick或技术?

原文内容


作者吴嘉赟,卡耐基梅隆大学(CMU)机器学习系博士生,研究大语言模型的评测与后训练,包括模型推理、模型幻觉、主动评测等。


大语言模型(LLM)的幻觉问题一直是阻碍其在关键领域部署的核心难题。近日,研究人员提出了一种名为行为校准强化学(Behaviorally Calibrated Reinforcement Learning)的新方法,通过重新设计奖励函数,让模型学会「知之为知之,不知为不知」。



论文链接:https://arxiv.org/abs/2512.19920


一个仅 40 亿参数的模型在接受该方法训练后,其幻觉抑制能力竟然超越了 GPT-5 等前沿大模型。


图1:模型在回答数学问题时输出的置信度标注示例。每个声明都附带置信度分数和理由说明。


核心问题:为什么 LLM 会产生幻觉?


研究团队指出,当前主流的大模型后训练范式 —— 基于可验证奖励的强化学习(RLVR)—— 存在一个根本性的奖励错位问题。在标准 RLVR 中,奖励函数通常是二元的:回答正确得 + 1 分,回答错误得 - 1 分。在这种机制下,只要正确概率大于零,一个追求效用最大化的智能体会被激励生成可能错误的答案。这就造成了对「拒绝回答」行为的惩罚,迫使模型抑制不确定性的表达,将猜测伪装成事实。模型被训练成了「优秀的应试者」—— 为了最大化预期分数而猜测,而不是成为「诚实的沟通者」—— 在置信不足时选择放弃。


解决方案:行为校准强化学习


针对上述问题,研究团队提出了行为校准的解决方案。其核心思想是:一个值得信赖的模型应该根据用户指定的风险阈值图片动态调整其拒绝行为:

  • 当 图片 时,模型处于「应试者模式」,尽可能回答问题;

  • 当 图片 时,模型处于「完全诚实模式」,只在绝对确定时才回答;

  • 一般情况下,0当且仅当模型的置信度 图片 时才输出实质性答案,否则输出图片


为了实现这一目标,研究团队设计了两种策略:


策略一:言语化置信度(Verbalized Confidence)


该策略训练模型在输出答案的同时,显式输出一个标量置信度分数图片,当模型置信图片低于用户风险阈值图片时拒绝回答,并分配奖励:

  • 回答正确得 1 分;

  • 回答错误得 - 1 分;

  • 拒绝回答得 图片 分。


研究团队将不同用户风险偏好 图片 下的奖励函数进行积分,将训练目标从带有显式风险阈值的条件优化,转化为对 Verbalized Confidence 的严格适当评分规则(proper scoring rule) 进行优化。


对于均匀分布的风险偏好图片,推导出的奖励函数类似于 Brier 分数


图片


这个奖励可以分解为正确性奖励 图片 和置信度校准的 Brier 分数 图片 之差,激励模型在最大化预测准确率的同时,校准其声明的置信度。


对于一般的风险偏好累计分布函数 图片,奖励函数的通式为:



策略二:Critic 价值函数(Critic Value)


作为显示生成置信度的替代方案,该策略使用 PPO 算法中 Critic 网络的价值函数作为隐式置信度估计器。理论上,Critic 网络通过最小化预测值与策略回报之间的 Brier 分数进行训练,其价值函数会收敛到成功概率。


声明级行为校准:细粒度的「不确定」标注


研究团队进一步将行为校准从响应级别扩展到声明级别,使模型能够精确标注答案中单个不确定的推理步骤,而非简单地拒绝整个回答。这一扩展面临三大挑战:


挑战一:连贯性问题。直接将不确定的声明替换为 < IDK > 可能破坏推理的连贯性 —— 例如在数学问题中,后续步骤往往依赖于前面的结论。研究团队选择让模型输出完整响应,同时用 HTML 标签可视化高亮不确定的声明


挑战二:中间步骤的歧义性。在思维链(CoT)推理中,中间步骤的正确性和置信度存在天然歧义:一个步骤可能正确识别了前面声明中的错误。为此,研究团队忽略中间推理过程,仅在最终的结构化步骤上进行校准


挑战三:缺乏细粒度标签。声明级的正确性标注难以获取。研究团队设计了基于弱监督的学习目标:将声明级置信度聚合成响应级置信度,再使用 Brier 分数奖励进行训练。


具体而言,对于包含图片声明的响应,研究团队探索了两种聚合方式:


  • 乘积聚合(Product Aggregation):图片,假设各声明的独立性,最终正确当且仅当所有声明都正确

  • 最小值聚合(Minimum Aggregation):图片,由最不确信的步骤决定整体置信度,强制模型为最易出错的步骤分配低置信度


实验发现,最小值聚合在声明级评估中表现更优,因为它能更有效地激励模型识别推理链中的薄弱环节。而乘积聚合虽然更适合响应级校准,但可能导致单个声明的置信度过于乐观。


实验结果


研究团队在多个基准测试上评估了该方法,包括字节跳动 Seed 团队发布的极具挑战性的数学推理基准 BeyondAIME,以及 AIME-2024/2025 和 SimpleQA(跨领域事实问答基准)。


核心评估指标


信噪比增益 (SNR Gain):给定风险阈值图片,信噪比定义为模型回答中正确响应数量与幻觉响应数量的比值,即 图片。SNR 越高,说明模型在回答问题时的正确回答远多于错误回答。SNR 增益则是风险阈值在 图片 的整个区间内的平均信噪比相对总是回答时的信噪比增益。


Confidence AUC:使用模型的置信度分数对正确和错误回答进行排序,计算 ROC 曲线下面积。AUC 越接近 1,说明模型越能准确地将高置信度分配给正确回答,将低置信度分配给错误回答。这是一个纯衡量模型「自知之明」的指标,不受模型本身能力强弱的影响。


响应级评估:超越 GPT-5


在 BeyondAIME 上的响应级评估结果显示(表 1),研究提出的方法显著优于 Qwen3-max,Kimi-K2,Gemini-2.5-Pro 和 GPT-5 等模型。其中,采用言语化置信度(Verbalized Confidence)、置信度乘积聚合(Qwen3-4B-Instruct-confidence-prod)的 40 亿参数模型取得了 0.806 的 SNR 增益大幅超越 GPT-5 的 0.207。采用 Critic 价值函数(Qwen3-4B-Instruct-ppo-value)也取得了相当好的效果。


表1:BeyondAIME 响应级评估结果。SNR Gain 和 Conf AUC 是衡量幻觉抑制效果的关键指标,数值越高表示模型越能有效抑制幻觉。



声明级评估:超越 Gemini-2.5-Pro


研究团队还将行为校准从响应级别扩展到声明级别,让模型能够精确标注单个不确定的推理步骤。在 BeyondAIME 的声明级评估中(表 2),置信度最小聚合方法取得了 0.301 的 SNR 增益,显著优于 Gemini-2.5-Pro 的 0.019


表2:BeyondAIME 声明级评估结果。最小值聚合方法在 SNR Gain 和 Conf AUC 两个核心指标上均大幅领先前沿模型。


置信度校准图:多数前沿模型缺少「自知之明」


置信度校准图(Reliability Diagram)是评估模型「自知之明」的重要可视化工具。图中的虚线图片代表完美校准 —— 模型声明的置信度等于其实际准确率。从图 2 可以清晰地看到,前沿模型(包括 Gemini-2.5-Pro、Qwen3-Max 等)的校准曲线几乎是水平线,这意味着无论模型声称自己有多「自信」,其实际准确率都维持在相近水平。这说明这些模型缺乏区分正确与错误回答的能力。只有 GPT-5 和 o4-mini 输出的置信具有实际意义。相比之下,经过行为校准训练的模型(图 3)展现出理想的校准特性单调递增的校准曲线证明模型学会了诚实地表达自己的不确定性。


图2:前沿模型在BeyondAIME上的响应级置信度校准图。可以观察到,很多模型的准确率是一条水平线,与其声明的置信度几乎没有相关性。


图3:本研究模型在BeyondAIME上的置信度校准图。经过行为校准训练后,模型的准确率与其声明的置信度呈现强烈的正相关关系。其中Base和Base-ppo是基准。


行为校准的四个目标


图4:在不同风险阈值下的准确率、拒绝率和幻觉率变化曲线。绿色区域代表准确率,黄色区域代表拒绝率,红色区域代表幻觉率。随着风险阈值t的增加,模型逐渐从「应试者模式」过渡到「完全诚实模式」。


研究团队设计的系统满足行为校准的四个目标:


目标 1:自适应风险。模型能根据用户指定的风险阈值图片自动调整拒绝策略。从图 4 可以观察到,随着风险阈值 图片 的增加,幻觉率(红色区域)迅速下降。与前沿模型和基础 PPO 模型的「凸形」拒绝曲线不同,本研究模型的「凹形」拒绝曲线表明模型能更快地适应风险变化,在较低的风险阈值下就能有效降低幻觉。


目标 2:准确率保持。在图片(不拒绝)模式下,校准模型的准确率与标准 RL 微调基线相当甚至更好。


目标 3:幻觉减少。随着风险阈值 图片 增加,幻觉率单调递减。当 图片 时(完全诚实模式),幻觉率几乎降至零。同时信噪比 SNR(绿色区域与红色区域的比值)大幅提升


目标 4:定量校准。模型满足两个定量约束:

  • 真阳性率(TP):在模型选择回答的问题中,正确回答的比例不低于风险阈值 图片

  • 假阴性率(FN):在模型选择拒绝的问题中,原本能正确回答的比例应不高于 图片

图 5 展示了各模型的 TP 和 FN 曲线。TP 曲线大部分位于对角线 图片上方,FN 曲线大部分位于对角线下方,满足行为校准的定量约束


图5:行为校准的True Positive(实线)和False Negative(虚线)。TP曲线应位于对角线上方,FN曲线应位于对角线下方。Base和Base-ppo是基线


跨领域泛化:元技能的可迁移性


为了验证该方法训练出的元认知能力是否具有可迁移性,研究团队将在数学数据上训练的模型直接在 SimpleQA(具有挑战性的长尾事实知识基准)上进行零样本评估。


结果显示,方法的 SNR 显著优于基础指令模型,超越了大多数评估的前沿模型,与包括 Claude-Sonnet-4.5 和 GPT-5 在内的最强前沿模型相当。由于零样本评估的设定,在模型缺乏基础知识的全新领域上,行为校准被有效迁移,这说明行为校准是一种与预测准确率解耦的技能


研究启示:

幻觉缓解与准确率是两个独立的能力


该研究还带来了一些理论洞察:


1. 幻觉缓解与事实准确率是两种不同的能力。研究团队观察到,对于某些前沿模型而言,准确率与幻觉率或置信度校准之间并没有正相关关系。GPT 系列模型的优势更多体现在控制幻觉的能力上,而不仅是准确率的优势。


2. 小模型也能实现与大模型相当的置信度校准。实现有效「校准」所需的计算资源远低于追求绝对准确率所需的资源。反过来说,某些大模型的言语化置信度并不能准确反映其实际表现。


3. 行为校准是一种可学习的属性,可以通过训练得到改善。这与此前认为幻觉是 LLM 不可避免的内置特性的观点形成了对比。

© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

在文本摘要或者机器翻译领域,同样可以应用行为校准。比如,可以让模型在生成摘要或者翻译结果之前,先评估自己对原文的理解程度,如果觉得自己理解不够透彻,可以选择生成一个更为保守的结果,或者直接拒绝翻译。

我觉得行为校准的思想是通用的,应该可以应用到很多领域。比如,在代码生成领域,可以让模型在生成代码之前先评估自己的能力,如果觉得自己无法生成高质量的代码,可以选择拒绝生成。

同意楼上的观点。我感觉可以尝试引入一些“探索”机制,比如在模型回答问题时,允许它以一定的概率尝试一些不确定的答案,并根据用户的反馈进行学习。这样既可以保证模型在大部分情况下是可靠的,又可以给它提供探索新知识和新想法的机会。

这是一个很有意思的问题!我觉得“自知之明”和创造性之间确实存在一种微妙的平衡。如果模型过于追求正确,可能会过于依赖已有的知识,而缺乏突破性的想法。所以,如何在保证可靠性的前提下,激发模型的创造力,是一个值得深入研究的问题。

我觉得可以针对不同的应用场景,采取不同的策略。比如,在医疗或者金融领域,可靠性是第一位的,可以采用更为保守的策略。而在创意领域,可以适当放宽对模型的要求,鼓励它进行更多的尝试和创新。

感觉可以考虑用类似prompt engineering的方法,引导模型在回答问题前先评估自己的知识储备和理解程度,再决定是否给出答案。相当于给模型加一个“思考”的环节。

不过,在不同的领域应用行为校准,可能需要针对具体的任务进行一些调整。比如,在代码生成领域,如何评估代码的质量就是一个挑战。在文本摘要领域,如何判断模型对原文的理解程度也是一个难点。

我觉得prompt engineering可能不够,prompt始终只能影响模型的输出风格,很难改变模型本身的知识和推理能力。可能需要结合外部知识库,让模型在回答问题时可以检索相关信息,降低出错的概率。

与其依赖模型自己评估,不如引入一个独立的评估模块,专门负责判断模型输出的合理性。这个评估模块可以基于规则、基于数据或者基于更复杂的模型,相当于给模型的输出加了一个“质检”环节。

理想很丰满,现实很骨感啊!跨领域泛化是个好方向,但直接“零样本”迁移,我觉得还是有点悬。虽然文章说在SimpleQA上表现不错,但那也只是个例。不同领域的数据分布、知识结构差异很大,模型很可能“水土不服”。感觉至少需要进行一些轻量级的微调,才能保证效果。

理论上是可行的!大模型虽然能力更强,但训练和部署成本也更高。如果小模型通过行为校准就能达到不错的可靠性,那确实可以成为一个更经济实惠的选择。不过,小模型在知识储备和推理能力上可能还是不如大模型,所以在一些需要深度知识和复杂推理的场景下,可能还是需要依赖大模型。

可以考虑引入一个基于信息熵的奖励函数。当模型输出概率分布比较均匀,也就是不确定性很高的时候,信息熵会比较大,这时候可以给予一个负向的奖励,鼓励模型不要在这种情况下轻易给出答案。反之,如果模型输出的概率分布比较集中,模型比较确定,那么信息熵比较小,可以给予正向奖励。

从博弈论的角度,可以引入一个“对手”,让模型与对手进行问答博弈。如果模型回答错误,对手获得奖励;如果模型选择放弃回答,双方都没有奖励。这样可以促使模型更加谨慎地选择回答或放弃,避免因为害怕对手得分而盲目猜测。

模型规模当然重要,但不是唯一的决定因素。好的训练方法和校准策略可以有效地提高模型的效率和可靠性。举个例子,如果把大模型比作一个知识渊博但有点马虎的学霸,那么小模型就是虽然知识储备有限但非常认真仔细的学生。只要训练得当,认真仔细的学生也能取得好成绩。