RLVR/GRPO组内优势估计偏差揭秘:困难题被低估,简单题被高估

揭示RLVR/GRPO中组内优势估计的系统性偏差,强调其对模型泛化能力和稳定性的潜在负面影响,并提出解决方案。

原文标题:揭秘!RLVR/GRPO中那些长期被忽略的关键缺陷

原文作者:机器之心

冷月清谈:

本文深入探讨了在强化学习与可验证奖励(RLVR)框架下,特别是GRPO等方法中,一个长期被忽视的问题:组内优势估计存在系统性偏差。研究揭示,这种偏差并非简单的随机噪声,而是与样本难度直接相关,导致对困难问题优势的低估和简单问题优势的高估。这种偏差会造成模型训练时对简单样本的过度强化,抑制对困难问题的有效探索,最终损害模型的泛化能力和长期稳定性。研究者通过理论分析、实验验证,并提出了自适应调整优势估计的方法(HA-DW)来缓解这一问题,强调了LLM强化学习中对估计准确性和可解释性的重视。

怜星夜思:

1、文章提到组内优势估计会对困难问题产生低估,简单问题产生高估,那么除了文章中HA-DW动态调整权重的方法,你觉得从数据层面,或者其他角度,有什么方法可以缓解这种偏差吗?
2、RLVR强调使用可验证的规则来引导模型学习,但现实任务中,很多时候“可验证”本身就存在难度。例如,对于开放域的文本生成,判断生成结果是否“合理”或者 “有创意” 往往依赖于主观评价。那么,如何在这些场景下更好地应用RLVR呢?
3、文章提到,组内优势估计的偏差会抑制有效探索。你认为在RLVR中,除了改进优势估计方法,还有哪些其他的策略可以鼓励模型进行更有效的探索?

原文内容


近年来,大模型在数学推理、代码生成等任务上的突破,背后一个关键技术是 RLVR(Reinforcement Learning with Verifiable Rewards)。


简单来说,RLVR 不是让模型「听人打分」,而是让模型自己尝试多种解法,然后用可验证的规则(如答案是否正确)来反向改进自己。这使得模型能够通过反复试错不断变强,被广泛应用于当前最先进的推理模型中。


在实际训练中,为了让学习过程更稳定、避免引入额外的价值网络,许多 RLVR 方法(如 GRPO)都会对同一个问题生成一组回答,并在组内进行相对比较。模型不是直接看「这个回答好不好」,而是看「它在这一组回答中相对好不好」,这就是所谓的组内优势估计(group-relative advantage),也是目前几乎所有 group-based 强化学习方法的核心设计。优势估计并不仅仅是一个「评估指标」,而是直接决定策略梯度更新方向的核心信号。


然而,一个长期被忽视的关键问题在于:组内优势估计并不像人们通常直觉认为的那样是「近似无偏」的。


相反,北航、北大、UCB、美团最新的工作揭示了,这种组内优势估计在统计意义上存在明确且系统性的方向性偏差:困难题的优势会被持续低估,而简单题的优势则被不断高估。



  • 论文地址:https://arxiv.org/pdf/2601.08521


这一偏差带来的后果往往十分隐蔽,却极具破坏性。训练过程中,曲线表面上看似「稳定收敛」,但模型实际上正在逐渐回避困难问题、转而偏好简单样本。随着训练的推进,探索与利用之间的平衡被悄然打破,模型的泛化能力与长期训练稳定性也随之下降。


更关键的是,这并非一个可以通过简单调整超参数来缓解的问题,而是组内优势估计这一设计在统计结构层面本身就存在的内在缺陷。


定义


接下来,我们先引入若干必要的定义,以便于清晰表述后续的核心发现。我们首先给出最常用的组内相对优势估计的数学定义。


组内相对优势估计(Group-relative Advantage) :


在一个训练回合图片,对于一个给定的提示(prompt)图片,算法从当前策略图片 中独立采样 G 个响应,并获得对应的 G 个奖励图片。随后,将组内的平均奖励 图片作为 baseline



并据此计算每个响应的组内相对优势估计图片



为便于阐述理论结论,下文中我们忽略标准化项。为了分析组内优势估计的统计性质,我们需要引入策略在给定提示下的真实期望表现和优势,并将其作为后续讨论的参照基准。


期望奖励:


 RLVR 设定下,考虑一个给定的提示图片, 在 0–1 奖励假设下,我们将策略 图片在该提示上图片的期望奖励定义为



由此构造的组内平均奖励图片,可被视为图片的一个有限样本经验估计。


期望优势:


基于此,对于每一个响应图片和其奖励图片,其真实(期望)优势定义为



在 RLVR 中,图片表示响应图片在真实期望意义下的优势,而图片则是通过有限组内采样得到的优势经验估计量。


为了刻画不同提示在训练中所处的难易程度,并分析偏差在不同难度区域的行为差异,我们引入如下基于期望奖励的题目难度定义。


题目难度:


在这里,我们首先给出题目难度定义,即给一个图片, 如果图片小于 0.5,我们认为他是难题。相反,如果图片 大于 0.5,我们认为它是一道简单题。


最后,在基于组的策略优化方法中,并非所有采样组都会对参数更新产生有效贡献。为聚焦于真正驱动学习的情形,我们需要显式排除那些导致梯度消失的退化情况。


非退化梯度事件:


R 表示奖励总和:



则组内优势估计也可以表示为图片。在基于组的策略优化方法中,当某一提示图片的 G 个采样响应全部错误(R=0)或全部正确(R=G)时,组内相对优势满足:


图片


从而导致梯度消失,参数不发生更新。实践中,这类退化组不提供有效学习信号,通常被 GRPO 及其变体显式或隐式地忽略。因此,我们将分析聚焦于实际驱动学习的有效更新区间,即至少存在一个非零优势的情形。形式化地,定义非退化事件:


图片


对 S 进行条件化并不会改变优化目标或训练轨迹,而仅刻画那些真正参与参数更新的样本子集,使我们能够精确分析组相对优势估计中的系统性偏差。


核心发现


重要发现 1:



定理 1 揭示了组相对优势估计的一个根本性质。在非退化事件 S 条件下,基于组的优势估计图片, 对不同难度的提示表现出系统性偏差:


  • 对于困难提示图片<0.5),其期望值系统性低于真实优势图片(即其真实优势被低估)。

  • 对于简单提示图片>0.5$$),其期望值系统性高于真实优势图片(即其真实优势被高估)。

  • 仅当图片=0.5,组相对优势估计才是无偏的。


这一结论表明,组相对优势的偏差并非由有限采样噪声引起,而是源自其相对优势估计机制本身,且与提示难度密切相关。



同时,我们对这种优势估计偏差进行了系统性的可视化分析。如图所示,在非退化事件 S 条件下,组相对优势估计的偏差图片,随提示难度呈现出明显的结构性变化 :


  • 图片 偏离 0.5 越远(即提示越困难或越简单)时,优势估计的偏差越大。


在相同的提示难度下,G 越小,优势估计偏差越大;随着 G 的增加,偏差虽有所缓解,但在有限采样范围内仍然不可忽略。


举例 1:


假设一个非常难的问题,模型原本做对的概率只有 1%(图片=0.01)。如果你采样了 8 次,按照 1% 的这个概率来做的话原本模型大概率是全错的,这些数据会被丢弃,不产生梯度。但是一旦这 8 个回答里面至少有 1 个问题做对了,这个时候组内的 Baseline 图片就会瞬间被拉高到至少 0.125 参加梯度更新,和原本图片 =0.01 差距非常大。这导致计算出的优势估计就会变小

≤ 0.875,与真实的优势图片=0.99 产生巨大偏差,即优势被显著低估。


举例 2:



该图展示了在 MATH 数据集上,对于同一道困难题目,组相对优势估计在不同回答采样数量下的表现差异。当采用 8 次采样时,对正确回答所计算得到的优势为 A=2.65;而当采样数量提升至 128 次时,所估计的优势增大至 A=3.64,更接近其真实优势值。


重要发现 2:



为此,进一步给出了优势估计偏差的概率化刻画。如推论 1 所示,在实际常用的组大小范围 G = 8 时,组相对优势估计以较高概率对不同难度的提示产生系统性偏差:对于困难提示图片<0.5),其优势被低估的概率超过 0.63;对于简单提示图片 >0.5),其优势被高估的概率同样超过 0.63。当提示难度进一步加剧扩大时,这一概率上界进一步提升至 0.78 甚至 100%,表明偏差随难度加深而显著放大。


论文也提供具体偏差量估计:



总结


综上所述,组相对优势估计(Group-relative Advantage)在理论上除图片= 0.5 外均是有偏的。因为 GRPO/Group-based PO 会优势估计机制会强制将样本限制在子集 S 上,相当于对原来的样本全集进行了加权,即加权之后的优势估计是有偏的。


具体而言,该估计方法会对困难提示系统性地低估真实优势,而对简单提示系统性地高估真实优势。进一步地,对于极其困难的提示,优势估计必然被低估;而对于极其简单的提示,则必然被高估。


尽管上述分析主要基于 0–1 二值奖励的设定,该假设覆盖了大量 RLVR 场景,尤其是依赖硬判别 verifier 的推理任务,但真实应用中的奖励信号往往更加一般。

为此,论文在附录 D.5 中将分析推广至连续且有界的奖励分布。


结果表明,组相对优势估计中的核心偏差现象并非 Bernoulli 奖励假设的偶然产物,而是在更广泛的有界奖励模型中同样普遍存在。


这个发现告诉我们什么


该发现对 RLVR 训练具有直接而深远的影响。


具体而言,组相对优势估计的系统性偏差会导致不同难度提示在学习过程中受到不平衡的梯度信号:对于困难提示,其真实优势被低估,从而产生较小的梯度更新,导致学习进展缓慢;而对于简单提示,其优势被高估,模型则容易对其过度强化。最终,这种不对称的优势估计会抑制有效探索,使训练过程偏向于反复强化简单样本,而忽视真正具有挑战性的提示。


基于上述分析,我们认为优势估计应当根据提示难度进行自适应调整:对于困难提示,应适当放大其估计优势以鼓励探索;而对于简单提示,则应抑制其优势以防止过度利用。


为在实践中判定提示难度,论文提出算法 HA-DW,引入短期历史平均奖励作为动态锚点,将新提示与该锚点进行对比,从而判断其相对难度,并据此对优势估计进行自适应重加权。



该图展示了在对组相对优势估计进行校正之后,不同难度提示上的性能变化。可以观察到,引入优势校正机制后(GRPO+HA-DW),模型在困难提示(Hard)上的性能提升最为显著,相比原始 GRPO 提升了 3.4%。



GRPO/Group-based PO 的问题不只是 variance,而是 bias。这项工作也释放了一个很强的信号:LLM 强化学习正在从「工程上能跑出效果就行」,回到「估计是不是准确」的根本问题和可解释性。以后 RLVR 里,bias analysis /estimator correctness 很可能会成为标配。

© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

同意楼上的主动学习思路!我再补充一个,可以考虑使用课程学习的思想。一开始先让模型学习简单的样本,逐渐增加难度,这样可以避免模型一开始就被困难样本给“吓”住,从而更好地学习到知识。另外,集成学习也值得考虑。我们可以训练多个模型,每个模型 специализируется 在不同难度的样本上,然后将它们的预测结果进行集成,这样可以综合利用不同模型的优势,提升整体的性能。

这个问题问到了RLVR的一个核心挑战!确实,完全依赖客观、可验证的规则在很多场景下并不现实。我觉得一个可行的方向是引入混合奖励机制,即同时考虑可验证的客观指标和人工反馈的主观指标。比如,可以设计一个奖励函数,其中一部分是基于规则的,例如文本的流畅度、语法正确性等;另一部分则来自于人工评价,例如文本的相关性、创意性等。然后,通过调整两部分的权重,来平衡客观性和主观性。

歪个楼,想到一个有点“抖机灵”的方法。既然是组内比较,那我们能不能人为地给简单的问题增加一些难度,比如加入一些干扰信息,或者故意让模型犯一些小错误,这样可以降低简单问题被过度高估的风险(狗头.jpg)。当然,这个方法可能需要非常小心地进行调整,不然可能会适得其反。

抛开技术层面,我觉得更重要的是建立一个清晰的评价标准。即使是主观评价,也应该尽可能地明确评价的维度和指标,比如“相关性”可以细化为“是否回答了问题”、“是否包含了关键信息”等等。“创意性”可以细化为“是否提出了新颖的观点”、“是否使用了独特的表达方式”等等。只有建立了清晰的评价标准,才能更好地进行人工反馈,并将其融入到RLVR的训练过程中。

可以借鉴强化学习中的Inverse Reinforcement Learning (IRL)思路。IRL的核心思想是从人类专家的行为中学习奖励函数。具体来说,我们可以收集大量人类在开放域文本生成任务上的数据,然后训练一个模型来预测人类会给什么样的结果打高分。这个预测的奖励函数就可以用来指导RLVR的训练。这样做的好处是可以让模型学习到人类的偏好,从而生成更符合人类期望的结果。

这个问题很有意思!除了HA-DW这种动态调整权重的方法,我感觉从数据层面入手,通过主动学习或许是个思路。我们可以专门挑选那些模型表现不佳,也就是比较“困难”的样本,增加这些样本在训练集中的比例,让模型更多地接触到这类难题,从而提升它解决难题的能力。另外,也可以尝试数据增强,对困难样本进行一定的处理,比如增加一些扰动,或者生成一些相似的“变形”样本,进一步提升模型的鲁棒性。当然,这需要仔细设计,避免引入新的偏差。

探索和利用是强化学习里永恒的矛盾啊!除了改进优势估计,我觉得一个直接的思路是引入探索奖励(exploration bonus)。简单来说,就是给模型一些额外的奖励,鼓励它去尝试那些不确定性比较高的行为。例如,可以根据模型对当前状态-动作对的访问次数来设计奖励,访问次数越少,奖励越高,这样可以鼓励模型去探索那些未知的区域。