DeepSeek提出SPCT:一种提升通用奖励模型推理时可扩展性的新方法

DeepSeek提出SPCT,一种提升通用奖励模型推理时可扩展性的新方法,实验表明SPCT在生成质量和推理阶段的可扩展性方面,明显优于现有方法。

原文标题:刚刚,DeepSeek公布推理时Scaling新论文,R2要来了?

原文作者:机器之心

冷月清谈:

DeepSeek 提交了一篇关于通用奖励模型(GRM)的论文,提出了一种新的学习方法——自我原则批评调整(SPCT),以提升 GRM 在推理阶段的可扩展性。该方法通过结合拒绝式微调和基于规则的在线强化学习,使 GRM 能够根据输入查询和响应自适应地提出原则和批评,从而在一般领域获得更好的结果奖励。DeepSeek 基于 SPCT 提出了 DeepSeek-GRM-27B,并通过多次采样扩展计算使用量,利用并行采样生成不同的原则集和相应的批评,然后投票选出最终的奖励。 实验结果表明,SPCT 显著提高了 GRM 的质量和可扩展性,在多个综合 RM 基准测试中优于现有方法和模型。研究还发现,在模型大小上,推理时扩展可以获得比训练时扩展更好的性能,增强可扩展性和效率的 GRM 可以作为通用奖励系统的多功能接口,推动 LLM 后训练和推理的前沿发展。SPCT 包含两个阶段:拒绝式微调(冷启动)和基于规则的在线强化学习,通过不断优化生成的准则和评论,进一步增强泛化型奖励生成能力。

怜星夜思:

1、DeepSeek 提出的 SPCT 方法,通过让模型自主生成原则和批评来进行奖励评估,这种方式相比于人工设计的规则,有哪些优势和潜在的局限性?
2、论文中提到 SPCT 在推理时扩展性方面超过了通过增加模型规模带来的训练效果提升,这是否意味着在 LLM 的发展中,我们应该更加重视优化推理效率,而不是单纯追求更大的模型规模?
3、DeepSeek-GRM 通过元奖励模型来指导投票过程,过滤掉低质量的样本,这种“二次打分”的思路在其他 AI 任务中是否有借鉴意义?可以应用在哪些场景?

原文内容

机器之心报道

机器之心编辑部

一种全新的学习方法。


这会是 DeepSeek R2 的雏形吗?本周五,DeepSeek 提交到 arXiv 上的最新论文正在 AI 社区逐渐升温。


当前,强化学习(RL)已广泛应用于大语言模型(LLM)的后期训练。最近 RL 对 LLM 推理能力的激励表明,适当的学习方法可以实现有效的推理时间可扩展性。RL 的一个关键挑战是在可验证问题或人工规则之外的各个领域获得 LLM 的准确奖励信号。


本周五提交的一项工作中,来自 DeepSeek、清华大学的研究人员探索了奖励模型(RM)的不同方法,发现逐点生成奖励模型(GRM)可以统一纯语言表示中单个、成对和多个响应的评分,从而克服了挑战。研究者探索了某些原则可以指导 GRM 在适当标准内生成奖励,从而提高奖励的质量,这启发我们,RM 的推理时间可扩展性可以通过扩展高质量原则和准确批评的生成来实现。



  • 论文标题:Inference-Time Scaling for Generalist Reward Modeling 

  • 论文链接:https://arxiv.org/abs/2504.02495


基于这一初步成果,作者提出了一种新学习方法,即自我原则批评调整(SPCT),以促进 GRM 中有效的推理时间可扩展行为。通过利用基于规则的在线 RL,SPCT 使 GRM 能够学习根据输入查询和响应自适应地提出原则和批评,从而在一般领域获得更好的结果奖励。


基于此技术,DeepSeek 提出了 DeepSeek-GRM-27B,它基于 Gemma-2-27B 用 SPCT 进行后训练。对于推理时间扩展,它通过多次采样来扩展计算使用量。通过并行采样,DeepSeek-GRM 可以生成不同的原则集和相应的批评,然后投票选出最终的奖励。通过更大规模的采样,DeepSeek-GRM 可以更准确地判断具有更高多样性的原则,并以更细的粒度输出奖励,从而解决挑战。


除了投票以获得更好的扩展性能外,DeepSeek 还训练了一个元 RM。从实验结果上看,SPCT 显著提高了 GRM 的质量和可扩展性,在多个综合 RM 基准测试中优于现有方法和模型,且没有严重的领域偏差。作者还将 DeepSeek-GRM-27B 的推理时间扩展性能与多达 671B 个参数的较大模型进行了比较,发现它在模型大小上可以获得比训练时间扩展更好的性能。虽然当前方法在效率和特定任务方面面临挑战,但凭借 SPCT 之外的努力,DeepSeek 相信,具有增强可扩展性和效率的 GRM 可以作为通用奖励系统的多功能接口,推动 LLM 后训练和推理的前沿发展。


这项研究的主要贡献有以下三点:


  • 研究者们提出了一种新方法:Self-Principled Critique Tuning(SPCT),用于提升通用奖励模型在推理阶段的可扩展性,并由此训练出 DeepSeek-GRM 系列模型。同时,他们进一步引入了一种元奖励模型(meta RM),使 DeepSeek-GRM 的推理效果在超越传统投票机制的基础上得到进一步提升。

  • 实验证明,SPCT 在生成质量和推理阶段的可扩展性方面,明显优于现有方法,并超过了多个强大的开源模型。

  • SPCT 的训练方案还被应用到更大规模的语言模型上。研究者们发现推理阶段的扩展性收益甚至超过了通过增加模型规模所带来的训练效果提升。



技术细节


我们一起来看看这篇论文所讨论的技术细节。


Self-Principled Critique Tuning (SPCT)


受到初步实验结果的启发,研究者提出了一种用于逐点通用奖励模型的新方法,能够学习生成具有适应性和高质量的原则,以有效引导批评内容的生成,该方法被称为自我原则批评调整(SPCT)。 


如图 3 所示,SPCT 包含两个阶段:


1. 拒绝式微调(rejective fine-tuning),作为冷启动阶段;

2. 基于规则的在线强化学习(rule-based online RL),通过不断优化生成的准则和评论,进一步增强泛化型奖励生成能力。


此外,SPCT 还能促使奖励模型在推理阶段展现出良好的扩展能力。



研究者们观察到,高质量的准则能够在特定评判标准下有效引导奖励的生成,是提升奖励模型表现的关键因素。然而,对于通用型奖励模型而言,如何自动生成适应性强、指导性强的准则仍是一个核心难题。


为此,他们提出将准则的作用由传统的理解阶段的辅助性输入,转变为奖励生成过程中的核心组成部分。具体而言,这项研究不再将准则仅作为模型生成前的提示信息,而是使模型能够在生成过程中主动生成并运用准则,从而实现更强的奖励泛化能力与推理阶段的可扩展性。


在该研究的设定中,GRM 可以自主生成准则,并在此基础上生成对应的批评内容,其过程可形式化表示为: 


图片


其中,p_θ 表示由参数 θ 所定义的准则生成函数,该函数与奖励生成函数 r_θ 共享同一模型架构。这样的设计使得准则可以根据输入的 query 和响应自适应生成,从而动态引导奖励的生成过程。此外,准则及其对应批评的质量与细粒度可以通过对 GRM 进行后训练进一步提升。


当模型具备大规模生成准则的能力后,GRM 便能够在更合理的准则框架下输出更细致的奖励评价,这对于推理阶段的可扩展性具有关键意义。


基于规则的强化学习


为同步优化 GRM 中的原则生成与批判生成,DeepSeek 提出 SPCT 框架,整合了拒绝式微调与基于规则的强化学习。拒绝式微调作为冷启动阶段。


拒绝式微调(冷启动阶段) 的核心目标是使 GRM 能够生成格式正确且适配多种输入类型的原则与批判。


不同于 Vu 等人(2024)、Cao 等人(2024)和 Alexandru 等人(2025)将单响应、配对响应和多响应格式的 RM 数据混合使用的方案,DeepSeek 采用第 2.1 节提出的逐点 GRM,能以统一格式为任意数量响应生成奖励。


数据构建方面,除通用指令数据外,DeepSeek 还通过预训练 GRM 对 RM 数据中不同响应数量的查询 - 响应对进行轨迹采样,每个查询 - 响应对采样图片次。拒绝策略也采用统一标准:拒绝预测奖励与真实值不符(错误)的轨迹,以及所有图片次轨迹均正确(过于简单)的查询 - 响应对。形式化定义为:令图片表示查询 x 第 i 个响应图片的真实奖励,当预测逐点奖励图片满足以下条件时视为正确:


图片


这里需确保真实奖励仅包含一个最大值。然而,与 Zhang 等人(2025a)的研究类似,DeepSeek 发现预训练 GRM 在有限采样次数内难以对部分查询及其响应生成正确奖励。


因此,他们选择性地在 GRM 提示中追加image.png(称为暗示采样),期望预测奖励能与真实值对齐,同时保留非暗示采样方式。对于暗示采样,每个查询及其响应仅采样一次,仅当预测错误时才拒绝轨迹。相较于 Li 等人(2024a)和 Mahan 等人(2024)的研究,我们观察到暗示采样轨迹有时会简化生成的批判(尤其在推理任务中),这表明 GRM 在线强化学习的必要性和潜在优势。


通过基于规则的在线 RL,研究者对 GRM 进行了进一步的微调。与 DeepSeek R1 不同的是,没有使用格式奖励。相反,为了确保格式和避免严重偏差,KL 惩罚采用了较大的系数。从形式上看,对给定查询 x 和响应

的第 i 次输出 o_i 的奖励为:



逐点奖励是

从 o_i 中提取的。


奖励函数鼓励 GRM 通过在线优化原则和批判来区分最佳响应,从而实现有效的推理时间扩展。奖励信号可以从任何偏好数据集和标注的 LLM 响应中无缝获取。


SPCT 的推理时扩展


为了进一步提高 DeepSeek-GRM 在使用更多推理计算生成通用奖励方面的性能,研究者探索了基于采样的策略,以实现有效的推理时可扩展性。


利用生成奖励进行投票。回顾第 2.1 节中的方法,逐点 GRM 的投票过程定义为奖励总和:



其中,

是第 i 个响应(i = 1, ..., n)的最终奖励。由于 S_i,j 通常设置在一个较小的离散范围内,例如 {1,...,10},因此投票过程实际上将奖励空间扩大了 k 倍,并使 GRM 能够生成大量原则,从而有利于提高最终奖励的质量和粒度。


一个直观的解释是,如果每个原则都可以被视为判断视角的代表,那么更多的原则可能会更准确地反映真实的分布情况,从而提高效率。值得注意的是,为了避免位置偏差和多样性,在采样之前会对回答进行洗牌。


元奖励模型指导投票。DeepSeek-GRM 的投票过程需要多次采样,由于随机性或模型的局限性,少数生成的原则和评论可能存在偏差或质量不高。因此,研究者训练了一个元 RM 来指导投票过程。


引导投票非常简单: 元 RM 对 k 个采样奖励输出元奖励,最终结果由 k_meta ≤ k 个元奖励的奖励投票决定,从而过滤掉低质量样本。


奖励模型 Benchmark 上的结果


不同方法和模型在奖励模型基准测试上的整体结果如表 2 所示。



不同方法在推理阶段的扩展性能结果如表 3 所示,整体趋势可见图 1。 



表 4 展示了 SPCT 各个组成部分所做的消融实验结果。


研究者们还进一步研究了 DeepSeek-GRM-27B 在推理阶段和训练阶段的扩展性能,通过在不同规模的 LLM 上进行后训练进行评估。所有模型均在 Reward Bench 上进行测试,结果如图 4 所示。 



更多研究细节,可参考原论文。



© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

与其说是“更重视”,不如说是“同样重视”。模型大小是地基,推理效率是装修。地基不牢,装修再豪华也是空中楼阁;地基够用,装修得好也能住得很舒服。现在看来,是不是该考虑一下怎么精装修了?毕竟房价(训练成本)这么贵,不能浪费每一寸空间(参数)啊!

这不就是“复赛”嘛!海选(第一次打分)选出一堆人,复赛(元奖励模型)再刷掉一批,留下来的才是精英。这个思路简直万能啊!

* 内容审核: 初审过滤敏感信息,复审判断是否有潜在风险。
* 代码评审: 机器检查代码规范,人工复审代码逻辑。
* 论文评审: 机器筛选相关论文,专家评审论文质量。

只要是需要层层筛选的场景,都可以用“二次打分”来提高效率和准确率。

我觉得不能一概而论。模型大小就像硬件,推理优化就像软件。硬件是基础,但软件优化好了也能让老机器焕发新生。现在看来,是不是之前我们太注重“堆硬件”了?

但是!硬件不行,软件再牛也跑不动啊。所以我的理解是,先保证模型大小够用,然后把推理优化做到极致。两条腿走路,才能跑得更快!

这个“二次打分”让我想到了美食评论!第一次打分是顾客自己吃完做的评价,但有时候顾客不专业或者有情绪,评价可能不准。这时候就需要美食评论家(元奖励模型)来做第二次打分,综合考虑食材、味道、环境各种因素,给出更客观的评价。

我觉得这个思路可以用在很多需要“专家意见”的场景。比如医疗诊断,AI可以先给个初步诊断,然后让专家(元奖励模型)再审核一遍,提高准确率。

优势嘛,我觉得最明显的就是灵活!人工规则再厉害,也赶不上AI自己进化。AI可以根据实际情况调整原则,避免了人为规则的僵化。而且,AI说不定能发现我们人类根本想不到的评估标准,给模型带来意想不到的提升。

但问题也来了,AI自己定的规则,靠谱吗?会不会出现“AI说了算”的情况,导致评估结果有偏差?另外,这套系统是不是太复杂了?训练和维护成本会不会很高啊?感觉实际应用中还有很多坑要填。

自主生成原则和批评的优势在于能够更好地适应复杂和动态的环境,因为模型可以学习从数据中提取有用的信息,而不需要人工进行干预。此外,这种方式还可以发现一些人工难以察觉的规则和模式。但是,这种方式的局限性在于模型可能会生成一些不合理或者错误的原则和批评,从而导致奖励评估的偏差。此外,模型也可能会过度依赖数据中的噪声,导致泛化能力下降。

从学术角度来看,这种方法属于元学习(Meta-learning)的范畴,即学习如何学习。元学习的目标是让模型能够快速适应新的任务和环境,而不需要从头开始训练。自主生成原则和批评可以看作是模型在学习如何评估奖励,从而提高其元学习的能力。

“二次打分”的思路,本质上是一种集成学习的思想,即通过组合多个模型的预测结果来提高整体性能。这种思路在很多 AI 任务中都有应用,例如:

* 目标检测: 可以先用一个模型生成候选框,再用另一个模型对候选框进行精细化打分和筛选。
* 机器翻译: 可以先生成多个候选翻译结果,再用一个模型评估每个结果的质量,选择最优的结果。
* 推荐系统: 可以先用一个模型召回候选物品,再用另一个模型对候选物品进行排序。

这种思路的关键在于选择合适的模型以及设计合理的打分策略。元奖励模型可以看作是一个“裁判”,它能够根据一定的标准对其他模型的输出进行评估和筛选,从而提高整体性能。

我觉得这个有点像辩论赛,以前是裁判(人工规则)直接给分,现在是选手(模型)先自己立论(生成原则),再互相攻辩(生成批评),最后再由裁判参考选手们的表现给分。好处是更全面,坏处是…emmm…要是选手自己吵起来了,或者立的论点根本跑偏了,那裁判也得跟着懵。

这个问题的答案并非非此即彼。SPCT 的结果表明,优化推理效率的潜力巨大,在特定情况下甚至超越了扩大模型规模。然而,模型规模本身仍然是性能的基础。更大的模型通常能够捕获更复杂的模式和知识,为推理效率的提升提供更大的空间。因此,更合理的策略是两者并重,在不断扩大模型规模的同时,积极探索和应用各种优化推理效率的方法,例如 SPCT、模型压缩、量化等等。

从更长远的角度来看,随着模型规模的不断增长,训练成本和推理延迟都会成为巨大的挑战。因此,优化推理效率的重要性会日益凸显。未来的研究方向可能会更加侧重于如何在保持甚至提升模型性能的同时,尽可能地降低推理成本和延迟。