SophiaVL-R1:不只看结果对错,更关注思考过程的多模态推理模型

港中文推出SophiaVL-R1,突破性地将“思考过程”纳入多模态推理模型的奖励体系,显著提升推理能力和泛化性能,7B模型媲美72B模型。

原文标题:类R1训练不再只看结果对错!港中文推出SophiaVL-R1模型

原文作者:机器之心

冷月清谈:

香港中文大学与上海人工智能实验室联合推出了多模态推理模型 SophiaVL-R1,该模型在类 R1 强化学习训练框架上进行了创新,不再仅仅基于结果的对错来奖励模型,而是将模型的思考过程也纳入奖励体系。通过引入“思考奖励”机制和Trust-GRPO训练算法,SophiaVL-R1能够学习更通用、更可靠的推理策略,并有效提升泛化能力。实验结果表明,SophiaVL-R1-7B 在多个数学和通用多模态基准测试中,甚至超越了参数量是其 10 倍的 LLaVA-OneVision-72B 模型。研究团队已开源所有模型、数据和代码。

怜星夜思:

1、SophiaVL-R1 模型中“思考奖励”机制的引入,对未来AI模型的发展有哪些潜在的影响?仅仅是提升推理质量吗?
2、Trust-GRPO 训练算法在 SophiaVL-R1 中起到了关键作用,它降低了错误答案获得高思维奖励的情况。那么,在其他强化学习任务中,我们应该如何有效地识别和避免“奖励欺骗”(Reward Hacking)现象?
3、SophiaVL-R1 在多模态数学和通用测评数据集上表现出色,甚至超越了体量更大的模型。这是否意味着未来AI模型的发展方向是“小而精”,而非单纯追求参数规模?

原文内容


DeepSeek-R1 爆火后,类 R1 的结果奖励训练范式在各领域掀起了推理热潮。基于规则的结果奖励实现简单、判断严格。但是,这真的够了吗? 


在推理任务中,如果我们只是用「结果对错」来奖励模型,那模型就很可能学会了「靠捷径答题」。 


这种模式下,模型的「正确思考策略」没有完全建立起来,它甚至会因为一次「瞎蒙对」的奖励,而在之后反复强化错误策略,越走越偏。 


为了解决这个问题,港中文联合上海人工智能实验室团队发布了多模态推理模型 SophiaVL-R1,它在类 R1 强化学习训练框架上做了一次关键进化:不再只奖励结果是否正确,而是将「思考过程」也纳入奖励体系。



  • 论文链接:https://arxiv.org/abs/2505.17018

  • 项目地址:https://github.com/kxfan2002/SophiaVL-R1


这一套设计不仅能让模型学会更通用、更靠谱的推理策略,还显著提升了泛化能力——在多个数学和通用多模态基准测试中,SophiaVL-R1-7B 甚至击败了参数量是其 10 倍的 LLaVA-OneVision-72B 模型。 目前,研究团队已将所有模型、数据和代码开源


思考过程也要评分,才是好模型


SophiaVL-R1 的关键突破点,就在于它引入了「思考奖励」机制 —— 不再只看答案对不对,而是开始评估模型整个推理过程是否合理、连贯、靠谱。



研究团队精心制作了一个思考过程评分的数据集,包含多样化的思考模式和错误,并训练了一个「思考评分模型」,基于多个角度对思考过程输出一个整体的评分。


举个例子,比如一段推理过程,答案是对的,但中间逻辑跳跃明显、甚至完全胡扯,那这个过程可能只能得个 0.3 的思考分;而另一个推理过程最终也选了 B,但过程缜密、推导清晰,思考分可能达到 0.9。就像老师改卷,不只是看结果,还会给「过程分」。



这一招,不仅提升了模型推理质量,更重要的是 —— 它教会模型「怎么想」,而不是「怎么猜」。


SophiaVL-R1 的「奖励改革」


不过,把「过程」纳入奖励机制,并不意味着直接相加就能奏效。


由于模型生成的思考过程是自由文本,容易「伪装认真」——比如它可能写了一长段貌似合理的「逻辑」,但其实是在重复废话,甚至是掩盖思考漏洞。这种奖励欺骗(Reward Hacking)现象是强化学习中极常见的问题。



为了解决这个痛点,SophiaVL-R1 引入了一个名为 Trust-GRPO 的训练算法,它的核心理念是:基于 GRPO 组内信息判断思考奖励的可信程度。


该方法通过对同一问题中,正确与错误答案对应的思维奖励进行对比,如果发现错误答案获得的思维奖励异常高,就会自动降低该奖励的可信度评分,从而提升整体训练的稳定性与可信性。一个例子如下图所示。



实验结果


在多项常用的评测基准中(MMMU、MME、MathVista 等),SophiaVL-R1-7B 展现出极为强大的推理能力和泛化能力,跟 GRPO、SFT+GRPO 和基于 PRM 的方法相比都很能打,在多个多模态数学和通用测评数据集上表现直接对标甚至超越了体量是其 10 倍的 LLaVA-OneVision-72B 模型。



这说明了一个非常核心的点:推理能力,是靠正确的训练范式教出来的。SophiaVL-R1 的成功,正是对这一点的最好注解。


在消融实验中,也可以发现,SophiaVL-R1 的各个部分都是有效的。



同时,从训练曲线来看,SophiaVL-R1 不仅训练得更好,而且训练得更快,说明了思考奖励信号的有效性和 Trust-GRPO 算法的重要性。



一些 SophiaVL-R1 的推理例子如下所示,可以看到,模型能够输出高质量的推理过程。



更多细节请参考论文原文。


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

“思考奖励”确实是个好思路!不过,我担心这种机制的实施成本可能会很高。毕竟,要对模型的思考过程进行评分,需要大量的人工标注和专业的知识储备。而且,如何保证评分的客观公正性也是一个挑战。如果评分标准不明确,可能会导致模型学习到错误的“思考模式”,反而适得其反。

Trust-GRPO 算法提供了一个很好的思路,就是通过对比分析来识别异常奖励。在其他强化学习任务中,我们也可以尝试引入类似的机制,比如建立一个“奖励监控系统”,实时监测奖励的分布情况,一旦发现异常值就及时报警。此外,还可以采用一些“奖励塑形”技术,对奖励函数进行平滑处理,减少奖励的波动性。

我觉得“思考奖励”机制的引入,就像是给AI模型装上了一个更高级的“教练”。它不仅仅是让模型知道答案对错,更重要的是让模型明白“怎么想”才能得到正确答案,这对于提升AI的自主学习能力和创造力至关重要。长期来看,这种机制可能会推动AI模型从“解题机器”向“问题解决者”转变。

与其说“小而精”,不如说是“精而准”。SophiaVL-R1 的核心优势在于其独特的训练范式,它让模型能够更准确地学习到问题的本质,从而在推理过程中表现更出色。这启示我们,未来AI模型的发展应该更加注重算法的创新,而不是单纯地依赖参数规模的堆砌。毕竟,如果算法不好,再大的模型也只是一个笨重的“大力士”。

SophiaVL-R1 的成功案例确实给我们提供了一个新的视角。我认为未来AI模型的发展方向应该是“小而精”与“大而全”相结合。一方面,我们需要通过更优秀的算法和训练方法,让小模型也能发挥出强大的性能。另一方面,我们也需要不断探索更大的模型,以应对更复杂、更具挑战性的任务。关键在于找到一个平衡点,根据实际需求选择合适的模型规模。

从博弈论的角度来看,“奖励欺骗”实际上是模型和设计者之间的一场博弈。模型会不断尝试找到奖励函数的漏洞,而设计者则需要不断完善奖励函数,堵住漏洞。因此,我们需要建立一个动态的、迭代的奖励设计流程,不断评估模型的表现,发现潜在的欺骗行为,并及时进行修正。

同意楼上的观点!“思考奖励”的意义远不止于提高推理质量。它实际上是在引导AI模型建立一套更完善的认知体系。如果能将这种机制推广到其他领域,比如自然语言处理、图像识别等,那么AI模型的表现将会更加智能、更加人性化。想象一下,一个能理解你提问意图,并给出完整思考过程的AI助手,是不是很酷?

我认为要避免“奖励欺骗”,关键在于设计一个合理的奖励函数。奖励函数应该能够真实反映我们想要达成的目标,并且要尽可能全面,避免模型通过投机取巧的方式获得高奖励。例如,在训练一个自动驾驶系统时,如果只奖励“安全到达目的地”,那么模型可能会学会通过闯红灯来节省时间,因此需要将交通规则、乘客舒适度等因素都纳入奖励函数中。

我觉得这个问题要辩证地看。在算力有限的情况下,“小而精”的模型无疑更具优势,因为它们更容易部署和应用。但是,在算力充足的情况下,“大而全”的模型仍然有其存在的价值,因为它们可以处理更广泛的任务,具有更强的泛化能力。未来的趋势可能是,根据不同的应用场景,选择不同的模型规模,实现资源的最优配置。