EMPO:无需SFT的无监督大模型推理微调新范式

数据派THU介绍了一种新的无监督大模型推理微调方法EMPO,无需人工标注,在数学和通用推理任务上均表现出性能提升。

原文标题:R1-Zero的无监督版本来了!SFT不再是必须,EMPO重新定义大模型推理微调

原文作者:数据派THU

冷月清谈:

本文介绍了Entropy Minimized Policy Optimization (EMPO),一种在完全无监督条件下提升大模型推理能力的方法。EMPO无需监督微调(SFT)或强化学习(RL),直接从base模型进行强化学习训练,摆脱了对人工标注数据和奖励模型的依赖,降低了成本。通过语义等价性进行聚类,利用语义簇概率作为奖励信号来驱动学习,适用于数学之外的通用推理任务。同时,文章提出熵阈值控制策略,避免模型过度拟合常见回复模式。实验表明,EMPO在数学推理和通用推理任务上均表现出显著的性能提升,并能降低模型在无标注数据上的语义熵。文章还探讨了EMPO有效的原因,认为它扩展了经典熵最小化学习目标在LLM推理领域的应用。

怜星夜思:

1、EMPO方法中提到的“语义簇概率作为奖励信号”,具体是如何实现的?这个概率是如何影响模型的学习方向的?
2、文章提到EMPO解决了传统GRPO无法计算开放问答奖励的局限性,那么除了开放问答,EMPO在其他方面还有哪些优势或者局限性?
3、文章中提到EMPO依赖于Base模型强大的预训练过程,那么如果更换一个预训练过程相对较弱的Base模型,EMPO还能否work?或者说,有什么方法可以弥补Base模型预训练不足的问题?

原文内容

本文共2000字,建议阅读6分钟

本文介绍了R1-Zero的无监督版本。


当前,大语言模型(LLMs)已在数学推理、代码等任务中展现出强大的能力。然而,现有提升推理性能的主流范式,往往依赖监督微调(SFT)与强化学习(RL)的结合,依赖于人工标注的推理路径、标准答案或额外的奖励模型。这不仅成本高昂,也限制了方法的通用性与可扩展性。 


针对这一痛点,本文(2025 年 4 月 8 日首次放出)提出 Entropy Minimized Policy Optimization(EMPO)方法,开创性地探索完全无监督条件下实现 R1-Zero-like 范式的大模型推理能力提升策略。



论文标题:

Right Question is Already Half the Answer: Fully Unsupervised LLM Reasoning Incentivization

论文地址:

https://arxiv.org/pdf/2504.05812

Github 地址:

https://github.com/QingyangZhang/EMPO


完全无监督:EMPO 直接从 base 模型进行强化学习训练,不需要 SFT 启动和指令微调, 不依赖人工标注的问题答案;


任务通用性:每轮迭代中,从当前策略模型中采样生成多个回答,通过语义等价性构建聚类,用语义簇概率作为奖励信号驱动学习,可适用于数学外的通用推理任务。在语义层面持续最小化回答的不确定性(熵),突破格式固定答案的限制。


为实现语义熵最小化,EMPO 通过最大化下述策略:


需要指出的是,相较于 GRPO 几乎没有 reward hacking 空间的基于回答正确性的奖励,无监督的熵目标在优化过程中可能存在被“投机取巧”利用的风险。例如,模型可能会倾向于过度拟合那些具有高置信度的常见回复模式(例如总是简单的回复 “I don’t know”),以获取更高的奖励,而不真正进行深入推理。


为应对这一问题,文章提出了一种简单的熵阈值控制策略:通过设置双阈值(即   和  ),仅对不确定性处于适中范围的提示进行优化,从而避免模型对于过简单过困难问题的优化。


未来若能设计出更有效的无监督代理目标,将有望进一步提升模型的推理能力,同时降低奖励欺骗的风险。


相比依赖有监督信号的 GRPO,EMPO 仅以问题本身作为唯一监督信号,在无需标注答案或推理轨迹的条件下,仅通过 20K 条推理数据微调,便在数学推理任务中展现出显著性能提升:

EMPO 可适用的推理任务不只包括数学,还包括其他通用推理任务,如物理、化学、生物、法律、医学等通用推理任务。这些问题答案形式自由,正确答案不唯一。


针对更一般的 free-form 的推理任务,EMPO 首先使用蕴含模型(bert-like 的小模型、或参数量 ≤ 1B 的语言模型)对不同回复根据语义相似性进行聚类,计算语义层面的概率作为奖励信号,克服了传统的 GRPO 无法计算开放问答奖励的局限性,通过无监督 RL 微调,模型的通用推理任务能力得到进一步提升:

文章进一步对 EMPO 起作用的原因进行了解释。在经典机器学习中,熵最小化是常用的无监督优化目标。EMPO 可以看作经典熵最小化学习目标在 LLM 推理领域的拓展,即:在语义空间最小化预测的熵进行无监督学习。


对 Qwen2.5-Math-7B Base 模型在上应用 EMPO 进行微调,训练过程的可视化如下:


  • 左图展示了语义熵的滑动平均变化,稳定下降;

  • 中图显示了无监督奖励信号的上升趋势;

  • 右图呈现了模型在训练数据上的准确率提升轨迹。


文章进一步对 EMPO 起作用的原因进行了解释。在经典机器学习中,熵最小化是常用的无监督优化目标。EMPO 可以看作经典熵最小化学习目标在 LLM 推理领域的拓展,即:在语义空间最小化预测的熵进行无监督学习。


对 Qwen2.5-Math-7B Base 模型在上应用 EMPO 进行微调,训练过程的可视化如下:

  • 左图展示了语义熵的滑动平均变化,稳定下降;

  • 中图显示了无监督奖励信号的上升趋势;

  • 右图呈现了模型在训练数据上的准确率提升轨迹。

上述结果表明,EMPO 能够降低模型在无标注数据上的语义熵,进而无监督提升了模型的性能。


为什么 EMPO 能够起作用?


EMPO 是经典机器学习中熵最小化在大语言模型推理任务上的拓展,语义熵(semantic entropy)是经典的香农熵在大语言模型上的自然拓展,而前者已被广泛验证与大模型的错误(幻觉)输出有强的负相关性,因此语义熵最小化能够作为代理优化目标提升模型性能。


与基于多数投票或模型自我评估的 self-training 相比,语义熵具有更完备的理论支撑,进一步结合熵阈值过滤机制后,能够提供更精细、可靠的细粒度监督信号。


EMPO 起作用说明了什么?


在文章 7B 模型的实验中,EMPO 的表现与 GRPO 和 Online-DPO 等有监督方法相当,而它本身却完全不依赖外部监督。


这一不寻常的观测结果促使文章提出了一些可能的解释:预训练阶段已经赋予了 Base 模型的全部能力,而微调更像是对输出风格的迁移,使模型定位到合适的输出空间。


基于这一假设,文章认为 EMPO 的出色表现归功于 Qwen Base 模型强大的预训练过程。文章猜测 Qwen Base 在预训练过程中已经见过许多推理语料,而激发模型本身已有的推理能力并不需要非常密集的监督信号。这一猜测也能够和同期的其他工作相互印证 [3]。


参考文献


[1] Online-dpo-r1: Unlocking effective reasoning without the ppo overhead

[2] Reft: Representation finetuning for language models

[3] Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?


编辑:王菁



关于我们

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。




新浪微博:@数据派THU

微信视频号:数据派THU

今日头条:数据派THU

我觉得如果换一个弱一点的Base模型,EMPO肯定会受到影响。但是,这并不意味着EMPO就完全不能work了。可以尝试一些方法来弥补Base模型预训练不足的问题:

* 增加训练数据: 更多的数据可以让模型学习到更多的知识和推理能力。
* 使用更强的语义模型: 更强的语义模型可以提供更准确的奖励信号,帮助模型更好地学习。
* 结合其他技术: 可以尝试把EMPO和其他技术结合起来,比如知识蒸馏、对比学习等,来提高模型的性能。

总之,虽然Base模型很重要,但是通过一些方法,我们仍然可以提升EMPO在弱Base模型上的表现。

我理解的语义簇概率作为奖励信号,实际上是让模型自己给自己打分。模型生成多个答案后,通过语义聚类找到最靠谱的答案簇,并给这个答案簇打高分。这个分数(概率)反过来会引导模型,让它下次更倾向于生成类似的答案。

这个过程就像在玩一个猜谜游戏,你一开始随便乱猜,然后发现某些答案出现的频率比较高,那么下次你就会更有倾向地选择这些答案。EMPO就是通过这种方式,让模型在无监督的情况下找到最合适的答案。

从工程角度来说,EMPO省去了大量的人工标注成本,这对于很多预算有限的 research lab 来说是很有吸引力的。而且,EMPO的通用性意味着我们可以使用同一个模型来解决不同的问题,这可以大大提高开发效率。

但是,EMPO的训练过程可能会比较复杂,需要调整很多超参数,而且对硬件的要求也比较高。另外,EMPO的可解释性比较差,我们很难知道模型到底学到了什么,这可能会给模型的调试和改进带来困难。

这个问题问得好!我理解的“语义簇概率作为奖励信号”是这样的:首先,模型会生成多个回答,然后通过语义相似性把这些回答聚类。某个簇的概率越高,就说明模型倾向于给出这类回答。这个概率就被用作奖励信号,鼓励模型生成更多类似的回答,从而让模型在语义层面减少不确定性,专注在更有可能正确的方向上。

打个比方,就像老师批改作业,如果发现你写的答案跟标准答案很接近,就会给你更高的分数,鼓励你继续朝这个方向努力。EMPO就是通过这种方式,引导模型找到更可靠的答案。

我觉得可以从两个方面入手:一方面是增强Base模型的能力,另一方面是改进EMPO的训练方法。 * 增强Base模型的能力: 可以考虑使用一些增量预训练的方法,比如RPT(Recurrent Pretraining),让模型在预训练阶段就学习到更多的推理知识。 * 改进EMPO的训练方法: 可以尝试使用一些更鲁棒的奖励函数,比如reward shaping,来缓解reward hacking的问题。另外,可以使用一些更有效的探索策略,比如好奇心驱动的探索,来鼓励模型探索更多的可能性。

稍微从学术的角度补充一下,可以把这个看作是一种self-training的方法。模型通过自身的输出来生成pseudo-labels,然后用这些pseudo-labels来训练自己。语义簇概率提供了一种soft label的形式,相比于hard label可以提供更丰富的梯度信息,帮助模型更好地学习。这种方法本质上是在利用数据中的内在一致性来学习,类似于在自然界中观察到的自组织现象。

除了开放问答,我觉得EMPO最大的优势在于它的通用性。GRPO需要针对特定任务设计奖励函数,而EMPO只需要问题本身,就可以进行训练。这意味着EMPO可以更容易地应用到不同类型的推理任务上,不需要大量的领域知识和人工干预。

至于局限性,我认为EMPO可能会受到语义聚类算法的影响。如果聚类效果不好,就可能导致奖励信号不准确,影响模型的训练效果。另外,EMPO在训练过程中需要生成大量的回答,这可能会消耗大量的计算资源。