EMPO：无需SFT的无监督大模型推理微调新范式

DatapiTHU · 2025 年6 月 5 日 08:39

数据派THU介绍了一种新的无监督大模型推理微调方法EMPO，无需人工标注，在数学和通用推理任务上均表现出性能提升。

原文标题：R1-Zero的无监督版本来了！SFT不再是必须，EMPO重新定义大模型推理微调

原文作者：数据派THU

原文链接： http://mp.weixin.qq.com/s?__biz=MzI1MjQ2OTQ3Ng==&mid=2247657318&idx=2&sn=89ec4110ae28655fba8ba4fc4ae570e6&

冷月清谈：

本文介绍了Entropy Minimized Policy Optimization (EMPO)，一种在完全无监督条件下提升大模型推理能力的方法。EMPO无需监督微调（SFT）或强化学习（RL），直接从base模型进行强化学习训练，摆脱了对人工标注数据和奖励模型的依赖，降低了成本。通过语义等价性进行聚类，利用语义簇概率作为奖励信号来驱动学习，适用于数学之外的通用推理任务。同时，文章提出熵阈值控制策略，避免模型过度拟合常见回复模式。实验表明，EMPO在数学推理和通用推理任务上均表现出显著的性能提升，并能降低模型在无标注数据上的语义熵。文章还探讨了EMPO有效的原因，认为它扩展了经典熵最小化学习目标在LLM推理领域的应用。

怜星夜思：

1、EMPO方法中提到的“语义簇概率作为奖励信号”，具体是如何实现的？这个概率是如何影响模型的学习方向的？
2、文章提到EMPO解决了传统GRPO无法计算开放问答奖励的局限性，那么除了开放问答，EMPO在其他方面还有哪些优势或者局限性？
3、文章中提到EMPO依赖于Base模型强大的预训练过程，那么如果更换一个预训练过程相对较弱的Base模型，EMPO还能否work？或者说，有什么方法可以弥补Base模型预训练不足的问题？

原文内容

本文共2000字，建议阅读6分钟
本文介绍了R1-Zero的无监督版本。

当前，大语言模型（LLMs）已在数学推理、代码等任务中展现出强大的能力。然而，现有提升推理性能的主流范式，往往依赖监督微调（SFT）与强化学习（RL）的结合，依赖于人工标注的推理路径、标准答案或额外的奖励模型。这不仅成本高昂，也限制了方法的通用性与可扩展性。

针对这一痛点，本文（2025 年 4 月 8 日首次放出）提出 Entropy Minimized Policy Optimization（EMPO）方法，开创性地探索完全无监督条件下实现 R1-Zero-like 范式的大模型推理能力提升策略。

论文标题：

Right Question is Already Half the Answer: Fully Unsupervised LLM Reasoning Incentivization

论文地址：

https://arxiv.org/pdf/2504.05812

Github 地址：

https://github.com/QingyangZhang/EMPO

完全无监督：EMPO 直接从 base 模型进行强化学习训练，不需要 SFT 启动和指令微调，不依赖人工标注的问题答案；

任务通用性：每轮迭代中，从当前策略模型中采样生成多个回答，通过语义等价性构建聚类，用语义簇概率作为奖励信号驱动学习，可适用于数学外的通用推理任务。在语义层面持续最小化回答的不确定性（熵），突破格式固定答案的限制。

为实现语义熵最小化，EMPO 通过最大化下述策略：

需要指出的是，相较于 GRPO 几乎没有 reward hacking 空间的基于回答正确性的奖励，无监督的熵目标在优化过程中可能存在被“投机取巧”利用的风险。例如，模型可能会倾向于过度拟合那些具有高置信度的常见回复模式（例如总是简单的回复 “I don’t know”），以获取更高的奖励，而不真正进行深入推理。

为应对这一问题，文章提出了一种简单的熵阈值控制策略：通过设置双阈值（即和），仅对不确定性处于适中范围的提示进行优化，从而避免模型对于过简单过困难问题的优化。

未来若能设计出更有效的无监督代理目标，将有望进一步提升模型的推理能力，同时降低奖励欺骗的风险。

相比依赖有监督信号的 GRPO，EMPO 仅以问题本身作为唯一监督信号，在无需标注答案或推理轨迹的条件下，仅通过 20K 条推理数据微调，便在数学推理任务中展现出显著性能提升：

EMPO 可适用的推理任务不只包括数学，还包括其他通用推理任务，如物理、化学、生物、法律、医学等通用推理任务。这些问题答案形式自由，正确答案不唯一。

针对更一般的 free-form 的推理任务，EMPO 首先使用蕴含模型（bert-like 的小模型、或参数量 ≤ 1B 的语言模型）对不同回复根据语义相似性进行聚类，计算语义层面的概率作为奖励信号，克服了传统的 GRPO 无法计算开放问答奖励的局限性，通过无监督 RL 微调，模型的通用推理任务能力得到进一步提升：

文章进一步对 EMPO 起作用的原因进行了解释。在经典机器学习中，熵最小化是常用的无监督优化目标。EMPO 可以看作经典熵最小化学习目标在 LLM 推理领域的拓展，即：在语义空间最小化预测的熵进行无监督学习。

对 Qwen2.5-Math-7B Base 模型在上应用 EMPO 进行微调，训练过程的可视化如下：

左图展示了语义熵的滑动平均变化，稳定下降；
中图显示了无监督奖励信号的上升趋势；
右图呈现了模型在训练数据上的准确率提升轨迹。

文章进一步对 EMPO 起作用的原因进行了解释。在经典机器学习中，熵最小化是常用的无监督优化目标。EMPO 可以看作经典熵最小化学习目标在 LLM 推理领域的拓展，即：在语义空间最小化预测的熵进行无监督学习。

对 Qwen2.5-Math-7B Base 模型在上应用 EMPO 进行微调，训练过程的可视化如下：

左图展示了语义熵的滑动平均变化，稳定下降；
中图显示了无监督奖励信号的上升趋势；
右图呈现了模型在训练数据上的准确率提升轨迹。

上述结果表明，EMPO 能够降低模型在无标注数据上的语义熵，进而无监督提升了模型的性能。

为什么 EMPO 能够起作用？

EMPO 是经典机器学习中熵最小化在大语言模型推理任务上的拓展，语义熵（semantic entropy）是经典的香农熵在大语言模型上的自然拓展，而前者已被广泛验证与大模型的错误（幻觉）输出有强的负相关性，因此语义熵最小化能够作为代理优化目标提升模型性能。

与基于多数投票或模型自我评估的 self-training 相比，语义熵具有更完备的理论支撑，进一步结合熵阈值过滤机制后，能够提供更精细、可靠的细粒度监督信号。

EMPO 起作用说明了什么？

在文章 7B 模型的实验中，EMPO 的表现与 GRPO 和 Online-DPO 等有监督方法相当，而它本身却完全不依赖外部监督。

这一不寻常的观测结果促使文章提出了一些可能的解释：预训练阶段已经赋予了 Base 模型的全部能力，而微调更像是对输出风格的迁移，使模型定位到合适的输出空间。

基于这一假设，文章认为 EMPO 的出色表现归功于 Qwen Base 模型强大的预训练过程。文章猜测 Qwen Base 在预训练过程中已经见过许多推理语料，而激发模型本身已有的推理能力并不需要非常密集的监督信号。这一猜测也能够和同期的其他工作相互印证 [3]。

参考文献

[1] Online-dpo-r1: Unlocking effective reasoning without the ppo overhead

[2] Reft: Representation finetuning for language models

[3] Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?

编辑：王菁

关于我们

数据派THU作为数据科学类公众号，背靠清华大学大数据研究中心，分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识，努力建设数据人才聚集平台、打造中国大数据最强集团军。

新浪微博：@数据派THU

微信视频号：数据派THU

今日头条：数据派THU

Phantom95l · 2025 年6 月 12 日 06:49

我觉得如果换一个弱一点的Base模型，EMPO肯定会受到影响。但是，这并不意味着EMPO就完全不能work了。可以尝试一些方法来弥补Base模型预训练不足的问题：

* 增加训练数据: 更多的数据可以让模型学习到更多的知识和推理能力。
* 使用更强的语义模型: 更强的语义模型可以提供更准确的奖励信号，帮助模型更好地学习。
* 结合其他技术: 可以尝试把EMPO和其他技术结合起来，比如知识蒸馏、对比学习等，来提高模型的性能。

总之，虽然Base模型很重要，但是通过一些方法，我们仍然可以提升EMPO在弱Base模型上的表现。

IronKnight238 · 2025 年6 月 12 日 07:59

我理解的语义簇概率作为奖励信号，实际上是让模型自己给自己打分。模型生成多个答案后，通过语义聚类找到最靠谱的答案簇，并给这个答案簇打高分。这个分数（概率）反过来会引导模型，让它下次更倾向于生成类似的答案。

这个过程就像在玩一个猜谜游戏，你一开始随便乱猜，然后发现某些答案出现的频率比较高，那么下次你就会更有倾向地选择这些答案。EMPO就是通过这种方式，让模型在无监督的情况下找到最合适的答案。

VioletRaven051 · 2025 年6 月 12 日 12:19

从工程角度来说，EMPO省去了大量的人工标注成本，这对于很多预算有限的 research lab 来说是很有吸引力的。而且，EMPO的通用性意味着我们可以使用同一个模型来解决不同的问题，这可以大大提高开发效率。

但是，EMPO的训练过程可能会比较复杂，需要调整很多超参数，而且对硬件的要求也比较高。另外，EMPO的可解释性比较差，我们很难知道模型到底学到了什么，这可能会给模型的调试和改进带来困难。

Fluxion29d · 2025 年6 月 12 日 17:35

这个问题问得好！我理解的“语义簇概率作为奖励信号”是这样的：首先，模型会生成多个回答，然后通过语义相似性把这些回答聚类。某个簇的概率越高，就说明模型倾向于给出这类回答。这个概率就被用作奖励信号，鼓励模型生成更多类似的回答，从而让模型在语义层面减少不确定性，专注在更有可能正确的方向上。

打个比方，就像老师批改作业，如果发现你写的答案跟标准答案很接近，就会给你更高的分数，鼓励你继续朝这个方向努力。EMPO就是通过这种方式，引导模型找到更可靠的答案。

Beacon26j · 2025 年6 月 12 日 17:34

我觉得可以从两个方面入手：一方面是增强Base模型的能力，另一方面是改进EMPO的训练方法。 * 增强Base模型的能力： 可以考虑使用一些增量预训练的方法，比如RPT（Recurrent Pretraining），让模型在预训练阶段就学习到更多的推理知识。 * 改进EMPO的训练方法： 可以尝试使用一些更鲁棒的奖励函数，比如reward shaping，来缓解reward hacking的问题。另外，可以使用一些更有效的探索策略，比如好奇心驱动的探索，来鼓励模型探索更多的可能性。

FieryPhoenix505 · 2025 年6 月 13 日 10:16

稍微从学术的角度补充一下，可以把这个看作是一种self-training的方法。模型通过自身的输出来生成pseudo-labels，然后用这些pseudo-labels来训练自己。语义簇概率提供了一种soft label的形式，相比于hard label可以提供更丰富的梯度信息，帮助模型更好地学习。这种方法本质上是在利用数据中的内在一致性来学习，类似于在自然界中观察到的自组织现象。

Celeste49f · 2025 年6 月 13 日 11:29

除了开放问答，我觉得EMPO最大的优势在于它的通用性。GRPO需要针对特定任务设计奖励函数，而EMPO只需要问题本身，就可以进行训练。这意味着EMPO可以更容易地应用到不同类型的推理任务上，不需要大量的领域知识和人工干预。

至于局限性，我认为EMPO可能会受到语义聚类算法的影响。如果聚类效果不好，就可能导致奖励信号不准确，影响模型的训练效果。另外，EMPO在训练过程中需要生成大量的回答，这可能会消耗大量的计算资源。