JustGRPO:化繁为简,提升扩散语言模型推理能力的新策略

研究表明,扩散语言模型采用自回归顺序训练,能够提升推理能力,且不损失并行解码能力。JustGRPO或可有效优化dLLMs。

原文标题:JustGRPO:扩散语言模型的极简主义回归

原文作者:机器之心

冷月清谈:

本文颠覆了扩散语言模型(dLLMs)中“任意顺序生成”优于“自回归(AR)顺序”的传统认知。研究发现,任意顺序生成可能导致模型规避不确定性,收窄推理路径,从而限制了其推理潜力。因此,提出了JustGRPO方法,在RL训练阶段强制模型使用自回归顺序生成,并直接用GRPO进行训练。实验结果表明,JustGRPO显著提升了模型在数学推理和代码生成任务上的性能,同时保留了dLLM的并行解码能力。

具体来说,研究通过Pass@k指标量化了模型解空间的覆盖广度,发现AR顺序在多次采样后能覆盖更广阔的正确解空间。任意顺序生成倾向于跳过逻辑衔接词,导致“熵降级”,限制了模型对多样化推理路径的探索。JustGRPO通过在训练阶段采用AR顺序,迫使模型直面逻辑分叉点的不确定性,从而更有效地激发推理潜能。实验证明,JustGRPO在GSM8K、MATH-500、HumanEval和MBPP等数据集上均超越了现有的dLLM强化学习方法。更令人惊喜的是,JustGRPO训练后的模型在并行解码下表现更佳,表明其学到了更鲁棒的联合分布。这项研究表明,在dLLM的RL训练中,“少即是多”,限制训练时的生成顺序反而能提升模型性能

怜星夜思:

1、文章提到“任意顺序生成”可能导致模型“熵降级”,限制了推理路径。那么,在实际应用中,我们应该如何在“灵活性”和“推理能力”之间找到平衡?除了JustGRPO,还有没有其他可能的解决方案?
2、JustGRPO在训练时强制使用自回归顺序,但在推理时仍然可以利用并行解码的优势。那么,这种“训练时约束,推理时放开”的策略,是否可以推广到其他领域?例如,在图像生成、语音识别等任务中,我们是否也可以采用类似的策略来提升模型性能?
3、文章提到JustGRPO“以一种极简的方式,实现了推理能力的大幅提升”。那么,在AI研究中,“极简主义”是否应该成为一种重要的指导思想?我们应该如何避免过度设计,追求更加简洁有效的解决方案?

原文内容


扩散语言模型(Diffusion LLMs, dLLMs)因支持「任意顺序生成」和并行解码而备受瞩目。直觉上,打破传统自回归(AR)「从左到右」的束缚,理应赋予模型更广阔的解空间,从而在数学、代码等复杂任务上解锁更强的推理潜力。


然而,本研究揭示了一个反直觉的现实:当前的任意顺序生成,反而通过「规避不确定性」收窄了模型的推理边界。


基于此,本文提出了一种回归极简的方法——JustGRPO。实验表明,在 RL 阶段让模型自回归生成,并直接用标准的 GRPO 进行训练,即可超越当前各类针对 dLLM 设计的 RL 算法表现。更重要的是,这种训练方式在提升推理表现的同时,并未牺牲 dLLM 引以为傲的并行解码能力。



    • 论文标题:The Flexibility Trap: Why Arbitrary Order Limits Reasoning Potential in Diffusion Language Models

    • 论文链接:https://huggingface.co/papers/2601.15165

    • 项目主页:https://nzl-thu.github.io/the-flexibility-trap

    • 论文代码:https://github.com/LeapLabTHU/JustGRPO


    「灵活性陷阱」:
    为什么选择多反而考不好?

    为了探究「灵活性是否等同于推理潜力」,本文引入了 Pass@k 作为核心衡量指标。该指标量化了在 k 次采样中至少生成一个正确答案的概率,能够有效反映模型解空间的覆盖广度以及 RL 训练可激发的推理潜力上限(Yue et al., 2025)。


    对比实验涵盖了两种主要的解码模式:


    • 任意顺序(Arbitrary Order)允许模型根据置信度动态选择生成顺序,这是扩散语言模型的标准解码方式。

    • AR 顺序(AR Order)约束模型遵循传统 LLM 从左到右的生成顺序。


    实验结果揭示了一个值得深思的趋势:虽然任意顺序在 k=1 时表现尚可,但随着采样次数 k 的增加,AR 顺序的 Pass@k 曲线不仅攀升速率更快,且最终达到的上限显著更高。这表明,在涉及复杂推理时,AR 顺序实际上可帮助模型覆盖更广阔的正确解空间。


    图:限制 dLLM 使用标准的 AR 顺序,反而比灵活的任意顺序拥有更高的推理上限。


    熵坍塌现象

    为何看似受限的 AR 顺序反而更具潜力?这与两种顺序如何处理不确定性有关。


    在自回归模式下,模型被迫直面第一个未知 Token;而在任意顺序模式下,模型则有跳过(bypass)当前不确定 Token、优先填充后续更确定的内容的「特权」。统计显示,被频繁跳过的往往是诸如「Therefore、「Thus、「To等逻辑衔接词(下图左):


    图左:任意顺序下,模型倾向于跳过不确定token而先填后续token,且这些被跳过的token往往是一些逻辑衔接词;图右:这些逻辑衔接词解码时的entropy显著低于自回归顺序(虚线代表average token entropy)。以上结果为LLaDA-Instruct在MATH-500数据集的结果。


    已有工作(Wang et al., 2025)表明,这些逻辑衔接词往往起到通往不同推理路径的功能,且将这些词保持高熵状态对模型探索丰富的解空间至关重要。而在任意顺序下,这些衔接词被解码时的熵(Entropy)显著低于自回归顺序(上图右)。


    我们将这种现象称为「熵降级」(Entropy Degradation)。形象地说,模型利用了任意顺序的灵活性进行了一种「局部贪婪优化」:它跳过了艰难的推理决策点,试图通过先生成后续上下文来「凑」出逻辑连接。虽然这在单次生成中可能有效,但却牺牲了对多样化推理路径的有效探索。


    图:任意顺序生成倾向于绕过高熵的逻辑连接词,导致解空间过早坍缩。


    返璞归真:
    JustGRPO

    既然「任意顺序」反而可能限制推理路径的探索,本文提出了一种回归极简的方法——JustGRPO。不同于现有 RL 算法,JustGRPO 不再试图用各种近似处理以显式保留任意顺序特性,而是选择了一条更为彻底的路径:


    在 RL 训练阶段,直接摒弃对任意顺序的执念,强制扩散语言模型采用自回归(AR)顺序生成。这样不仅保持了更广阔的推理路径,同时也让我们得以直接复用成熟的 GRPO 算法进行优化。这种「生成轨迹的确定性」也自然使得强化学习时的信用分配(Credit Assignment)更加清晰,有助于模型更有效地学习鲁棒的联合分布。


    值得一提的是:「训练时的约束」≠「推理时的退化」


    自回归的约束仅存在于训练阶段。它的目的是为了让模型更有效地进行 RL 阶段的探索与信用分配,模型本身的双向注意力机制并未被破坏。一旦训练完成,我们依然可以在推理阶段无损地应用并行解码,在享受 AR 训练带来的更优推理表现的同时,保留扩散模型引以为傲的生成速度。


    实验结果:
    简单,但极其有效

    性能大幅提升

    在数学推理和代码生成这两类通用的推理任务上,JustGRPO 均有优秀的表现:


    • 数学推理在 GSM8K 和 MATH-500 上,模型展现了极高的推理上限,准确率最高分别可达 89.8% 和 45.2%,相比之前的最佳方法(SPG)显著提升。


    • 代码生成在 HumanEval 与 MBPP 数据集上,准确率分别达到 49.4% 和 52.4%。


    表:JustGRPO在多个基准测试中超越了现有的 dLLM 强化学习方法,基座模型:LLaDA-Instruct。注:LLaDA-1.5使用了大规模私有数据集训练、LLaDOU在训练中引入了额外模块,因此未列入对比。


    并行能力不仅没丢,还更强了

    一个可能的担忧是:用 AR 方式训练是否会让 dLLM 退化,失去其并行优势?实验结果恰恰相反。使用现成的 training-free 并行采样器(Ben-Hamu et al., 2025),JustGRPO 训练后的模型在并行解码下表现更佳。例如在 MBPP 数据集上,当每步并行解码 5 个 Token 时,JustGRPO 相比基座模型(LLaDA-Instruct)的准确率优势从单步的 10.6% 扩大到了 25.5%


    这表明训练后的模型学到了更鲁棒的联合分布,使其更能适应并行采样过程中的近似误差。


    图:JustGRPO 训练后的模型在并行解码时表现出更好的速度-精度权衡。


    结语:
    少即是多

    这篇工作挑战了该领域的一个普遍假设,即「必须在 RL 中保留任意顺序灵活性」。事实证明,通过限制训练时的生成顺序,迫使模型直面逻辑分叉点的高不确定性,反而能更有效地激发 dLLMs 的推理潜能。


    JustGRPO 以一种极简的方式,实现了推理能力的大幅提升,同时未牺牲扩散模型标志性的推理速度。也希望借此工作启发社区重新审视「任意顺序生成」在通用推理任务中的真实价值。

    © THE END 

    转载请联系本公众号获得授权

    投稿或寻求报道:liyazhou@jiqizhixin.com

    我觉得还可以借鉴人类解决问题的思路。当遇到难题时,我们有时会先尝试从不同的角度入手,或者先解决一些简单的部分,再回头攻克难点。对应到模型上,可以尝试让模型先生成多个可能的解,然后通过某种评价机制,选出最合理的那个。这样既能保证效率,又能提高准确性。

    个人认为JustGRPO的思路具有一定的普适性,即通过在训练阶段施加一定的约束,引导模型探索更广阔的解空间,从而提高推理能力。但是,具体到不同的任务,可能需要对约束的方式进行调整。例如,在常识推理任务中,可以尝试引入一些常识知识作为约束条件,引导模型进行更合理的推理。

    我理解的极简主义不是单纯的减少参数,而是要抓住主要矛盾,避免在不重要的细节上浪费精力。就像是画画,高手寥寥几笔就能勾勒出神韵,而新手则会抠细节抠到天荒地老。AI研究也是一样,我们要找到影响模型性能的关键因素,然后集中精力解决这些问题。JustGRPO之所以能成功,就是因为它抓住了“熵降级”这个主要矛盾。

    我觉得这个思路很有启发性!这就像是武术中的“桩功”,平时练功的时候必须一步一个脚印,扎扎实实地打好基础,但在实战中就可以灵活运用各种招式了。JustGRPO就是让模型先通过“桩功”式的训练,掌握扎实的推理能力,然后在推理时就可以自由发挥了。

    图像生成和语音识别领域应该也可以借鉴这种思想。比如,在图像生成中,可以先让模型学习图像的结构和纹理特征,然后再放开让它自由生成各种风格的图像。在语音识别中,可以先让模型学习语音的音素和语法规则,然后再让它识别各种口音和语速的语音。

    个人觉得这个策略的核心在于,训练的时候要让模型学到“本质”的东西,而不是被一些表面的“技巧”迷惑。就像是学数学,你要先理解公式背后的原理,而不是死记硬背公式。JustGRPO就是让模型在训练的时候专注于学习推理的本质,而不是被任意顺序生成中的一些trick所迷惑。这种思想在很多领域都适用,只要我们能找到那个“本质”的东西。

    “训练时约束,推理时放开”的策略,本质上是在模型的学习过程中引入一种正则化效应。在训练阶段,通过施加约束,可以限制模型的解空间,使其更容易学习到泛化能力强的特征。而在推理阶段,解除约束,则可以充分发挥模型的灵活性。这种策略在很多领域都有应用潜力。

    例如,在图像生成中,可以先约束模型生成符合特定语义布局的图像,然后再放开约束,让模型生成更加多样化的图像。在语音识别中,可以先约束模型识别清晰的语音,然后再放开约束,让模型识别嘈杂环境下的语音。关键在于找到合适的约束条件以及合适的放开策略。

    当然应该!这就像是写代码,好的代码一定是简洁易懂的。AI研究也是一样,与其追求花里胡哨的trick,不如回归问题的本质,寻找最简洁有效的解决方案。JustGRPO就是一个很好的例子,它没有搞一大堆复杂的算法,而是通过简单的约束,就实现了性能的大幅提升。这告诉我们,有时候“少即是多”。

    可以参考人类解决问题的方式。比如,下围棋的时候,高手也会先通盘考虑,而不是一上来就盯着眼前的局部利益。所以,我觉得可以给模型引入一些“全局”信息,让它在做决策的时候不仅仅考虑当前token的置信度,还要考虑整个推理过程的合理性。这可能需要更复杂的模型结构和训练方法,但我觉得是值得探索的方向。

    这个问题很有意思!从信息论的角度来看,熵代表了系统的不确定性或信息量。文章中提到的“熵降级”意味着模型在推理过程中过早地丧失了探索不同路径的可能性。个人认为,平衡灵活性和推理能力的关键在于,如何在保证模型能够探索足够多的解空间的同时,避免其陷入局部最优解。

    除了JustGRPO,可以考虑以下方法:1. 增加探索机制: 例如,在任意顺序生成过程中引入随机性,鼓励模型探索不同的生成顺序。2. 强化逻辑一致性: 通过引入额外的损失函数,惩罚那些违反逻辑规则的生成结果。3. 多模型融合: 将AR顺序和任意顺序生成的模型进行融合,利用各自的优势。

    总之,解决这个问题需要综合考虑模型架构、训练方法和损失函数等多个方面。

    “极简主义”在AI研究中应该成为一种重要的指导思想。过度设计容易导致模型过于复杂,难以训练和部署,且容易出现过拟合问题。追求简洁有效的解决方案,不仅可以降低模型的复杂性,还可以提高模型的可解释性和鲁棒性。

    为了避免过度设计,可以从以下几个方面入手:1. 深入理解问题: 在设计模型之前,充分理解问题的本质,避免盲目套用复杂的算法。2. 最小化模型复杂度: 尽量使用简单的模型结构和算法。3. 充分利用现有资源: 避免重复造轮子,充分利用已有的开源工具和库。4. 持续迭代优化: 通过实验不断验证和优化模型,及时发现和解决问题。