LLaDA 1.5:利用方差缩减偏好优化提升扩散语言模型能力

LLaDA 1.5通过方差缩减偏好优化VRPO,显著提升了扩散语言模型在数学、代码和对齐任务上的性能,为扩散模型对齐提供了新思路。

原文标题:扩散语言模型扛把子LLaDA迎来新版本,数学、代码、对齐能力均提升

原文作者:机器之心

冷月清谈:

中国人民大学高瓴人工智能学院和蚂蚁集团联合推出了LLaDA 1.5,这是对前期发布的扩散语言模型LLaDA的升级版本。该版本专注于扩散语言模型的偏好对齐,提出了方差缩减的偏好优化方法VRPO,并利用VRPO对LLaDA进行强化对齐。实验结果表明,LLaDA 1.5在数学、代码生成和对齐任务上均取得了显著提升。研究重点在于解决扩散语言模型在强化对齐时遇到的问题,通过降低DPO损失的方差,实现了更稳定的训练过程。提出的方差缩减策略包括提高蒙特卡洛估计的采样预算、优化采样预算分配和采用对偶采样策略。VRPO为扩散语言模型的强化对齐提供了一个统一的框架,并具有推广到其他ELBO估算或强化对齐算法的潜力。

怜星夜思:

1、LLaDA 1.5 在数学和代码能力上都得到了提升,你觉得扩散模型在哪些特定领域会比传统的自回归模型更有优势?
2、文章中提到了方差缩减的偏好优化方法VRPO,这个方法的核心思想是什么?你认为这个思路还可以应用到哪些其他的大模型训练场景中?
3、LLaDA 1.5 更加注重指令遵循能力,你认为指令遵循对于大语言模型来说重要吗?如果让你来设计一个评判模型指令遵循能力的测试集,你会包含哪些类型的指令?

原文内容


本文介绍的工作由中国人民大学高瓴人工智能学院李崇轩、文继荣教授团队与蚂蚁集团共同完成。朱峰琪、王榕甄、聂燊是中国人民大学高瓴人工智能学院的博士生,导师为李崇轩副教授。


该研究基于团队前期发布的 8B 扩散语言模型 LLaDA(国内率先做到真正可用的扩散语言模型,是后续很多研究的主干基础模型),探索了扩散语言模型的偏好对齐方法,提出了方差缩减的偏好优化方法 VRPO,并利用 VRPO 对 LLaDA 进行了强化对齐,推出了 LLaDA 1.5。与 LLaDA 相比,LLaDA 1.5 在数学、代码和对齐任务上取得了一致性的提升。同时,VRPO 为后续扩散语言模型的对齐提供了统一的框架。


近期,扩散语言模型受到广泛关注,催生了一系列针对该领域的探索性研究,随着 Gemini Diffusion 的发布,这一趋势进一步加速。


然而,现有的大型扩散语言模型多采用「预训练 + 有监督微调」的范式,针对扩散语言模型的强化对齐进行深入研究的工作较为有限。


强化对齐对于大语言模型的指令遵循和通用任务能力至关重要。研究团队以直接偏好优化(DPO)为切入点,剖析了扩散语言模型在强化对齐时面临的关键问题,提出了方差缩减的偏好优化方法,使扩散语言模型能够实现稳定的强化对齐训练,这一原则也为后续扩散语言模型的对齐工作提供了理论基础和实践指南。



  • 论文标题:LLaDA 1.5: Variance-Reduced Preference Optimization for Large Language Diffusion Models

  • 论文链接:https://arxiv.org/abs/2505.19223

  • 项目地址:https://ml-gsai.github.io/LLaDA-1.5-Demo/


性能表现:数学、代码、对齐任务相比 LLaDA 取得一致性提升


相比于 LLaDA,LLaDA 1.5 在数学、代码生成、对齐任务上取得了一致性的提升。



此外,LLaDA 1.5 是当前最具有竞争力的扩散语言模型。与其他扩散语言模型相比,在数学任务(如 GSM8K,Math)上具有竞争性优势。



相比于 LLaDA,LLaDA 1.5 在指令遵循能力上的提升显著:



上述指令给出了对模型的一系列要求:提出两种新型补品的名字并包含关键词「brand」,名称以双尖括号标注,先逐词复述请求,再给出答案。相比 LLaDA,LLaDA 1.5 遵循了全部指令。


方法介绍


该研究以直接偏好优化(DPO)为切入点,原始 DPO 损失基于模型对给定偏好数据对的对数似然。对于掩码扩散语言模型,难以计算精确的对数似然,使用证据下界(ELBO)近似。需要通过对时间步 t 和掩码数据 y_t 进行双重采样进行估计:


图片


将 ELBO 带入 DPO 损失的对数似然项,可以得到基于 ELBO 的 DPO 损失估计器:



其中,红色部分为偏好估计。


在实际应用中,采用蒙特卡洛方法近似对数似然会引入 DPO 损失的偏差和方差,影响模型的梯度估计,进而导致训练过程不稳定,甚至影响模型对齐后的最终性能表现。


本研究首先证明了:蒙特卡洛估计引入的偏差和方差,可以被偏好估计器的方差限制;降低偏好估计器的方差可以分解为降低 ELBO 估计的方差,以及提高 π_θ 和 π_ref 的 ELBO 估计之间的相关性。据此,本研究提出并证明了以下方差缩减策略的有效性:


  1. 提高蒙特卡洛估计的采样预算;提高采样预算能够降低 ELBO 估计的方差。

  2. 给定总采样预算的最优分配策略;在给定总采样预算 n=n_t×n_(y_t) 下,当采样预算分配为采样 n 个时间步、每个时间步采样一个加噪样本时,ELBO 估计的方差达到最小。

  3. 对偶采样策略。通过增加 π_θ 和 π_ref 所使用噪声样本之间的相关性,能够进一步降低梯度估计的方差。具体而言,在 ELBO 估计中,对于 π_θ 和 π_ref,应当共享相同的偏好数据的噪声样本和拒绝数据的噪声样本。


综合上述策略,最终得到的方差缩减的偏好优化方法如下右图。对于每一个偏好数据对,在给定的采样预算 n 下,采样 n_t=n 个时间步,对于每个时间步采样 1 个噪声样本,并在 π_θ 和 π_ref 间共享噪声样本,以进行高效偏好估计。



总结与展望


本研究围绕扩散语言模型的偏好对齐任务,提出了方差缩减的偏好优化方法 VRPO,并从理论分析与实际实验两方面系统论证了该方法在有效降低梯度估计方差、提升模型对齐效果上的优越性。基于 VRPO 优化的 LLaDA 1.5 模型,在数学推理、代码生成、模型对齐等多个任务上均实现了全面且稳定的性能提升,验证了方法的通用性和有效性。


本研究提出的方差缩减算法 VRPO 主要以 DPO 为分析对象,但所提出的方法具有普适性,可被推广应用到其他涉及 ELBO 估算或强化对齐的算法中,为扩散语言模型在强化对齐领域构建了统一的理论与方法框架。


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

从理论上讲,扩散模型可能在处理不确定性方面更强。在现实世界的数学和代码问题中,往往存在很多噪声和不确定性因素。扩散模型通过逐步去噪的过程,或许能更好地应对这些挑战,找到更鲁棒的解决方案。当然,这还需要更多的实验验证。

这个问题很有意思!我觉得扩散模型在需要创造性和多样性输出的领域可能会更胜一筹。比如,在生成图像描述或者程序代码的注释时,扩散模型可以生成更多样化的选择,而不仅仅是给出最可能的答案。扩散过程本身就引入了随机性,这可能激发更多意想不到的创意。

完全同意!指令遵循太重要了。 我补充一点,我会加入一些“对抗性指令”,也就是故意设计一些容易被模型误解或者利用的指令,看看模型是否能够抵御这些“攻击”,保持正确的行为。这可以提高模型的安全性和可靠性。

从更广阔的角度来看,任何涉及到蒙特卡洛估计或者需要稳定梯度更新的场景,都可以考虑借鉴VRPO的思路。例如,在训练强化学习模型时,我们经常需要用蒙特卡洛方法估计回报。如果回报的方差太大,就会导致训练不稳定。这时候,就可以考虑用类似VRPO的方法来降低方差。

指令遵循能力绝对是大语言模型的核心能力之一!这直接决定了模型是否能够真正理解我们的意图,并按照我们的要求完成任务。否则,模型再强大,也只是一个“自说自话”的工具,无法真正为我们所用。就像一个很聪明的孩子,但是如果你说的话他根本不听,那也没啥用。

我设计的测试集会包含以下几个类型的指令:

* 复杂的逻辑推理指令: 例如,给出一些前提条件,让模型推导出结论。这可以考察模型的逻辑思维能力。
* 多步骤操作指令: 例如,让模型先搜索某个信息,然后根据搜索结果进行分析和总结。这可以考察模型的规划和执行能力。
* 创造性任务指令: 例如,让模型根据一些关键词创作一个故事或者一首诗。这可以考察模型的创造力和想象力。
* 带有歧义的指令: 故意给出一些模棱两可的指令,看看模型如何处理歧义,并选择合适的解释。这可以考察模型的鲁棒性和适应性。

总之,我的目标是设计一个全面、多样化的测试集,能够真正反映模型在各种真实场景下的指令遵循能力。

VRPO的核心思想就是尽可能减少模型训练过程中的不确定性,让模型学习的方向更明确。具体来说,就是通过各种采样策略来降低梯度估计的方差,从而让训练更稳定、效果更好。就像射击一样,减少瞄准时的抖动,才能更准确地击中靶心。

我觉得VRPO的思路也可以应用到对抗生成网络(GAN)的训练中。GAN的训练一直以来都非常困难,一个重要原因就是梯度不稳定。通过引入方差缩减的技术,或许可以改善GAN的训练效果,生成更高质量的图像或其他类型的数据。

我倾向于认为,扩散模型在处理多模态数据时可能更有优势。因为扩散过程可以自然地融合不同类型的信息。例如,如果我们需要根据文本描述生成图像,或者根据图像生成相应的代码逻辑,扩散模型可以作为一个桥梁,连接不同的模态。