DDO:清华&NVIDIA提出全新视觉生成模型优化范式,突破传统最大似然训练瓶颈

清华&NVIDIA 提出 DDO,一种无需额外网络的视觉生成模型优化范式,通过 GAN 式优化目标,突破传统最大似然估计的性能瓶颈,显著提升图像生成质量。

原文标题:ICML 2025 Spotlight | 清华朱军组&NVIDIA提出DDO:扩散/自回归模型训练新范式,刷新图像生成SOTA

原文作者:机器之心

冷月清谈:

清华大学朱军团队与 NVIDIA 合作提出直接判别优化(DDO),一种全新的视觉生成模型优化范式。DDO 将基于似然的生成模型隐式参数化为 GAN,无需额外网络即可高效微调,突破了传统最大似然估计的性能瓶颈。该方法通过引入反向 KL 散度的成分,强化模型在真实数据附近的密度,抑制错误区域,提高生成保真度。实验表明,DDO 在图像生成任务中显著提升了生成质量,刷新了 SOTA,且无需修改网络结构、不增加推理成本,并与 CFG 等引导方法兼容。DDO 的设计灵感来源于语言模型中的直接偏好优化(DPO),未来有望扩展至多模态生成等任务。

怜星夜思:

1、DDO 方法中提到的“隐式判别器”是如何理解的?为什么说训练好的生成模型本身就是一个判别器?
2、文章中提到 DDO 可以和 CFG 等引导方法叠加使用,进一步提升性能,这背后的原理是什么?不同的引导方法之间是如何相互作用的?
3、DDO 方法在视觉生成领域取得了显著成果,你认为它在其他领域,例如自然语言处理、语音合成等方面,是否有应用前景?如果应用,可能面临哪些挑战?

原文内容


文章一作郑凯文为清华大学三年级博士生,研究方向为深度生成模型,曾提出流式扩散模型最大似然估计改进技术 i-DODE,扩散模型高效采样器 DPM-Solver-v3,扩散桥模型采样器 DBIM 以及掩码式离散扩散模型采样器 FHS 等。


清华大学朱军教授团队与 NVIDIA Deep Imagination 研究组联合提出一种全新的视觉生成模型优化范式 —— 直接判别优化(DDO)。该方法将基于似然的生成模型(如扩散模型、自回归模型)隐式参数化为 GAN,从而设计出一种无需额外网络、训练高效的微调方法,并大幅突破传统最大似然训练的性能瓶颈。



  • 论文标题:Direct Discriminative Optimization: Your Likelihood-Based Visual Generative Model is Secretly a GAN Discriminator

  • 论文链接 https://arxiv.org/abs/2503.01103

  • 代码仓库 https://github.com/NVlabs/DDO


背景 | 基于似然的生成模型


近年来,扩散模型(Diffusion Models)和自回归模型(Autoregressive Models)在图像生成中占据主导地位,如 NVIDIA 的 EDM 系列扩散模型和字节跳动以 VAR 为代表的视觉自回归模型。相比 GAN(Generative Adversarial Networks)这类直接优化数据生成过程的隐式生成模型,扩散模型和自回归模型均属于基于似然的生成模型(Likelihood-Based Generative Model),它们显式估计数据的对数似然(log-likelihood),具有训练稳定、样本多样性强、容易规模化的特点


然而,这类模型广泛采用的最大似然估计(Maximum Likelihood Estimation, MLE)训练损失对应的是正向 KL 散度,会导致「mode covering」问题:模型倾向于覆盖所有数据模式而非聚焦主要分布,并且会在低估数据集中任何样本的似然时遭受严厉惩罚,从而使生成结果模糊或失真,在模型容量不足时限制了生成质量。例如,i-DODE 作为专注于似然的模型,虽然在密度估计任务上达到了最先进水平,但在 FID 等视觉质量指标下表现不佳。现有视觉生成模型也往往依赖引导(guidance)方法,如无需分类器的引导(Classifier-Free Guidance, CFG),来抑制低质量生成样本。



方法 | 把生成模型当判别器用,直接优化


为解决 MLE 的局限性,文章考虑使用 GAN 式判别的思想,在训练目标中引入反向 KL 散度的成分,强化模型在真实数据附近的密度,同时抑制错误区域,将模型分布由图(a):强调密度覆盖,微调为图(b):强调密度集中,从而提高生成保真度与有限模型容量下的生成质量。然而,直接使用 GAN 损失会引入额外的判别器网络与工程优化上的复杂性,尤其对于扩散/自回归模型这类需要迭代式多步生成的模型。


DDO 首次提出:你训练的似然生成模型,其实已经是一个「隐式判别器」



具体来说,DDO 引入待微调的目标模型和一个冻结的参考模型(均初始化为预训练模型),使用两个模型的对数似然比构造「隐式判别器」,得到可直接应用于扩散模型和自回归模型的 GAN 式优化目标:



其中为模型对数似然,对于自回归模型由于因果掩码的存在可以通过单次网络前传准确计算,而对于扩散模型则需要结合 Jensen 不等式与证据下界(ELBO)近似估计。使用此训练目标微调时,真实数据来自原数据集,而假数据来自参考模型图片的自采样过程。根据 GAN 判别损失的性质,可以证明此目标下的最优模型分布图片恰为真实数据分布


在实际训练时,可通过多轮自对弈(self-play)进一步提升性能,做法是将下一轮的参考模型图片设置为上一轮表现最优的模型。


DDO 为扩散模型和自回归模型提供了即插即用的新训练目标,其微调后的模型和原模型具有完全相同的网络结构和采样方式,而在生成质量上大大增强


实验 | 无需引导,刷新多项 SOTA


DDO 在多个标准图像生成任务中显著提升已有模型的生成质量,并刷新现有 SOTA



  • ImageNet 512×512 无引导 FID 1.96 → 1.26。

  • ImageNet 64×64 无引导 FID 1.58 → 0.97。

  • CIFAR-10 无引导 FID 1.85 → 1.30。


ImageNet 512x512 生成结果。左:原模型 右:DDO 微调后的模型


肉眼观察发现生成图像的细节和真实度得到显著提升,同时多样性没有受到负面影响



DDO 用于扩散模型时,随着多轮 self-play,FID 指标发生持续下降



更重要的是,DDO 无需修改网络结构、不增加推理成本,且与主流 CFG 等引导方法兼容,可叠加使用进一步提升性能。如在视觉自回归模型 VAR 上,微调后的模型通过控制 CFG 的强度,得到的 FID-IS 曲线整体显著优于原模型


展望 | 从视觉生成到语言模型对齐



DDO 参数化的灵感来自于语言模型中的直接偏好优化(DPO, Direct Preference Optimization),但其目标从「成对的偏好对齐」扩展到了「分布对齐」,更为通用。DDO 虽然没有「奖励」的概念,但其中使用自生成样本作为负例的思想也与大语言模型中流行的 RL 算法如 GRPO 具有相似性,这允许模型从错误中反思学习。也就是说,GRPO 中负例的作用同样可以解释为使用 reverse KL 散度抑制 mode covering 趋势从而提升生成质量,这在数学推理等任务中具有重要意义。该思路有望扩展至多模态生成等任务,构建统一的对齐范式


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

这个问题问到了点子上。DDO 的本质是优化likelihood,CFG之类的方法本质是改变生成过程,两者优化的目标和手段不同,因此可以叠加使用。就好比你DDO是提高了发动机的效率,CFG是优化了汽车的驾驶方式,两者自然是可以同时使用的。

我觉得可以这样理解,生成模型就像一个“逆向工程”,它试图从噪声中还原出真实数据。在这个过程中,它实际上学习了一个关于哪些数据是“真实”的隐式标准。DDO 做的就是把这个隐式标准显式化,用它来指导生成模型的训练,让它能够更好地生成真实数据。就像警察叔叔,他不需要自己去犯罪,但他知道犯罪分子会做什么,从而更好地打击犯罪。

我倾向于认为CFG是改变了loss函数的landscape,使得模型更容易掉入好的局部最优解,而DDO本身就在努力寻找更好的loss函数,所以两者结合有奇效。

我觉得语音合成也很有搞头。现在的语音合成模型,有时候会生成一些听起来比较“机械”或者“不自然”的声音。如果能用DDO来训练这些模型,让它们能够生成更自然、更富有表现力的语音,那体验肯定会好很多。不过,语音合成的评估指标和图像生成不太一样,可能需要针对语音的特点设计新的评估指标和训练策略。

这个问题很有意思!我的理解是,DDO 的核心在于它巧妙地利用了生成模型本身所包含的信息来进行判别。简单来说,一个训练好的生成模型,它对真实数据的“熟悉程度”和对生成数据的“不确定性”之间存在差异,这种差异就可以被用来构建一个判别器。你可以想象一下,一个画家,他画自己的作品肯定比模仿别人的作品更得心应手,对吧?虽然他没有明确地进行真假判断,但他对自己的作品更有把握,这种把握就是一种隐式的判别能力。

这个很有意思!我觉得在NLP领域非常有前景。DDO本质上是一种分布对齐的思想,而NLP任务中,很多时候也需要模型生成的文本分布与真实文本分布尽可能接近。比如说,在文本摘要、机器翻译等任务中,我们希望生成的摘要或译文尽可能地忠实于原文,避免出现信息偏差或语义错误。DDO或许可以用来指导这些模型的训练,提高生成质量。

从信息论的角度来看,生成模型学习的是数据的分布,也就是对每个数据点赋予一个概率值。如果一个数据点来自真实数据分布,那么生成模型应该给它更高的概率;如果是生成的数据,概率就会相对较低。这个概率值就可以被看作是一种判别信息,概率越高,就越有可能是真实数据。DDO 正是巧妙地利用了这种概率差异,通过对数似然比来构造“隐式判别器”,从而避免了额外训练判别器网络的复杂性。

从信息论的角度,可以认为CFG在生成过程中引入了外部信息,使得模型在生成时有更多的约束条件,从而生成更高质量的样本。而DDO 则是在模型的训练过程中,利用判别器的信息来指导模型的学习,从而使得模型能够更好地拟合真实数据分布。两者结合,相当于既有外部指导,又有内部优化,自然能够取得更好的效果。就像一个学生,既有老师的指导,又有自身的努力,成绩自然会更好。

虽然前景广阔,但挑战也不小。首先,不同领域的数据特点差异很大,DDO 需要进行相应的调整才能适应。其次,DDO 的训练过程可能比较复杂,需要仔细调整超参数才能取得好的效果。最后,DDO 的理论分析还不够完善,需要进一步研究才能更好地理解其工作原理和适用范围。就像一个万金油,虽然哪里都能用,但要想用好,还得对症下药。