扩散语言模型并非总是更优:北大&蚂蚁最新研究揭示效率权衡

北大&蚂蚁研究表明,扩散语言模型效率并非绝对优于自回归模型,关键在于评估指标的选择。流畅性任务DLM更优,高精度任务自回归更佳。

原文标题:扩散语言模型真的会比自回归好?理论分析结果可能恰恰相反

原文作者:机器之心

冷月清谈:

北京大学与蚂蚁集团的联合研究对扩散语言模型(DLM)与自回归模型在文本生成领域的效率进行了深入的理论分析和实验验证。研究表明,DLM 凭借并行生成词元的潜力,在理论上具备效率优势,但实际表现受到评估指标的显著影响。当以词元错误率(TER,困惑度)为评估标准时,DLM 在生成流畅文本方面表现出效率优势,所需采样步数与序列长度无关。然而,当以序列错误率(SER)为评估标准,即要求序列的完全正确性时(例如数学推理),DLM 的效率优势消失,所需采样步数与序列长度线性相关,甚至可能因单步计算成本更高而慢于自回归模型。研究强调,选择合适的评估指标对于评估和应用 DLM 至关重要。在生成流畅文本且容忍序列级别不完美时,DLM 更优;在需要极高序列准确性和逻辑正确性的任务中,自回归模型更佳。该研究为理解 DLM 的优势与局限性提供了理论基础,并为实践者提供了模型选择的指导。

怜星夜思:

1、文章提到扩散语言模型在数学推理任务上表现不佳,这是为什么?除了序列错误率(SER)高之外,还有没有其他可能的影响因素?
2、这项研究主要针对掩码扩散模型(MDM),那么其他类型的扩散模型,例如去噪扩散概率模型(DDPM),在文本生成方面会有不同的表现吗?它们的优缺点可能是什么?
3、文章提到,在生成长篇幅的创意写作时,扩散语言模型可能更具优势。那么,你认为在哪些具体的创意写作场景下,扩散语言模型能够发挥其独特的优势?

原文内容


本工作来自北京大学智能学院贺笛老师课题组与蚂蚁集团武威团队。贺笛老师在机器学习领域获得过多项荣誉,包括 ICLR 2023 杰出论文奖与 ICLR 2024 杰出论文奖提名。


扩散模型近年来在图像生成领域取得了令人瞩目的成就,其生成图像的质量和多样性令人惊叹。这自然引发了人们的思考:这种强大的生成范式能否迁移到文本领域,挑战甚至取代目前主流的自回归语言模型?扩散语言模型(Diffusion Language Models)凭借其并行生成多个词元的潜力,似乎预示着文本生成领域的一场效率革命。然而,这一前景是否真的如此美好?来自北京大学和蚂蚁集团的最新研究表明,答案远非简单的 “是” 或 “否”,在某些关键场景下,结论甚至可能恰恰相反。



  • 论文标题:Theoretical Benefit and Limitation of Diffusion Language Model

  • 论文链接:https://arxiv.org/pdf/2502.09622


扩散模型 vs. 自回归:效率神话面临拷问


自回归模型,作为语言生成领域的主流范式,以其逐词元(token-by-token)的顺序生成方式著称。尽管在生成质量上取得了巨大成功,但其固有的串行机制限制了推理速度,尤其是在处理长序列时。与之相对,扩散语言模型,特别是其中的掩码扩散模型(Masked Diffusion Models, MDMs),允许在每个扩散步骤中并行采样多个词元,这从理论上为提升生成效率提供了可能。


然而,理论上的优势在实践中似乎遭遇了 “效率悖论”。研究人员观察到,目前开源的扩散语言模型在某些任务上需要更多的采样步骤才能达到与自回归模型相当的准确率,导致了比自回归模型更高的推理成本。这一悖论在实验中得到了印证。下图直观展示了这一现象:在数学推理基准测试 GSM8K(8-shot)上,当与同等规模的自回归模型 Qwen2.5-7B 对比时,两款最近发布的大型掩码扩散模型 Dream-v0-7B 和 LLaDA-8B,在不同的采样步数下,其性能和效率均落后于自回归基线,处于左图中的第三象限(代表更低效率和更低性能)


鉴于不同模型可能使用了不同的训练数据,研究人员意识到这可能对性能评估造成天然偏差。为消除该因素带来的影响,团队设计了更加客观、公平的对比实验:给定一个预训练好的扩散语言模型,我们强制约束其在推理中采用从左到右的逐词生成方式,并以这种"伪自回归式"的解码性能与效率作为基线,重新进行对比分析。理论上,在消除训练数据差异的前提下,相对这种伪自回归式的解码方式,扩散语言模型理应在效率与性能之间取得更优平衡,表现应进入第一象限然而,实验结果却出人意料 —— 即使与这种被约束的模型对比,扩散语言模型仍未展现出任何优势,未能同时实现更高的生成效率与更优的输出质量。


图 1:MDMs 在 GSM8K (8-shot) 上的效率和准确率。(左) MDMs 相对于 Qwen2.5-7B 的表现。(右) MDMs 相对于其自身自回归式解码的表现。


这些观察结果引出了一个核心问题:“离散扩散模型是否真的能提供比自回归模型更好的权衡,即在保持高质量生成内容的同时实现更高的效率?” 这正是这项新研究试图解答的关键。


北大团队新研究:拨开迷雾,关键在评估指标


针对上述疑问,研究团队对此进行了深入的理论剖析。他们的研究目标是 “对一种广泛采用的变体 —— 掩码扩散模型(MDM)进行严格的理论分析”,以探究观测到的效率限制是否是其固有的缺陷。


这项研究的核心结论是,关于扩散模型与自回归模型优劣的 “结论高度依赖于评估指标的选择”。研究团队采用了两种互补的评估指标来全面衡量 MDM 的性能:


词元错误率(TER):该指标量化了词元级别的准确性,通常与生成文本的流畅度相关。在实践中,困惑度(Perplexity)是衡量语言模型词元级别错误的常用指标,因此论文中 TER 由困惑度定义。较低的 TER 通常意味着模型能生成更流畅、连贯的文本。


序列错误率(SER):该指标评估整个序列的正确性,这对于需要逻辑上完全正确的序列的推理任务(如解决数学问题、代码生成)至关重要。


研究团队首先分析了扩散语言模型以词元错误率(TER)为主要衡量标准时的效率,即评估的重点在于生成文本的流畅度和连贯性。研究团队证明目标是接近最优的困惑度时,MDM 可以在与序列长度无关的恒定采样步数内实现这一目标。换而言之,为了达到理想的困惑度,MDM 所需的采样步数并不随序列长度的增加而增长,而是一个常数。这与自回归模型形成了鲜明对比,后者必须执行序列长度的次数才能生成整个序列。因此,在生成长篇流畅文本等任务中,MDM 具备显著的效率提升潜力。


然而,当将评估的标准从流畅度转向序列级别的完全正确性,即采用序列错误率(SER)作为衡量标准时,扩散语言模型将不再高效。相较于困惑度,SER 评估的是整个序列的正确性,而非单个词元,其定义为图片,其中图片为所有正确序列的集合,因此,SER 也就是扩散语言模型生成错误序列的概率。SER 特别适用于那些要求逻辑一致性或推理的任务,在这些任务中,完整正确的思维链至关重要。研究团队证明:当目标是低序列错误率时,在最坏情况下,扩散语言模型所需的采样步数必须与序列长度线性相关。然而在相同架构下,MDM 的每个采样步骤通常比自回归步骤产生更高的计算成本,从而失去了效率优势。


这一定程度上解释了为何 MDM 在 GSM8K 这类数学推理基准测试中表现不佳(如图 1 所示)。数学推理要求思维链条的每一步都完美正确。SER 与 MDM 解决数学问题的准确性密切相关,因为错误的思维链通常会导致错误的答案。因此,MDM 难以在这类数学推理任务上取得效率优势,从而解释了观察到的实验现象。


除了理论分析,研究团队又进一步在一些形式语言上验证了这些理论结果,如下图 2 所示。这些实验结果再一次证明,当考虑词元级别的错误率时,MDM 能够展现出效率优势,然而当使用序列级别错误率作为衡量指标时,MDM 则不如 AR 模型高效。


图 2:MDMs 在形式语言上的表现。(上) MDMs 的困惑度与采样步数的关系。(右) MDMs 序列错误率与采样步数的关系。


结论:扩散语言模型,何时才是更优选?


那么,回到最初的问题:扩散语言模型真的会比自回归模型更好吗?这项研究给出的答案是:视情况而定,关键在于用什么样的指标去衡量。 基于这项研究的理论分析和实验结果,我们可以为实践者提供以下的指导方针 。


当任务优先考虑生成文本的流畅性、高吞吐量,并且能够容忍一定程度的序列级别不完美时,例如:长篇幅的创意写作,其中整体的可读性和连贯性比每一句话的绝对事实准确性更重要,在这些场景下,扩散语言模型能够展现出效率的优势。然而,当任务对序列级别的准确性和逻辑正确性有极高要求时,扩散语言模型为达到低 SER 所需的采样步数随序列长度线性增长,这抵消了其潜在的并行效率优势,甚至可能因单步计算成本更高而变得更慢。此时,自回归模型是更好的选择。


这项研究为理解 MDM 的比较优势和局限性奠定了首个坚实的理论基础。当然,研究团队也指出了当前工作的一些局限性,例如分析主要集中在形式语言上,未来需要将其扩展到更复杂的现代大语言模型;同时,分析主要针对掩码扩散模型,其他类型的扩散模型的表现仍有待探索。


总而言之,扩散技术在图像生成领域的巨大成功,并不意味着其优势可以直接、简单地平移到语言领域。语言的离散性和序列性带来了独特的挑战,需要更细致和针对性的评估。这项研究以其严谨的理论和清晰的实验,为我们揭示了扩散语言模型在效率与质量权衡上的复杂性,为整个领域的发展注入了重要的理性思考。对于追求特定目标的模型部署而言,理解这种权衡对于成本控制和用户体验都至关重要,错误的选择可能导致用户体验不佳或不必要的计算资源浪费。最终,没有绝对 “最好” 的模型,只有最适合特定任务和特定评估标准的模型。


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

文章提到了SER是一个重要因素,因为数学推理需要每一步都正确。但我觉得还有其他因素。数学推理往往依赖于知识的存储和检索,扩散模型可能在训练过程中没有很好地学习到这些知识,或者说,它学习到的知识表示方式不利于进行推理。自回归模型在这方面可能会更有优势,因为它在训练时天然地接触到上下文信息,更容易建立起知识之间的关联。

扩散模型在生成一些“非典型”的文本时可能会更有优势。例如,生成一些实验性的混合文体,或者生成一些带有错误和噪声的文本,故意打破语言的常规。这种情况下,扩散模型的“不确定性”反而可能成为一种优势。

这是一个很好的问题!DDPM在图像生成上很成功,但在文本上的应用相对少一些。我认为主要挑战在于文本的离散性。DDPM主要处理连续数据,而文本是离散的token序列。直接将DDPM应用于文本可能会遇到困难,需要进行一些特殊的处理,比如将token embedding看作是连续的,或者使用一些离散扩散的变体。所以我觉得针对不同扩散模型的特点,需要具体问题具体分析。

与其说优缺点,不如说适用场景不同?MDM可能更适合生成一些短文本或者做文本补全,而DDPM可能更适合生成长文本,因为它在连续空间中进行操作,可以更好地捕捉文本的全局结构。当然,这只是我的猜测,具体还需要更多的实验验证。

我觉得在需要快速生成多种不同风格的文本时,扩散语言模型可能会很有用。因为它可以并行生成多个词元,所以可以更快地探索不同的可能性。比如,可以利用扩散模型快速生成不同风格的诗歌、小说开头等等,为作者提供灵感。

抖个机灵,会不会是因为数学题需要稿纸?扩散模型一步到位,没法像自回归模型一样“边写边想”?认真说的话,可能是因为数学推理需要的是严格的逻辑链条,而扩散模型更擅长生成“看起来还不错”但实际上不一定完全正确的答案。

我认为除了SER,diffusion model的生成方式也可能是一个问题。它一次性mask掉多个tokens,然后预测,这可能导致模型在推理过程中缺乏对中间步骤的显式控制,难以进行逐步推导。而自回归模型是逐token生成的,每一步都可以基于前一步的结果,更容易实现精确的推理。

我觉得在生成一些略带“随机性”的创意文本时,扩散模型会有奇效。比如生成一些超现实主义风格的画作描述,或者生成一些意识流小说片段。扩散模型本身带有一定的随机性,这可能恰好符合这类创意写作的需求。

我查阅了一些资料,发现已经有一些研究尝试将DDPM应用于文本生成,例如通过将文本嵌入到连续空间,然后使用DDPM进行扩散和去噪。这种方法的优点是可以利用DDPM强大的生成能力,缺点是需要解决离散-连续之间的gap,并且计算成本可能会比较高。而MDM的优点是更直接,不需要进行连续空间的转换,但缺点是可能缺乏灵活性。