Diffusion LLM:挑战 Next Token Prediction 的新范式?

DeepMind 的 Gemini Diffusion 模型引发关注,它采用扩散架构进行文本生成,有望在能耗和效率上超越传统自回归模型,为大语言模型开辟新路径。

原文标题:挑战 next token prediction,Diffusion LLM 够格吗?

原文作者:机器之心

冷月清谈:

本文深入探讨了 DeepMind 的 Gemini Diffusion 模型,该模型采用扩散架构进行文本生成,与传统的自回归模型预测下一个 token 的方式不同,Diffusion LLM 通过去噪过程并行生成文本,具有更高的生成效率和更低的能源消耗潜力。文章还回顾了扩散模型在 NLP 领域的应用,并介绍了蚂蚁和人大团队提出的 LLaDA 模型,该模型验证了冷启动训练 Diffusion LLM 的效果。文章认为,自回归并非大模型的底层逻辑,Diffusion 模型也可被视为一种无损数据压缩器,为大语言模型的发展提供了新的思路。

怜星夜思:

1、Gemini Diffusion 采用的扩散模型在图像生成领域已经很成熟,那么它在文本生成方面有哪些独特的优势和挑战?除了文章中提到的并行生成和能源效率,还有哪些潜在的应用场景?
2、文章提到自回归并非大模型的底层逻辑,扩散模型也可被视作无损数据压缩器。这个观点如何理解?如果扩散模型成为主流,会对现有的 LLM 生态带来哪些影响?
3、除了 Gemini Diffusion 和 LLaDA,文章还提到了其他一些 Diffusion LLM 的研究。你认为目前 Diffusion LLM 发展的主要瓶颈是什么?未来有哪些值得关注的研究方向?

原文内容

机器之心PRO · 会员通讯 Week 23

--- 本周为您解读 ② 个值得细品的 AI & Robotics 业内要事 ---

1. 挑战 next token prediction,Diffusion LLM 够格吗?低成本下的高性能模型,是悖论还是可能?为什么 Gemini Diffusion 是「被忽视的重大突破」?dLLM 有何底气冲击自回归模型?Diffusion 也可被视作无损数据压缩器?dLLM 还有哪些潜在优势?兑现 dLLM 的潜力还需解决什么问题?...

2. AI 推理成本暴跌,「互联网女皇」 Mary Meeker 从中看到了什么?

Mary Meeker 为何强调 AI 发展速度远超互联网时代?AI 模型训练成本与推理成本「剪刀差」将如何重塑行业竞争格局?企业该如何平衡算力投入与商业化回报?中国开源模型崛起对全球供应链有何潜在影响?人机协作时代如何平衡劳动力结构转型与技能重塑?...


本期完整版通讯含 2 项专题解读 + 27 项 AI & Robotics 赛道要事速递,其中技术方面 11 项,国内方面 4 项,国外方面 12 项。
本期通讯总计 29595 字,可免费试读至 7% 
 消耗 99 微信豆即可兑换完整本期解读(约合人民币 9.9 元) 


要事解读①  挑战 next token prediction,Diffusion LLM 够格吗??

引言DeepMind 在 Google I/O 2025 开发者大会展示了谷歌 DeepMind 在 AI 模型、工具、服务、应用的多项成果。但在大会半个月后,其展示的 Gemini Diffusion 开始引起社区热议,进而促进了业界开始关注这类基于扩散架构的语言模型所具备的潜力。

「或许是被忽的重大突破」,Diffusion LLM 干掉自回归模型的底气是什么?

1、由于 Google I/O 2025 展示了 Gemini 2.5 Pro、Gemini 2.5 Flash、编程智能体 Jules 和视频生成模型 Veo 3 等一系列成果,导致 Gemini Diffusion 在最初颇为低调,在近 2 周后才引起关注,被社区称为「被忽略的重大突破」。[1-1] [1-2]

2、Gemini Diffusion 在 Demo 中展示了较高的生成效率,但真正引起热议的特征在于,该模型采用了在图像和视频生成领域更为流行的扩散架构进行文本生成,与其他专注于扩大上下文窗口或提升现有自回归模型工作差别鲜明。

① Gemini Diffusion 的文本生成平均采样速度在排除额外开销后可达 1479 TPS,在编码任务中甚至能达到 2000 TPS,在性能表现基本旗鼓相当的前提下,比 Gemini 2.0 Flash-Lite 快 4-5 倍。

② 由于扩散架构通过迭代去噪实现的并行生成机制与当前流行的自回归架构有着明显差异,Gemini Diffusion 在后续报道和话题中被描述为新兴范式的崛起。[1-3]

3、与自回归(AR)架构预测下一个 Token 的机制不同,Gemini Diffusion 的扩散架构采用去噪过程来生成文本,本质上是一种纠错机制,其从从噪声或掩码输入开始,通过迭代精炼并行地逐步完善整个输出 。[1-5]

① 扩散架构这种「从粗到细」的生成方法是其并行处理能力的关键,模型通过复杂的噪声/去噪方案进行学习,其中随机子集的 token 以不同比例进行掩码,使其能够处理从微小损坏到从头开始的完整生成。

4、AI 社区中有分析强调了谷歌基于 Gemini Diffusion 探索生成式 AI 新方法的理念。但让该模型,或是 Gemini Diffusion 所代表的 Diffusion LLM 有底气被称为「Game Changer」的原因在于这种并行高效的机制在 AI 能源消耗制约下的潜力。[1-4] [1-5]

① IBM 的研究工程师 Benjamin Hoover 在 2025 年 3 月的一篇文章中指出,扩散模型相较于类似 GPT 的 AR 模型通常效率更好,因为它能够并行优化整个序列,能够明显减少计算开销。

② 该文章强调了大模型耗电巨大,业界长期认为利用连续电信号而非二进制运算来处理信息的「模拟计算」有望解决 AI 能源问题的潜在方案。而从长远看,基于扩散的 AI 系统有望在模拟硬件上运行,从而大幅降低能源成本。

5、Gemini Diffusion 的成果让 AI 社区开始关注 Diffusion LLM 的路线。虽然部分报道描述该范式为谷歌带来的「首个」突破,但此前学界和工业界均在该路线有过探索和相关成果。

① 此前,斯坦福大学 2022 年提出的 Diffusion-LM 在细粒度的复杂生成控制方面取得了重要进步;上海 AI 实验室提同年出了首个专为 Seq2Seq 任务设计的扩散模型 DiffuSeq,复旦大学结合扩散过程与 BERT 模型相结合提出了 DiffusionBERT。[1-6]

② Diffusion LLM 近期的代表性成果则有蚂蚁和人大团队 2025 年 2 月发布的 LLaDA 系列,以及 Inception Labs 同期发布的基于扩散的 Coding LLM「Mercury 」。

自回归建模方式并非大模型的底层逻辑,Diffusion 也可被视作无损数据压缩器?

谷歌 Gemini Diffusion 尚未正式公开。此前,在 2023 年有综述梳理了扩散模型在 NLP 领域中的应用效果,近期的 LLaDa 系列是则是 Diffusion LLM 工作中较为成体系的研究工作。

1、扩散模型虽然流行于视觉生成领域,但业界同样在探索该技术文本生成任务中的潜力。明尼苏达大学的研究者曾通过综述系统梳理了扩散模型在 NLP 中的应用效果,涵盖文本生成、情感分析和机器翻译等任务类型。[1-7]

① 该综述于 2023 年上传 arxiv,将扩散模型在 NLP 中的应用分为离散和嵌入两类。前者通过在离散空间中直接对文本进行建模,而嵌入扩散模型则将离散文本映射到连续空间中进行处理。

② 该工作总结了扩散模型的多项优势,如并行生成的机制可同时生成所有 token,对文本生成的效率有极大帮助;文本插值能力啧可以生成句子间的衔接内容,提高文本流畅性和连贯性;其他优势还有细粒度控制和高稳健性等。

③ 截止 2023 年 5 月(综述最后更新时间),用扩散模型处理 NLP 任务存在多项局限,包含需要多轮扩散步骤的训练过程过于复杂、多次非线性变换导致潜空间表征过于抽象、离散数据处理难度高等。

2、在近期有关 dLLM 的研究中,较为有代表性的 LLaDA 于 2025 年 2 月提出,在 8B 规模上验证了冷启动训练 Diffusion LLM 的效果,表明了「通过前向掩码加噪与反向去噪机制,同样可以实现大语言模型的核心能力」。[1-8]

① LLaDA 工作由蚂蚁集团和中国人民大学高瓴人工智能学院李崇轩、文继荣教授团队提出。该模型在发布时展示了在下有语言任务中与 Llama 3 8B 相竞争的能力和可扩展性。

3、根据李崇轩团队在论文及相关博客和文章中的描述,自回归 LLM 和扩散 LLM 本质上都是生成式模型,其工作过程通常包含三大要素,即网络结构(MLP、CNN、RNN、Transformer)、规模扩展(模型、数据、计算)、概率建模方法(VAE、GAN、Flow、自回归、扩散模型)。[1-6] [1-8]

① 其团队发现当前主流大语言模型普遍采用极大似然估计训练网络,而极大似然估计等价于最小化真实数据分布与模型分布的 KL 散度。他们认为:「大模型的诸多优良性质源于极大似然估计本身,而非自回归建模方式。」

② 生成式模型的可扩展性主要来自 Transformer 架构、模型与数据规模以及生成式原则所诱导的 Fisher 一致性之间相互作用的结果,而非自回归模型独有的特性,这一观点在 U-ViT 与 DiT 等视觉处理的成果上也有体现。

扩散模型在文本生成方面,个人认为其优势在于能更好地处理长文本的依赖关系,因为它是全局优化,而不是像自回归模型那样一步步预测。当然,挑战也很明显,就是文本的离散性使得扩散过程的设计会比较复杂,需要精巧的噪声添加和去除策略。应用场景方面,除了文章提到的,我觉得在文本修复、风格迁移等方面也有潜力。

自回归模型就像是“按部就班”地生成文本,下一个词的生成依赖于前一个词。而扩散模型则更像是“全局规划”,从噪声中逐步提炼出完整的文本。如果扩散模型成为主流,可能会打破现有的 LLM 生态平衡,引发一场技术革新。例如,现有的为自回归模型优化的硬件和软件可能需要重新设计,新的模型训练和推理方法也会不断涌现。当然,这种转变也面临着诸多挑战,比如如何有效地训练扩散模型,如何提高其生成文本的质量等等。

我觉得diffusion LLM目前最大的瓶颈在于它还没有展现出超越自回归模型的绝对优势。虽然在某些方面(比如并行生成)有潜力,但在生成质量、控制能力等方面还有待提高。未来可以关注的研究方向包括:探索新的扩散架构,优化训练策略,以及将扩散模型应用于更广泛的领域。

谢邀。扩散模型在文本生成上的独特优势,我认为是它能够更好地捕捉文本的全局结构和语义信息,这对于生成连贯、有意义的长文本至关重要。挑战方面,正如文章中提到的,扩散模型的训练过程较为复杂,需要大量的计算资源。至于应用场景,除了现有的文本生成、文本修复等,或许还可以用于文本理解和知识推理等任务。举个例子,我们可以通过扩散模型来生成与某个特定主题相关的文本,从而帮助我们更好地理解该主题。

个人认为,Diffusion LLM 的发展瓶颈主要在于训练效率和生成质量。扩散模型的训练过程通常比较复杂,需要大量的计算资源。同时,如何保证生成文本的质量和多样性也是一个挑战。未来值得关注的研究方向包括:如何设计更高效的扩散过程,如何将扩散模型与其他技术(如 Transformer)相结合,以及如何利用扩散模型来解决更复杂的 NLP 任务。

diffusion LLM 的瓶颈,我觉得一个是计算资源,一个是理论支撑。现在大家都在比谁的模型更大、更深,但diffusion模型的训练本身就更耗资源。而且,diffusion模型在文本生成上的理论解释还不够完善,还需要更多的研究来支撑。未来可以关注如何将diffusion模型与知识图谱、因果推理等技术相结合,从而提高生成文本的质量和可信度。

这个观点我是这么理解的:自回归模型本质上是在拟合数据的概率分布,而扩散模型则是在学习如何从噪声中恢复数据,这可以看作是一种压缩和解压缩的过程。如果diffusion成为主流,那影响可太大了。现在大家都在卷attention,到时候估计就要卷diffusion process的设计了。

扩散模型在文本生成领域的优势,我认为在于其抗噪性和纠错能力。它不是像自回归模型那样一步错步步错,而是能从噪声中逐渐恢复出清晰的文本。这就像给文本做了一个“容错机制”。应用场景嘛,我觉得可以试试在代码生成方面,diffusion模型并行生成的特性或许可以降低bug率。

这个观点很有意思!把扩散模型看作无损数据压缩器,意味着它能更好地捕捉数据中的本质结构,而不是简单地记住数据。如果扩散模型真能成为主流,LLM 生态可能会更加多元化,不再是自回归模型一家独大。同时,模型训练和推理的方式也会发生变化,可能需要新的硬件和算法支持。我觉得这对于推动AI技术的发展是个好事。