AI大一统:扩散模型能否挑战自回归架构的主导地位?

Diffusion模型在NLP领域取得突破,引发业界思考其是否能通过并行生成等优势,率先实现多模态大一统,挑战自回归架构的主导地位。

原文标题:Diffusion 一定比自回归更有机会实现大一统吗?

原文作者:机器之心

冷月清谈:

在人工智能领域,实现对文本、图像、音频等多模态数据的“大一统”理解与生成,被视为迈向人类级别智能的关键一步。长期以来,以Transformer为代表的**自回归(AR)架构**在多模态模型中占据主导地位,它们通过预测下一个输入来处理序列数据,并已成功衍生出LLaVA、GPT4等一系列强大模型。

然而,近期扩散语言模型(DLM/dLLM)在自然语言处理领域的显著突破,使得扩散(Diffusion)架构作为实现多模态大一统的“潜力种子”选手,重新进入了人们的视野。尽管扩散模型此前主要在视觉生成领域大放异彩(如Stable Diffusion),但研究者们开始审视其在复杂推理和多模态整合方面的独特潜力。

多项研究指出,Diffusion架构具有几个关键优势,使其在追逐大一统的道路上可能超越自回归模型。首先,Diffusion天然支持并行生成、精细化控制和动态感知,这些能力对于AR模型而言实现难度较大。例如,DLM能够通过并行生成和迭代式去噪,有效解决自回归模型在文本推理速度上的瓶颈,这在理论上带来更高的效率。其次,从信息论角度看,如果说自回归模型通过最小化序列描述长度实现无损压缩,那么扩散架构则是一种强大的纠错机制,其正向加噪和反向去噪过程同样构成一种强大的压缩框架,并且天然支持不同的压缩模式。这些特性使得扩散模型在扩展至不同模态时,展现出巨大的灵活性和广阔的应用前景,预示着它有望更早地实现真正的多模态“大一统”。

怜星夜思:

1、我看文章里说Diffusion模型理论上并行生成效率更高,但实际用起来好像还是比自回归模型慢?这是为啥啊,有没有大佬解释下?
2、如果Diffusion真的能在大模型领域“大一统”成功,那未来我们用AI的方式会发生啥大变化啊?有没有人展望一下?
3、Diffusion模型看下来好像优点挺多,特别是并行生成。但它在实现真正的多模态“大一统”过程中,有没有什么目前还没解决的硬伤或者说隐藏的挑战啊?

原文内容

机器之心PRO · 会员通讯 Week 35

--- 本周为您解读 ③ 个值得细品的 AI & Robotics 业内要事 ---

1. Diffusion 一定比自回归更有机会实现大一统吗?

有哪些工作认为 Diffusion 有望取代主流的 AR 架构?Diffusion 做大一统有何理论基础?为什么 Diffusion 的并行生成理论上更高效,但还是比 AR 慢?是什么解锁了 DLM 的文本推理能力?近期工作挖掘了 DLM 的哪些潜力?...

2. 合成数据的「毒」与「药」,模型崩溃有何新解?

合成数据为什么会在迭代训练中逐代污染训练集?模型在早期和晚期崩溃表现出了怎样的差异?不同类型生成模型(LLM、VAE、GMM)崩溃机制有何共性和差异?合成数据在预训练、微调、后训练、评估各阶段分别发挥了哪些功能?在什么情况下会反而降低模型性能?「Token-Level Editing」、「黄金比例混合」和「递归训练样本控制」等方法各自解决了崩溃问题的哪一环?在实际训练中,如何量化「合成数据带来的信息增益」以保证模型泛化能力?...

3. 智能体靠 Oak 架构自进化,Sutton 揭秘强化学习才是驱动力!

Sutton 为什么认为强化学习是通向 AGI 的关键路径?「大世界」视角下,AI 为什么无法依赖预装知识?Oak 架构的「感知-玩耍-预测-规划」循环如何推动智能体自我进化?在 Oak 中,子问题和选项机制如何实现经验到高层知识的涌现?Oak 架构的开放式发现循环能否保证智能体无限成长?...


本期完整版通讯含 3 项专题解读 + 29 项本周 AI & Robotics 赛道要事速递,其中技术方面 9 项,国内方面 10 项,国外方面 10 项。
本期通讯总计 26113 字,可免费试读至 7% 
 消耗 288 微信豆可兑换完整本期解读(约合人民币 28.8 元) 


要事解读①  Diffusion 一定比自回归更有机会实现大一统吗?

引言GPT-4o 在 2025 年 3 月的发布时引发了一波对多模态模型的热度。但在自回归(AR)架构主导的多模态范式下,扩散语言模型(DLM/dLLM)近期在 NLP 领域的突破引发了另一种思潮,即扩散架构或许有望先一步实现真正的「大一统」。

从初现端倪到日趋成熟,Diffusion 成为多模态大一统「潜力种子」选手?

1、在 AI 的发展中,模型的多模态能力被认为是实现人类级别智能的必要条件。这使得构建「大一统」模型被认为是其中的关键一步。

2、对于业内所探讨的「大一统」模型,其目标是对模态的统一,旨在用一个单一、连贯的架构实现对异构数据类型(如文本、图像、音频、视频、3D 模型乃至机器人动作信号)的理解与生成。通过整合多源信息,AI 模型能够形成更接近人类认知的、整体性的世界理解,从而在复杂推理和决策任务中表现更佳。[1-1]

3、在追求「大一统」模型的道路上,自回归(AR)架构长期占据主导地位。以 Transformer 为代表的自回归 LLM 最初在 NLP 领域实现突破,然后衍生至多模态领域,催生出 LLaVa、Qwen-VL、InternVL、Ovis 和 GPT4 等强大的多模态理解模型。[1-2]

3、扩散模型此前在视觉领域得到广泛的应用,相关成果包含 Stable Diffusion 和 DiT 等。相比之下,扩散(Diffusion)架构此前流行于视觉生成领域,但近期伴随扩散语言模型(DLM/dLLM)在自然语言处理任务上取得突破,让人们开始重新审视这种架构在推理和实现多模态大一统的潜力。

① 香港大学和阿里等机构的研究者在 2025 年 5 月的综述中强调,扩散范式天然支持并行生成、精细化控制和动态感知,这些是 AR 模型难以实现的能力,使其在多模态领域极具潜力。[1-2]

② 同年 6 月,新加坡国立大学的研究者在一篇综述中强调了离散扩散架构的前景,并将其作为替代 AR 实现多模态大一统处理能力的潜在方案进行总结。[1-3]

③ 而后在 2025 年 8 月,MBZUAI 和清华的研究者则在其综述中界定了扩散语言模型通过并行生成和迭代式去噪解决 AR 模型推理速度瓶颈的根本优势,以及后续扩散架构扩展至不同其他模态的潜力论证。[1-5]

走向「大一统」,Diffusion 的潜力源自何方?

1、从信息论的角度出发,生成式建模本质上是一种复杂的数据压缩算法。以 Transformer 为代表的 AR 架构中的 NTP 目标本质上等同于最小化序列的描述长度,这使其成为一种强大的无损压缩机。

① 自回归(AR)模型的本质是预测下个 token,这种架构最初用于语言建模,因此尤其适应 NLP 任务。对于多模态任务(如视觉),自回归模型需要将输入转换为一维序列(像素、图像块或潜在代码)来适应任务。

② 基于 AR 的多模态方法有早期的双编码器架构,需要单独编码图像和文本输入,然后通过对齐的潜在表征来进行推理。随着 LLM 兴起,AR 多模态模型逐渐转向仅解码器架构,一般会通过一个连接器来转换图像嵌入。

2、扩散架构的本质是一种纠错机制,其正向加噪和反向去噪的过程虽然在操作上与 Transformer 不同,但同样可以被理解为一个强大的压缩框架,且天然地支持两种压缩模式。[1-7] [1-8]

@[问题3] 硬伤嘛,我觉得最大的挑战可能就是它的**“黑箱”特性**。虽然效果好,但Diffusion模型的生成过程不像自回归那样可以一步步追踪,它的中间状态理解起来比较困难。这对于需要高可解释性、高可靠性的应用来说是个问题。而且,在实现真正多模态大一统的时候,如何有效评估这种大模型的性能,以及如何防止它在迭代生成中积累错误或产生“幻觉”,都是需要深入研究的课题。毕竟“大”不一定就“全能”,还要看它“稳”不“稳”嘛!

@[问题2] 如果Diffusion真的能实现大一统,我认为它最大的影响是让“创造”变得前所未有的自由和精确。想象一下,我们不再需要为生成图像用一个模型,生成文本用另一个模型。一个统一的Diffusion模型可以直接根据你的一个意念(可能是文本、语音甚至是一个草图),生成匹配所有模态的完整“世界”——比如一段包括视觉、听觉、触觉反馈的虚拟现实场景,或者是一个电影的完整剧本、分镜、配乐甚至初步的演员动作。个性化内容创作会达到一个新高度,同时,科学研究中的多模态数据分析和模拟也会变得更加精准和高效。

@[问题3] 我觉得最棘手的可能是如何处理模态间的语义鸿沟。文本、视觉、音频这些信息虽然都能被AI理解,但它们在表征和信息密度上差异巨大。用一个统一的Diffusion框架去处理,就好像要让一个模具同时能生产积木、水和空气——难度不是一般的大。如何保证在去噪过程中,不同模态的信息能互相增益而不是互相干扰,这需要非常精巧的模型设计和海量高质量的多模态对齐数据。而且,对于像机器人动作信号这种更物理维度的模态,Diffusion模型的感知和生成如何与物理世界精确对应,也充满未知。

@[问题1] 这个问题问得好,其实主要原因在于Diffusion模型的迭代去噪过程。虽然它在每一步去噪时可以并行处理所有token,但要达到高质量的生成结果,通常需要数十甚至数百步的迭代。相比之下,自回归模型虽然是序列生成,但在每个时间步只需计算一次,且步数通常与序列长度直接相关。此外,Diffusion模型在训练和推理时对计算资源(尤其是显存)的消耗也往往更大,这就导致了在端到端生成时,它整体耗时可能更长。但随着技术发展,像Consistency Models这种能减少采样步数的工作,正在努力弥补这一劣势。

@[问题1] 这就像盖房子吧。自回归模型是“一块砖一块砖地垒”,虽然得等前一块放好才能放下一块,但每次动作都挺明确。Diffusion模型更像是“先撒一堆泥浆,再慢慢雕刻成形”。它可以在一个大片区域同时动手(并行),但要雕刻出完美的细节,就得反复打磨好多次。每次打磨都是一次“去噪”迭代。所以,虽然手可以同时动,但总的打磨时间可能就长了。追求完美总是需要付出代价的嘛!

@[问题1] 哈哈,这就像理论上我能一口气吃十碗饭,但实际我得慢慢嚼,不然噎着。Diffusion理论上是并行,但它得“猜猜猜,改改改”好多次才能把图或文字生成得像样。AR虽然是一步一步来,但每一步都是“确定打击”。不过,现在模型迭代这么快,说不定过两天就有“0步去噪”的Diffusion了,到时候就轮到AR着急了!拭目以待吧。

@[问题2] 要真大一统了,我估计最先失业的不是C++程序员,而是各种“Prompt工程师”了!:joy: 到时候可能直接意念一动,AI就把你脑子里想的全部具现化了,还给你配上背景音效和触感反馈。是不是以后连做梦都会变得更清晰,因为AI可以直接把梦境解析成多模态输出?想想都刺激!不过也可能像《黑客帝国》那样,我们都活在AI创造的完美“幻象”里,哈哈。

@[问题2] 我觉得最直观的变化可能是,AI与我们交互时,会变得更加“无缝”和“直觉化”。现在很多AI还是有点“命令式”的,你输入一段文本,它给你一段文本或图片。但如果Diffusion大一统了,它能更好地理解“意图”,而不是简单的指令。比如,我跟AI说“我想画一幅夕阳下的海滩,再加点海鸥的叫声和海浪的拍打声”,它就能一次性生成图像、音频甚至简单的动画。AI不再是分模块的工具箱,更像是一个拥有“通感”的智能伙伴,能更全面地响应我们的感官需求。

@[问题3] 当然有挑战。首先是计算成本。虽然并行,但迭代步数多,意味着每次生成都非常消耗资源,尤其是在处理高分辨率或长序列多模态数据时。其次是保真度与控制力的权衡。Diffusion在细节丰富度上表现出色,但要实现对特定语义或复杂结构进行精确、可靠的控制,仍是一个巨大的挑战,特别是在跨模态融合时,如何确保不同模态之间语义的一致性和连贯性。再者,如何设计统一的加噪/去噪机制以适应文本、图像、音频等异构模态的内在结构,这也是一个基础性难题。目前的DLM虽然有突破,但离真正的“通吃”还有距离。