英伟达 Fast-dLLM:无需训练,扩散大语言模型推理速度提升 27.6 倍

英伟达推出Fast-dLLM,无需训练即可将扩散大语言模型推理速度提升27.6倍,加速长文本生成,同时保证生成质量。

原文标题:谷歌之后,英伟达入局扩散大语言模型,Fast-dLLM推理速度狂飙27.6倍

原文作者:机器之心

冷月清谈:

英伟达联合香港大学、MIT 等机构推出了 Fast-dLLM,这是一种无需重新训练的即插即用加速方案,旨在提高扩散大语言模型的推理速度。该方案通过分块 KV 缓存和置信度感知并行解码等技术,在不牺牲生成质量的前提下,实现了显著的性能提升。分块 KV 缓存通过双向缓存策略和高相似度验证,减少了重复计算,而置信度感知并行解码则通过动态置信度筛选,保证了生成逻辑的连贯性。实验结果表明,Fast-dLLM 在长文本生成任务中实现了高达 27.6 倍的加速,并且在主流基准测试中保持了较高的准确率。由于其零训练成本特性,Fast-dLLM 可以快速集成到现有系统中,为扩散模型在实时交互和长文本生成等场景中的应用提供了更可行的方案。

怜星夜思:

1、Fast-dLLM 通过分块 KV 缓存和置信度感知并行解码实现了推理加速,那么这种加速方法是否可以应用到其他类型的生成模型,例如 GAN 或者 VAE?如果可以,可能需要做哪些调整?
2、文章提到 Fast-dLLM 在长文本生成中实现了显著的加速,那么在实际应用中,这种加速对于哪些场景最有价值?例如,是更适合用于生成新闻报道、小说,还是代码?为什么?
3、Fast-dLLM 的核心在于无需重新训练即可加速扩散模型,那么这种“即插即用”的加速方案是否会成为未来 AI 模型优化的一个趋势?如果未来模型越来越大,这种方案是否还有效?

原文内容


在大语言模型(LLM)领域,推理效率是制约其实际应用的关键因素之一。谷歌 DeepMind 的 Gemini diffusion 曾以 1400 tokens / 秒的生成速度震惊学界,展现了扩散模型在并行生成上的潜力。然而,开源扩散 LLM 却因缺乏 KV 缓存机制和并行解码质量衰退,实际推理速度长期被自回归模型压制.


近日,NVIDIA 联合香港大学、MIT 等机构重磅推出 Fast-dLLM,以无需训练的即插即用加速方案,实现了推理速度的突破!



  • 论文:Fast-dLLM: Training-free Acceleration of Diffusion LLM by Enabling KV Cache and Parallel Decoding

  • 项目地址:https://nvlabs.github.io/Fast-dLLM

  • 论文链接:http://arxiv.org/abs/2505.22618

  • GitHub 链接:https://github.com/NVlabs/Fast-dLLM


通过创新的技术组合,在不依赖重新训练模型的前提下,该工作为扩散模型的推理加速带来了突破性进展。本文将结合具体技术细节与实验数据,解析其核心优势。



一、 核心技术

分块 KV 缓存与置信度感知并行解码


1. 分块 KV 缓存(Block-Wise KV Cache):激活重用率超 90% 的双向加速


传统扩散模型因双向注意力机制难以直接复用计算结果,导致长序列推理效率低下。Fast-dLLM 提出分块 KV 缓存机制,通过以下设计实现高效计算:


  • 双向缓存策略:采用 DualCache 同时缓存前缀(Prompt)和后缀(Masked Tokens)的注意力激活值(KV Cache),如图 1 (a)(b) 所示。在分块生成时,前序块的 KV 激活可直接复用于后续块,减少重复计算🔄。

  • 高相似度验证:实验表明,相邻推理步骤的 KV 激活余弦相似度接近 1(图 2),证明缓存复用的可行性。例如,在 LLaDA 模型中,通过缓存可实现 90% 以上的激活重用,单步计算量显著降低。




2. 置信度感知并行解码(Confidence-Aware Parallel Decoding) 


并行解码虽能提升速度,但条件独立假设易破坏 token 依赖关系,比方说这个例子 The list of poker hands that consist of two English words are: _ _.。后续两个单词可以是 “high card,” “two pair,” “full house,” 或者是 “straight flush.”。值得注意的是,这两个单词之间存在关联。


然而,MDMs 中的多令牌预测过程首先为每个令牌生成一个概率分布,然后从这些分布中独立采样。这种独立采样可能导致不理想的组合(如生成 “high house” 等无效组合)。Fast-dLLM 通过动态置信度筛选解决这一问题(所谓置信度,是指模型给 token 赋予的概率大小):


  • 阈值激活策略:仅对置信度超过阈值(如≥0.9)的 token 进行并行解码,低置信度 token 留待后续步骤处理。如图 3 所示,该策略可在保证生成质量的前提下,并行输出多个 token。

  • 理论证明:当 (n+1)ϵ≤1 时(n 为并行解码 token 数,并且并行解码的 n 个 token 的置信度都大于 1-ϵ),贪婪解码策略下并行解码与顺序解码结果一致,从数学层面确保了生成逻辑的连贯性。


图片


3. 伪代码:分块 KV 缓存与置信度感知并行解码流程


以下是 Fast-dLLM 算法的核心伪代码,结合了分块 KV 缓存以及置信度感知并行解码,无需训练就可以在现有的开源 Diffusion LLM(如 LLaDA、Dream)上即插即用进行推理加速。 



二、 性能突破

速度与精度的均衡优化


1. 长文本生成:27.6 倍端到端加速


在 LLaDA 模型上,针对 1024 token 的长文本生成任务,Fast-dLLM 将单步延迟从 0.26 秒降至 0.09 秒,整体耗时从 266 秒压缩至 12 秒,实现 27.6 倍端到端加速。这一提升在代码生成、数学推理等长序列场景中尤为显著,例如 8-shot 提示的 GSM8K 任务中,加速后仍能保持 76% 的准确率。


2. 精度保持:损失 < 2% 的基准测试表现


在主流基准测试中,Fast-dLLM 的准确率损失控制在 2% 以内:


  • GSM8K(5-shot):LLaDA+Fast-dLLM 准确率为 78.5%,仅比基线低 0.8%,但吞吐量提升 8.1 倍(图 5)。

  • HumanEval(代码生成):准确率达 44.5%,较基线提升 1.2%,同时吞吐量提升 3.7 倍。

  • 多模型兼容:在 LLaDA、Dream 等模型上均实现高效加速,验证了技术的通用性。



三、 应用价值

无需训练的即插即用方案


Fast-dLLM 的零训练成本特性使其成为理想的推理优化工具,能够快速集成到现有的系统中。对于那些已经在使用扩散模型的企业和开发者来说,可以在不改变模型架构和训练流程的基础上,直接利用 Fast-dLLM 提升推理效率,缩短长文本生成耗时,为实际部署提供更可行的方案。


四、 总结与展望


Fast-dLLM 通过分块 KV 缓存与置信度感知并行解码的创新组合,实现了扩散模型推理效率的跨越式提升,同时保持了生成质量的稳定性。其技术设计为非自回归生成模型提供了新的优化范式,有望推动扩散模型在实时交互、长文本生成等场景中的广泛应用。未来,随着模型规模的扩大和蒸馏技术的深化,Fast-dLLM 或将进一步缩小与自回归模型的性能差距,成为 LLM 推理加速的核心方案之一。



© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

我来泼一盆冷水。

我觉得“即插即用”的加速方案,更像是一种“trade-off”,即在性能和效率之间做出权衡。它牺牲了一部分性能,来换取更高的效率和更低的成本。

在模型规模较小的时候,这种 trade-off 可能是值得的。但当模型规模越来越大,性能的损失可能会变得无法接受。毕竟,对于大型 AI 模型来说,性能才是最重要的,效率可以排在后面。宁愿多花点钱,也要保证模型的性能。

此外,“即插即用”的方案往往是通用的,缺乏针对性。而大型 AI 模型往往具有独特的结构和特点,需要定制化的优化方案才能达到最佳效果。因此,未来的 AI 模型优化,可能更倾向于定制化,而不是通用化。

当然,这只是我个人的看法,未来会如何发展,谁也说不准。也许会出现一种新的“即插即用”方案,能够完美解决性能和效率之间的矛盾。让我们拭目以待。

楼上说的都太学院派了,我来个接地气的。

其实啊,我觉得这玩意儿能不能用到 GAN 和 VAE 上,关键看有没有人愿意花时间去折腾。GAN 和 VAE 现在已经很成熟了,各种魔改版本层出不穷,但真正能带来质的飞跃的却不多。Fast-dLLM 看起来很美好,但移植到其他模型上肯定会遇到各种问题,说不定最后还不如原来的效果好。

所以,与其想着怎么把 Fast-dLLM 应用到 GAN 和 VAE 上,不如先看看有没有人能把 Fast-dLLM 玩出花来,做出真正有意思的应用。如果 Fast-dLLM 本身都不火,那移植到其他模型上就更没戏了。

这个问题很有意思!Fast-dLLM的核心在于优化Attention机制,而Attention机制在各类生成模型中应用广泛。个人觉得,将分块KV缓存应用到GANs和VAEs上是存在理论上的可能性的,但需要根据模型的具体结构进行调整。
* GANs: GANs通常依赖对抗训练,生成器和判别器之间的博弈决定了生成质量。如果将分块KV缓存引入生成器,或许可以加速图像或文本的生成过程。不过,GANs的训练稳定性是个大问题,任何改动都需要小心翼翼,避免破坏生成器和判别器之间的平衡。
* VAEs: VAEs通过编码器将输入映射到潜在空间,然后解码器从潜在空间重建输入。分块KV缓存或许可以优化解码器的效率,尤其是在生成长序列数据时。但是,VAEs对潜在空间的依赖性很高,任何加速都不能影响潜在空间的质量,否则重建效果会大打折扣。

总的来说,移植Fast-dLLM的技术到GANs和VAEs需要谨慎,并结合具体模型特点进行调整。这方面的研究或许能带来新的突破!

个人认为,Fast-dLLM 在代码生成数学推理等长序列场景中最有价值,原因如下:

1. 对token依赖关系要求高:代码和数学公式的生成,往往需要精准的语法和逻辑,token之间的依赖关系非常强。Fast-dLLM 通过置信度感知并行解码,可以在保证生成质量的前提下进行加速,这对于代码和数学公式的生成至关重要。
2. 容错率低:代码和数学公式对错误的容忍度极低,一个标点符号的错误就可能导致程序崩溃或计算结果错误。Fast-dLLM 在保证精度的前提下进行加速,可以有效避免这类问题。
3. 长文本生成需求高:代码和数学公式往往需要较长的文本序列来表达复杂的逻辑和计算过程。Fast-dLLM 在长文本生成方面的优势,可以更好地满足这类需求。

相比之下,新闻报道和小说等场景对token依赖关系和容错率的要求相对较低,对生成速度的敏感度也可能不如代码和数学推理那么高。当然,这并不意味着 Fast-dLLM 在这些场景中没有价值,只是说在代码和数学推理等场景中,其价值可能更加突出。

谢邀,我觉得这个问题问到了点子上。Fast-dLLM 针对扩散模型 Attention 机制的优化,本质上是在寻找一种更高效的计算方式,减少冗余计算。这种思路具有普适性。

* GANs: GANs 的生成器通常是前馈网络,可能没有直接应用 KV 缓存的机会。但是,如果将 Transformer 结构引入 GANs(现在也有不少这样的工作),那么 KV 缓存就有用武之地了。关键在于如何平衡生成质量和计算效率,避免加速后生成效果变差。
* VAEs: VAEs 的解码器部分与扩散模型有相似之处,都涉及到序列生成。因此,分块 KV 缓存或许可以直接应用到 VAEs 的解码器中。此外,VAE 的潜在空间表征也可以作为 KV 缓存的一部分,用于指导生成过程。这可能需要对 VAE 的训练方式进行一些调整。

总之,将 Fast-dLLM 的思想推广到其他生成模型,需要深入理解这些模型的内部机制,并进行有针对性的设计和实验。

我来个不一样的角度!

我觉得 Fast-dLLM 最有价值的应用场景,应该是需要实时反馈的交互式应用。比如,在线编程教育、智能客服、实时翻译等等。这些应用场景都需要快速生成内容,才能保证用户体验。

想象一下,一个学生正在学习编程,他输入一行代码,AI 能够立即给出运行结果和错误提示,这对于学习效率的提升是巨大的。或者,一个用户正在和 AI 客服对话,AI 能够实时理解用户意图并给出回复,这会大大提高用户满意度。

当然,要实现这些应用,还需要解决很多其他问题,比如如何保证生成内容的质量、如何处理用户的复杂输入等等。但 Fast-dLLM 提供的加速能力,无疑是实现这些应用的重要一步。

这个提问很棒,一下子就抓住了重点!我觉得要回答这个问题,需要考虑两个关键因素:生成内容的结构化程度对生成速度的容忍度

* 代码生成: 代码具有高度结构化的特点,语法和逻辑必须严格遵守。同时,程序员对代码生成速度有较高要求,希望能尽快看到结果并进行调试。因此,Fast-dLLM 在代码生成领域有很大的应用潜力。
* 数学推理: 数学公式和证明过程也具有很强的结构化特点,每一步都必须严谨。此外,数学研究者通常需要尝试多种不同的解题思路,快速生成结果可以帮助他们更快地验证想法。因此,Fast-dLLM 同样适用于数学推理场景。
* 新闻报道: 新闻报道的结构化程度相对较低,语言表达也更加灵活。虽然记者也希望尽快完成稿件,但通常可以容忍一定的等待时间。因此,Fast-dLLM 在新闻报道领域的优势可能不如代码生成和数学推理那么明显。
* 小说: 小说创作具有极高的自由度,对结构化程度的要求很低。同时,小说家通常需要花费大量时间进行构思和修改,对生成速度的敏感度不高。因此,Fast-dLLM 在小说创作领域的应用价值可能相对有限。

综上所述,Fast-dLLM 更适合用于生成结构化程度高、对生成速度要求高的内容,例如代码和数学公式。

“即插即用”的加速方案绝对会成为未来AI模型优化的重要趋势!原因很简单:

1. 训练成本高昂:训练大型AI模型需要耗费大量的计算资源和时间,重新训练的成本非常高。即插即用的方案可以有效降低成本,提高效率。
2. 模型迭代加速:AI模型的发展日新月异,新的模型层出不穷。即插即用的方案可以快速应用于各种模型,加速模型的迭代和更新。
3. 部署便捷性:即插即用的方案可以方便地集成到现有的系统中,无需对系统进行大规模的改造,降低了部署的难度。

至于未来模型越来越大,这种方案是否还有效,我认为关键在于加速方案的设计是否能够适应模型规模的增长。例如,Fast-dLLM 的分块 KV 缓存和置信度感知并行解码,都需要考虑模型规模对缓存效率和并行解码效果的影响。如果加速方案能够随着模型规模的增长进行自适应调整,那么它仍然会有效。此外,未来的加速方案可能还需要结合硬件加速技术,例如 GPU、TPU 等,才能更好地应对大规模模型的挑战。

我持比较乐观的态度。

首先,AI 模型越来越大是必然趋势,但也意味着推理成本越来越高。如何在保证性能的前提下降低推理成本,是所有 AI 从业者都需要面对的问题。

其次,“即插即用”的加速方案,本质上是在寻找一种更加高效的算法或数据结构,来优化模型的推理过程。这种优化与模型本身的学习能力无关,因此可以独立于模型进行发展。

最后,如果未来模型真的大到无法想象,可能需要从硬件层面进行突破,例如研发新型芯片、采用量子计算等。但即使有了更强大的硬件,也仍然需要高效的算法来充分利用硬件资源。因此,“即插即用”的加速方案仍然有其存在的价值。

当然,我们也要看到,“即插即用”的方案也有其局限性。例如,它可能无法达到重新训练模型所能达到的最佳性能。但考虑到成本和效率,它仍然是一种非常有吸引力的选择。