DraftAttention:无需训练加速视频扩散模型推理,性能提升高达2倍

无需训练,即插即用!DraftAttention通过低分辨率注意力引导,实现视频扩散模型2倍GPU端到端推理加速,显著提升效率。

原文标题:无需训练,即插即用,2倍GPU端到端推理加速——视频扩散模型加速方法DraftAttention

原文作者:机器之心

冷月清谈:

东北大学、香港中文大学、Adobe Research的研究团队提出了一种名为DraftAttention的视频扩散模型加速方法。该方法通过引入动态稀疏注意力机制,利用低分辨率的“草图注意力图”来指导高分辨率注意力计算中的稀疏模式选择,从而显著降低计算开销,实现高达2倍的GPU端到端推理加速,且无需额外训练。DraftAttention的核心优势在于其动态可调性,能够根据输入语义和扩散步长自适应调整注意力结构,保持视频生成质量。实验结果表明,在多个主流视频生成模型上,DraftAttention在生成质量和推理速度方面均优于现有方法,特别是在高稀疏率下能够更好地保留视频的时空一致性和关键结构。该方法具有无需训练、即插即用、动态可调等特性,具备良好的工程可落地性和研究拓展性。

怜星夜思:

1、DraftAttention通过牺牲低分辨率的注意力计算来加速高分辨率视频生成,这种方法在处理视频中快速运动或细节丰富的场景时,会不会丢失一些重要的信息,导致生成质量下降?
2、文章提到DraftAttention是“无需训练、即插即用”的,这对于实际应用来说非常方便。但是,这种方法是否适用于所有的视频扩散模型?或者说,它对模型的结构有什么要求?
3、文章中提到DraftAttention使用了token重排策略来提升硬件效率。这个token重排具体是怎么实现的?为什么要进行token重排?

原文内容


本文第一作者为美国东北大学博士生沈轩,研究方向为高效人工智能,致力于在 GPU、移动端、FPGA 和 ASIC 等多种硬件平台上实现大模型的高效部署与加速。第二作者为香港中文大学的韩晨夏,研究方向聚焦于计算机体系结构与 AI 系统的高效化设计。


在高质量视频生成任务中,扩散模型(Diffusion Models)已经成为主流。然而,随着视频长度和分辨率的提升,Diffusion Transformer(DiT)模型中的注意力机制计算量急剧增加,成为推理效率的最大瓶颈。这是因为在视频生成中,DiT 通常使用 3D 全局注意力来建模时空一致性,虽然效果出色,但计算量会随着 token 数量呈平方增长,带来了巨大的计算负担。在 HunyuanVideo 等视频生成模型中,注意力模块计算时间占比超过 80%,生成仅 8 秒的 720p 视频甚至需要接近一小时的时间。因此,提升视频生成模型的生成速度成为了迫切的需求。


现有视频生成加速方法,如 Sparse VideoGen(https://arxiv.org/abs/2502.01776)和 AdaSpa(https://arxiv.org/abs/2502.21079),多采用稀疏注意力机制,在 GPU 上实现了一定程度的端到端加速。然而,受限于稀疏度不足和稀疏模式设计的刚性,这些方法的加速效果仍不理想。此外,它们普遍依赖固定的稀疏算子,缺乏对输入内容的动态适应能力,难以实现细粒度、内容感知的稀疏模式调控。因此,设计一种具备动态可调性、硬件友好且无需训练的稀疏注意力机制,对提升视频扩散模型的效率与实用性具有重要意义。


近期,来自美国东北大学、香港中文大学、Adobe Research 等机构的研究团队提出了一种无需训练、即插即用的,基于动态稀疏注意力的视频扩散模型加速方法 ——DraftAttention,显著降低了注意力机制的计算开销,并且在几乎不损失生成质量的前提下,实现高达 2 倍的 GPU 端到端推理加速。



  • 论文标题:

    DraftAttention: Fast Video Diffusion via Low-Resolution Attention Guidance

  • arXiv 地址:

    https://arxiv.org/abs/2505.14708

  • GitHub 主页:

    https://github.com/shawnricecake/draft-attention


背景挑战


在视频生成任务中,注意力机制的计算开销是当前模型推理效率的主要瓶颈。如图所示(Figure 1),在 HunyuanVideo 模型中,随着生成视频时长从 8 秒扩展至 32 秒,注意力的计算量(FLOPs)占比迅速上升,最高超过 90%,远超其他模块。这种趋势在高分辨率视频(如 720p 或更高)中尤为显著。造成这一问题的根本原因在于:视频生成模型通常采用时空全局注意力机制,其计算复杂度随 token 数量呈平方增长。而 token 数量本身又与视频的帧数和空间分辨率成正比,因此一旦提升时长或清晰度,计算量将呈几何级数上升,导致推理速度显著下降,难以满足实际部署需求



因此,引入稀疏注意力机制以降低计算开销,是视频生成加速的有效路径。然而,现有稀疏注意力方法普遍依赖固定的稀疏模式或算子,缺乏对输入内容或扩散过程动态变化的适应能力。这种 “静态稀疏” 策略无法根据不同的文本提示、多样化的视频语义,或扩散过程中的中间状态灵活调整注意力分布,最终往往在高稀疏率下造成视频生成质量的显著下降。因此,设计一种具备 “动态可调性” 的稀疏注意力机制,能够根据输入语义和扩散步长自适应调整注意力结构,是维持视频生成质量的关键


问题建模


对于视频生成模型,往往会使用 3D VAE(Variational Autoencoder)来压缩视频到隐藏空间(latent space),以显著减少扩散过程中处理的 token 数量。该隐藏空间保留了视频的核心结构,具有的三维形态,其中代表被压缩后的视频帧数(时间维度),和分别对应视频的分辨率(空间维度)。在此基础上,我们进一步关注隐藏空间内的时空冗余性。由于生成任务中存在大量冗余特征,并非所有 latent token 对注意力机制都同等重要,因此我们提出对 token 重要性进行分析:跳过低重要性的 token 注意力计算,在减少计算量的同时,依然保留关键的视频特征,从而实现有效加速且维持生成质量。


方法概览


为此,本文提出了一种无需训练、动态可调、硬件友好的稀疏注意力机制 ——DraftAttention。其核心思想是:


通过低分辨率 “草图注意力图”(Draft Attention Map)高效估计 token 重要性,并据此指导高分辨率注意力计算中的稀疏模式选择


具体流程如下:


1. 草图构建:首先,对隐藏空间的特征图进行空间下采样(如 816 平均池化),生成低分辨率版本的 Query 和 Key;


2. 草图注意力计算:基于下采样后的 Query 和 Key 计算草图注意力图(Draft Attention Map),以识别注意力图中最具信息量的区域;


3. 稀疏模式引导:从 Draft Attention Map 中选出得分最高的区域,生成结构化稀疏 Mask,用于指导高分辨率下的注意力计算;



4.Token 重排以适配硬件:为了使稀疏区域连续分布、满足 GPU 对 memory layout 的需求,作者提出了一种 token 重排策略,显著提升了稀疏计算的执行效率;



5. 无需训练、即插即用:该机制可直接插入现有视频扩散模型(如 HunyuanVideo 和 Wan2.1)中,无需任何额外训练或微调。


这一设计既从计算图层面降低了注意力的冗余,也从系统执行层面提升了稀疏算子的硬件效率,实现了视频生成速度与质量的双赢。


值得一提的是,DraftAttention 并非经验驱动的启发式方法,而是具备坚实的理论基础。我们从两个角度对其有效性进行了理论分析与证明:


1. 近似误差可控:我们证明了,使用平均池化构建的 Draft Attention Map 与原始高分辨率 Attention Map 之间的差异在 Frobenius 范数意义下是有界的,且该误差随 token 的空间连续性降低;


2. 稀疏掩码引入的误差有界:进一步地,从 Draft Attention Map 中提取的稀疏注意力模式在用于稀疏注意力加速计算后,其影响同样可以被严格界定在一个可控范围内。


这两项理论结果共同说明,草图注意力在提供高质量稀疏引导的同时,并不会显著破坏注意力机制原有的结构表达能力,从而为 DraftAttention 的实际加速效果与生成质量提供了有力的理论保障。


实验结果


我们在多个主流视频生成模型上评估了 DraftAttention 的性能,包括 HunyuanVideo 和 Wan2.1。实验主要从两个维度进行评估:生成质量和推理加速。


在相同计算量下,我们与代表性稀疏注意力方法 Sparse VideoGen (SVG) 进行了对比。在多个评价指标上,DraftAttention 表现更优:


  • PSNR(越高越好):在高分辨率下可提升约 +2~+3 分;

  • SSIM(越高越好):一致性更强,生成视频结构更稳定;

  • LPIPS(越低越好):感知相似度提升,视觉效果更贴近 Ground Truth;

  • VBench 多项指标(图像质量、主体一致性、背景连续性等)均优于 SVG。



特别是在高稀疏率(如 75%~90%)设置下,DraftAttention 能更好保留视频的时空一致性和关键结构,而 SVG 等静态方法则常出现模糊、断帧等质量劣化现象。


同时,我们测试了在 H100 和 A100 GPU 上的加速效果:


  • 在 NVIDIA H100 和 A100 GPU 上,DraftAttention 实现了最高 1.75 的端到端推理加速;

  • 加速效果随视频长度、分辨率、稀疏率同步提升,展现出优越的扩展性;

  • 得益于 token 重排策略,生成过程中稀疏注意力更具硬件亲和性,执行效率显著提升。




另外,我们也提供以下视频生成结果的直接对比:


Prompt: "The banks of the Thames, as the camera moves vertically from low to high."


图片

Dense 


图片

Sparse VideoGen 


图片

DraftAttention 


Prompt: "On the green grass, the white-walled Leaning Tower of Pisa stands tall. The camera moves vertically from top to bottom during filming."


图片

Dense 


图片

Sparse VideoGen


图片

DraftAttention


Prompt: "A blue long dress fell from the balcony clothes rack and dropped into the water on the ground."


图片

Dense


图片

Sparse VideoGen


图片

DraftAttention


Prompt: "Realistic, High-quality. A woman is drinking coffee at a café."


input image

图片

Dense


图片

DraftAttention


总结与展望


DraftAttention 提供了一种简洁而高效的解决方案:通过低分辨率草图引导、结构化稀疏掩码生成与硬件友好的 token 重排,不仅显著提升了视频扩散模型的推理效率,还在高稀疏率下保持了出色的生成质量。其「无需训练、即插即用、动态可调、适配主流模型与硬件」的特性,使其具备良好的工程可落地性和研究拓展性。


未来,作者计划进一步结合量化与蒸馏等技术,继续优化长视频生成过程中的效率瓶颈,推动高质量视频生成模型走向移动端、边缘端等资源受限场景。


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]


这个问题很有意思!DraftAttention的核心在于用低分辨率的“草图”来引导高分辨率的注意力计算。理论上,如果视频中存在剧烈运动或者非常精细的细节,低分辨率的草图可能无法完全捕捉这些信息,从而影响最终的生成质量。但是,文章中提到,研究者对这种近似误差进行了控制,并且通过实验证明,在合理的稀疏率下,DraftAttention依然能够保持出色的生成质量。所以,关键在于如何平衡加速效果和信息损失,找到一个最佳的稀疏率。而且,我觉得这个方法在一些对细节要求不高的场景下,比如生成一些风景视频,效果应该会更好。

从计算机体系结构的角度来看,GPU的设计是面向高吞吐量、数据并行的计算密集型任务。为了实现高吞吐量,GPU通常采用SIMT (Single Instruction, Multiple Threads) 架构,即多个线程执行相同的指令,处理不同的数据。SIMT架构对内存访问模式非常敏感。如果线程访问的内存地址是连续的,那么GPU可以利用合并访问 (coalesced access) 来提高内存访问效率。如果线程访问的内存地址是随机的,那么GPU就无法利用合并访问,导致内存访问效率下降。在稀疏计算中,只有部分token需要参与计算,这些token在内存中可能是分散的。如果直接进行计算,会导致大量的随机内存访问,降低GPU的利用率。Token重排的目的是将需要计算的token在内存中连续排列,从而实现合并访问,提高GPU的计算效率。具体的实现方式可能包括使用额外的buffer来存储重排后的token,或者使用特定的硬件指令来进行内存重排。选择哪种实现方式取决于具体的硬件平台和性能需求。

Token重排策略是DraftAttention的一个巧妙设计,它解决了稀疏计算在GPU上的效率问题。简单来说,token重排就是将需要计算的token在内存中连续排列,避免GPU在访问内存时出现大量的随机访问,从而提高计算效率。具体的重排方法可能涉及到对token的索引进行重新排序,或者通过某种内存拷贝操作来将token移动到连续的内存区域。为什么要进行token重排呢?因为GPU对连续内存的访问效率远高于随机访问。在稀疏计算中,只有一部分token需要参与计算,这些token在内存中可能是分散的,导致GPU需要频繁地进行随机访问,降低了计算效率。通过token重排,可以将这些token集中起来,减少随机访问,从而提高GPU的利用率。

从学术角度来看,这个问题的本质是信息论中的采样定理。低分辨率的“草图”相当于对原始视频信息进行了一次欠采样。如果视频信号的频率高于奈奎斯特频率,就会发生信息混叠,导致高频细节丢失。因此,DraftAttention在处理快速运动或细节丰富的场景时,确实存在信息丢失的风险。然而,研究者通过理论分析和实验验证,证明了这种信息丢失是可以控制的,并且在一定程度上可以通过算法优化来弥补。例如,可以采用更先进的下采样方法,或者在草图注意力计算中引入一些先验知识,来提高对关键信息的捕捉能力。

我理解的token重排,有点像我们平时整理东西。假设你有很多散落在各处的零件,你需要用其中的一部分来组装一个模型。如果你直接在原地找零件,肯定会很慢,因为你需要到处跑。但是,如果你先把需要用到的零件都集中放在一个地方,然后再开始组装,速度肯定会快很多。Token重排就是类似的道理,它把需要计算的token集中起来,让GPU可以更快地访问它们,从而提高计算效率。至于具体的实现方式,可能涉及到一些复杂的算法和数据结构,但核心思想就是让内存访问更加连续和高效。

从工程实践的角度来看,DraftAttention的适用性可能受到以下因素的影响:1) 模型中注意力机制的具体实现方式:不同的模型可能采用不同的注意力机制变体,例如多头注意力、自注意力等。DraftAttention可能需要针对不同的变体进行适配。2) 模型的底层架构:DraftAttention需要在模型中插入稀疏注意力计算模块,这可能需要修改模型的计算图。如果模型的架构过于复杂或封闭,可能难以进行修改。3) 硬件平台的限制:DraftAttention的加速效果依赖于GPU对稀疏计算的支持。如果硬件平台对稀疏计算的支持不好,可能无法达到预期的加速效果。因此,虽然DraftAttention具有“即插即用”的特性,但在实际应用中仍然需要进行一定的实验和调试,以确保其能够正常工作并发挥最佳性能。

“无需训练、即插即用”确实是DraftAttention的一大亮点,大大降低了应用门槛。但理论上讲,没有一种方法是万能的。DraftAttention本质上是对注意力机制进行优化,因此它应该适用于那些依赖注意力机制的视频扩散模型,比如基于Transformer的模型。但是,如果模型本身没有使用注意力机制,或者注意力机制的实现方式与DraftAttention的假设不符,那么可能就无法直接应用。此外,DraftAttention可能对模型的输入尺寸或特征维度有一定的要求,需要根据具体情况进行调整。所以,虽然“即插即用”,但还是要仔细阅读论文和代码,确保DraftAttention能够正确地集成到你的模型中。

我感觉这个问题问到了点子上!就像我们平时画画打草稿一样,如果草稿太粗糙,细节没抓住,最后画出来的成品肯定也会受影响。视频生成也是一样的道理。不过,DraftAttention聪明的地方在于,它不是完全依赖草图,而是用草图来引导高分辨率的注意力计算。这样一来,即使草图有一些信息丢失,高分辨率的计算还是有机会把这些信息找回来的。有点像“抛砖引玉”的意思,草图是“砖”,高分辨率计算是“玉”,最终出来的效果好不好,还得看“玉”的成色。

我觉得这个问题问得很实际!“即插即用”听起来很美好,但现实往往没那么简单。就像我们装软件一样,有些软件号称“一键安装”,但实际上还是会遇到各种各样的问题。DraftAttention也是一样,虽然它不需要额外的训练,但要把它用到不同的视频扩散模型上,肯定还是需要做一些调整和适配的。比如说,不同的模型注意力层的位置可能不一样,特征的维度可能也不一样,这些都需要根据具体情况进行调整。所以,我觉得DraftAttention更像是一个“半成品”,需要我们自己动手去把它完善。