DiffMoE:快手&清华提出动态Token选择扩散模型,性能超越传统模型

快手&清华提出DiffMoE,一种动态Token选择扩散模型,性能超越传统模型,为视觉生成领域带来新突破。

原文标题:DiffMoE:动态Token选择助力扩散模型性能飞跃,快手&清华团队打造视觉生成新标杆!

原文作者:机器之心

冷月清谈:

清华大学和快手可灵团队联合推出了DiffMoE,一种利用动态token选择机制和全局token池设计的扩散模型。该模型通过批级全局token池,使专家网络能够跨样本访问全局token分布,提升了对复杂噪声模式的学习能力,并在训练损失收敛速度上超越了同等参数量的密集模型。此外,DiffMoE还引入动态容量预测器,根据样本复杂度智能分配计算资源,实现了性能与计算成本的灵活权衡。实验结果表明,DiffMoE在图像生成任务中,仅用较少的参数量就能超越参数量更高的传统模型,并在文本到图像生成任务中展现出卓越的泛化能力。

怜星夜思:

1、DiffMoE中提到的“动态token选择”具体是如何实现的?这种选择机制相比于静态选择有哪些优势?
2、DiffMoE引入的“批级全局token池”对模型性能提升有什么帮助?它与传统的单样本token处理方式有什么区别?
3、文章提到DiffMoE在不同任务和参数规模下都表现出良好的性能,这说明了什么?未来DiffMoE有哪些潜在的应用方向?

原文内容


本文由清华大学和快手可灵团队共同完成。第一作者是清华大学智能视觉实验室在读本科生史明磊。

在生成式 AI 领域,扩散模型(Diffusion Models)已成为图像生成任务的主流架构。然而,传统扩散模型在处理不同噪声水平和条件输入时采用统一处理方式,未能充分利用扩散过程的异构特性,导致计算效率低下,近期,可灵团队推出 DiffMoE(Dynamic Token Selection for Scalable Diffusion Transformers),通过创新的动态token选择机制和全局token池设计,拓展了扩散模型的效率与性能边界。



  • 论文标题:DiffMoE: Dynamic Token Selection for Scalable Diffusion Transformers

  • 项目主页:https://shiml20.github.io/DiffMoE/

  • 论文地址:https://arxiv.org/abs/2503.14487

  • 代码:https://github.com/KwaiVGI/DiffMoE


核心突破:动态token选择与全局上下文感知 


DiffMoE 首次在扩散模型中引入批级全局token池(Batch-level Global Token Pool),打破传统模型对单一样本内token的限制,使专家网络能够跨样本访问全局token分布。这种设计模拟了完整数据集的token分布,显著提升了模型对复杂噪声模式的学习能力。实验表明,DiffMoE 在训练损失收敛速度上超越了同等参数量的密集模型(Dense Models),为多任务处理提供了更强大的上下文感知能力。 


针对推理阶段的计算资源分配问题,DiffMoE 提出动态容量预测器(Capacity Predictor),通过轻量级 MLP 网络实时调整专家网络的计算负载。该机制基于训练时的token路由模式学习,在不同噪声水平和样本复杂度间智能分配资源,实现了性能与计算成本的灵活权衡。例如,在生成困难图片时自动分配更多计算资源,而在处理简单图像时降低负载,真正做到 按需计算」。 



性能提升:以少胜多的参数高效模型


在 ImageNet 256×256 分类条件图像生成基准测试中,其他结构细节保持一致的公平对比情况下,DiffMoE-L-E8 模型仅用 4.58 亿参数 (FID50K 2.13), 超越了拥有 6.75 亿参数的 Dense-DiT-XL 模型(FID 2.19)。通过进一步扩展实验,DiffMoE 实现了仅用 1 倍激活参数就实现了 3 倍于密集模型的性能。此外,DiffMoE 在文本到图像生成任务中同样展现出卓越的泛化能力,相较于 Dense 模型有明显效率提升。




多维度验证:从理论到实践


研究团队通过大规模实验验证了 DiffMoE 的优越性: 


动态计算优势:DiffMoE 的平均激活参数量较低的情况下实现了性能指标的显著提升,证明了动态资源分配的高效性;同时,DiffMoE 能够根据样本的难度自动分配计算量。本研究可视化了模型认为最困难和最简单的十类生成。


模型认为的最困难的十类


模型认为的最简单的十类


扩展性测试:从小型(32M)到大型(458M)配置,DiffMoE 均保持性能正向增长,专家数量从 2 扩展到 16 时 FID 持续下降;



跨任务适配:在文本到图像生成任务中,DiffMoE 模型在对象生成、空间定位等关键指标上全面超越 Dense 基线模型。 



总结


在这项工作中,研究团队通过动态token选择和全局token可访问性来高效扩展扩散模型。我们的方法利用专门的专家行为和动态资源分配,有效解决了扩散 Transformer 中固定计算量处理的局限性问题。大量的实验结果表明,DiffMoE 在性能上超越了现有的 TC-MoE 和 EC-MoE 方法,以及激活参数量是其 3 倍的密集型模型。研究团队不仅验证了它在类别条件生成任务中的实用性,也验证了 DiffMoE 在大规模文本到图像生成任务的有效性。虽然为了进行公平比较,我们未纳入现代混合专家(MoE)模型的改进方法,但在未来的工作中,集成诸如细粒度专家和共享专家等先进技术,将可能带来新的增益。


更多细节请参阅原论文。

© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

我认为,DiffMoE的成功在于它找到了提高扩散模型效率的正确方向。未来的应用不仅仅局限于图像生成,还可以尝试应用于其他生成式任务,比如音频生成、视频生成等。此外,结合其他先进的技术,比如强化学习、自监督学习等,DiffMoE的性能还有很大的提升空间。期待看到更多基于DiffMoE的创新应用出现。

静态选择的扩散模型,所有token一视同仁,计算资源消耗大。动态token选择更加灵活,类似于一种注意力机制,关注重要的token,忽略不重要的token,在保证生成质量的同时,降低了计算成本,提高了效率。这种方法在资源有限的情况下,尤其有优势,可以更好地平衡性能和效率。

DiffMoE就像一个“多面手”,啥都会一点,而且还能根据不同的情况调整自己的“技能”。这说明它的底子好,潜力大。未来我觉得可以把它用在一些需要高质量图像生成的场景,比如游戏开发、电影特效,甚至是AIGC内容创作平台上。想象一下,以后咱们自己就能用手机生成各种高质量的图片,是不是很酷?

我觉得全局token池就像是给模型提供了一个“作弊器”。以前只能看自己的作业(单样本token),现在可以参考整个班级的作业(批级全局token),当然学得更快更好啦!区别就在于信息的丰富程度和模型的学习视野。

这个“批级全局token池”是个很关键的创新点。传统的扩散模型,通常只关注单个样本内部的token,信息交流有限。DiffMoE的全局token池相当于建立了一个更大的“聊天室”,让模型可以跨样本地token分布。这样一来,专家网络就能接触到更丰富的token信息,从而更好地理解复杂噪声模式,提升生成质量。可以想象成,一个人学习,闭门造车不如和一群人交流讨论学习,全局token池就相当于提供了一个交流讨论场所。

从技术角度分析,批级全局token池打破了传统模型对于单一样本的限制。模型可以访问多个样本的token信息,从而更好地学习token之间的关系。这种全局视角有助于模型更好地捕捉数据中的潜在规律,提高生成图像的质量和多样性。我觉得这个设计的巧妙之处在于,它并没有增加太多的计算负担,却带来了显著的性能提升。

DiffMoE在不同任务和参数规模下的良好表现,证明了它具有很强的通用性和可扩展性。这说明DiffMoE的设计理念是成功的,它不仅仅是一个针对特定任务的trick,而是一个更普适的框架,可以应用于各种图像生成任务。未来的应用方向非常广泛,比如可以应用于图像修复、超分辨率、风格迁移等领域。此外,考虑到其高效的计算特性,DiffMoE在移动设备或嵌入式系统上也有很大的应用潜力。

这个问题问到了DiffMoE的核心!动态token选择是指模型在处理不同噪声水平和条件输入时,并非一视同仁地处理所有token,而是根据token的重要性动态地调整计算资源。具体来说,DiffMoE使用了一个动态容量预测器(Capacity Predictor),通过一个轻量级的MLP网络实时预测每个token的计算负载。这种预测是基于训练时学习到的token路由模式,模型会根据token的噪声水平和样本复杂度来分配计算资源。优势在于,它能够更有针对性地处理重要的token,避免了对所有token进行无差别的计算,从而提高了计算效率,实现了“按需计算”。

我理解的动态token选择,有点像咱们平时工作中的“抓重点”。以前的扩散模型就像无差别地对所有信息进行处理,费时费力。DiffMoE厉害的地方在于能自动识别哪些token是重要的,然后集中火力处理这些关键信息。静态选择就像是平均用力,肯定不如动态选择这种“集中优势兵力”的效果好。至于具体实现,那得去看论文里的Capacity Predictor了,感觉是挺巧妙的设计。