MeanFlow:何恺明团队提出单步图像生成新框架,性能提升高达50%

何恺明团队新作MeanFlow,单步图像生成SOTA,ImageNet 256x256数据集上FID达到3.43,性能提升高达50%,无需预训练。

原文标题:何恺明团队又发新作: MeanFlow单步图像生成SOTA,提升达50%

原文作者:机器之心

冷月清谈:

何恺明团队提出了一种名为 MeanFlow 的单步生成建模框架,该框架通过引入平均速度的概念来改进现有的流匹配方法。MeanFlow 在 ImageNet 256×256 数据集上取得了显著优于以往单步扩散/流模型的结果,FID 分数达到 3.43,并且无需预训练、蒸馏或课程学习。该方法的核心是使用平均速度代替流匹配中通常建模的瞬时速度,从而训练神经网络来直接建模平均速度场。实验结果表明,MeanFlow 在单步图像生成任务中表现出了强大的性能,大幅缩小了单步模型与多步模型之间的差距。

怜星夜思:

1、MeanFlow 框架中,平均速度和瞬时速度之间有什么本质区别?为什么用平均速度能带来更好的生成效果?
2、文章提到 MeanFlow 无需预训练、蒸馏或课程学习就能达到很好的效果,这背后的原因是什么?这种“从零开始”的训练方式有什么优势和劣势?
3、MeanFlow 在 ImageNet 256×256 数据集上的表现已经接近多步扩散/流模型,未来在哪些方面还有提升空间?单步生成模型的发展前景如何?

原文内容

机器之心报道

编辑:陈萍


这段时间,大神何恺明真是接连不断地发布新研究。


这不,5 月 19 日,他又放出一篇新作!作者团队来自 CMU 以及 MIT。



  • 论文标题:Mean Flows for One-step Generative Modeling 

  • 论文地址:https://arxiv.org/pdf/2505.13447v1


文章提出了一种名为 MeanFlow 的单步生成建模框架,通过引入平均速度(average velocity)的概念来改进现有的流匹配方法,并在 ImageNet 256×256 数据集上取得了显著优于以往单步扩散 / 流模型的结果,FID 分数达到 3.43,且无需预训练、蒸馏或课程学习。


生成模型旨在将先验分布转换为数据分布。流匹配提供了一个直观且概念简单的框架,用于构建将一个分布传输到另一个分布的流路径。流匹配与扩散模型密切相关,但关注的是引导模型训练的速度场。自引入以来,流匹配已在现代生成模型中得到广泛应用。


本文提出了一种名为 MeanFlow 的理论框架,用于实现单步生成任务。其核心思想是引入一个新的 ground-truth 场来表示平均速度,而不是流匹配中常用的瞬时速度。


文章提出使用平均速度(在时间间隔内的位移与时间的比值)来代替流匹配中通常建模的瞬时速度。然后本文推导出平均速度与瞬时速度之间存在一个内在的关系,从而作为指导网络训练的原则性基础。


基于这一基本概念,本文训练了一个神经网络来直接建模平均速度场,并引入损失函数来奖励网络满足平均速度和瞬时速度之间的内在关系。


本文进一步证明,该框架可以自然地整合无分类器引导(CFG),并且在采样时无需额外成本。


MeanFlow 在单步生成建模中表现出了强大的性能。在 ImageNet 256×256 数据集上,仅使用 1-NFE(Number of Function Evaluations)就达到了 3.43 的 FID 分数。这一结果显著优于之前同类方法的最佳水平,相对性能提升达到 50% 到 70%(见图 1)。



此外,MeanFlow 是一个自成一体的生成模型:它完全从头开始训练,没有任何预训练、知识蒸馏或课程学习。该研究大幅缩小了单步扩散 / 流模型与多步研究之间的差距。


方法介绍


MeanFlow 核心思想是引入一个代表平均速度的新场。


平均速度 u 可表示为:



其中,u 表示平均速度,v 表示瞬时速度。u (z_t,r,t) 是一个同时依赖于 (r, t) 的场。u 的场如图 3 所示:



平均速度 u 是瞬时速度 v 的函数,即图片,它是由 v 诱导的场,不依赖于任何神经网络。


进一步的,为了得到适合训练的公式,本文将 Eq.(3) 改写为:


图片


然后两边对 t 求导,把 r 看作与 t 无关的变量,得到:


图片


其中左侧的运算采用乘积法则,右侧的运算采用微积分。重新排列项,得到恒等式:



这个方程称为 MeanFlow 恒等式,它描述了 v 和 u 之间的关系。


图 1 给出了最小化损失函数的伪代码。



单步采样



实验效果如何?


实验是在 256×256 ImageNet 数据集上进行的。


图 1 中,本文将 MeanFlow 与之前的单步扩散 / 流模型进行了比较,如表 2(左)所示。总体而言,MeanFlow 的表现远超同类:它实现了 3.43 的 FID,与 IMM 的单步结果 7.77 相比,相对提升了 50% 以上。


如果仅比较 1-NFE(而不仅仅是单步)生成,MeanFlow 与之前的最佳方法(10.60)相比,相对提升了近 70%。不难看出,本文方法在很大程度上缩小了单步和多步扩散 / 流模型之间的差距。



在 2-NFE 生成中,MeanFlow 实现了 2.20 的 FID(表 2 左下)。这一结果与多步扩散 / 流模型的领先基线模型相当,即 DiT (FID 2.27)和 SiT (FID 2.15),两者的 NFE 均为 250×2(表 2 右)。


这一结果表明,few-step 扩散 / 流模型可以媲美其多步模型。值得注意的是,本文方法是独立的,完全从头开始训练。它无需使用任何预训练、蒸馏或课程学习,就取得了出色的结果。


表 3 报告了在 CIFAR-10(32×32)上的无条件生成结果,本文方法与先前的方法相比具有竞争力。




表 1 为消融实验结果:



最后,展示一些 1-NFE 的生成结果。



更多详情请参阅原论文。


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

现在炼丹都讲究一个“传承”,各种预训练模型层出不穷,恨不得站在巨人的肩膀上起飞。MeanFlow 这种“白手起家”的精神确实难得!优势就是没有历史包袱,可以轻装上阵;劣势也很明显,一切都要自己摸索,难度系数直线提升。

我觉得 MeanFlow 还有以下提升空间: 1. 模型结构优化:可以尝试使用更先进的网络结构,例如 Transformer 等。 2. 损失函数改进:可以探索更有效的损失函数,进一步提升生成质量。 3. 采样策略优化:可以研究更高效的采样策略,进一步加速生成过程。 单步生成模型的发展前景广阔,未来有望在图像编辑、视频生成等领域发挥重要作用。

谢邀,怒答一波。瞬时速度是微分的概念,MeanFlow的平均速度是积分的概念,微分指导的是变化趋势,积分指导的是最终走向,最后的结果固然重要,所以效果好也不难理解了。

我觉得平均速度和瞬时速度的区别就像是导航软件给出的路线规划(平均)和车辆实际行驶的每时每刻的速度(瞬时)。导航给的是一个宏观的指导,而实际行驶会受到各种因素的影响。MeanFlow 用平均速度,可能就是为了减少这种随机性,让生成过程更稳定可控。至于效果好,可能是因为它更符合我们对图像生成过程的直觉理解,避免了瞬时速度带来的噪声干扰。

单步模型最大的优势在于速度快,但通常在生成质量上略逊于多步模型。未来的发展方向可能是: 1. 如何在保证速度的同时,进一步提升生成质量? 2. 如何将单步模型应用到更复杂的生成任务中,例如高分辨率图像生成、3D 模型生成等? 3. 如何与其他技术结合,例如对抗生成网络(GANs)、变分自编码器(VAEs)等,形成更强大的生成模型?

无需预训练,意味着模型可以更灵活地适应目标数据集的特性,避免了预训练数据与目标数据之间的 mismatch。 蒸馏和课程学习都是为了加速训练过程,而 MeanFlow 本身可能就具有很高的训练效率,所以不需要这些额外的技巧。 优势:摆脱对先验知识的依赖,更灵活; 劣势:对初始化和优化算法要求更高。

从数学角度看,瞬时速度是时间间隔趋近于零时的平均速度的极限。在实际应用中,建模瞬时速度需要处理很多高频噪声,而平均速度则可以看作是对瞬时速度的一种平滑,降低了模型的复杂度。此外,平均速度直接反映了起点到终点的整体位移,可能更容易被模型学习和控制,从而提升生成效果。

个人认为,这可能与 MeanFlow 框架本身的设计有关。采用了平均速度的概念,使得模型更容易学习和收敛,从而降低了对预训练数据的依赖。此外,MeanFlow 损失函数的设计也可能起到了关键作用,能够有效地引导模型训练。从零开始的优势在于避免了预训练模型带来的偏差,劣势则在于可能需要更多的训练资源和时间。

如果说多步模型是精雕细琢的工艺品,那单步模型就是效率至上的工业品。MeanFlow 的出现,让人们看到了单步模型赶超多步模型的希望。 个人认为,未来的研究重点可以放在如何更好地建模数据分布,以及如何设计更高效的采样算法上。