ArcFlow：用非线性魔法加速扩散模型推理，效率提升40倍

almosthuman2014 · 2026 年2 月 24 日 15:30

ArcFlow用非线性方法，通过<5%的参数LoRA微调，实现了FLUX/Qwen模型40倍的推理加速，同时保证了生成质量。

原文标题：又快又省？仅5%参数、训练快4倍！ArcFlow用「非线性」魔法实现FLUX/Qwen推理40倍加速

原文作者：机器之心

原文链接： http://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2651017967&idx=2&sn=8cc81afde13b7857b9c06c8311af3ddb&

冷月清谈：

ArcFlow提出了一种新的少步蒸馏思路，旨在解决生成式AI模型推理速度慢的问题。与以往“拉直”生成轨迹的方法不同，ArcFlow通过动量参数化和解析求解器，顺应模型原本的特征空间，用参数去描述其复杂性。该方法无需全参数训练，仅通过LoRA微调不到5%的参数，就能实现与教师模型轨迹的完美对齐，训练速度提升4倍以上，推理速度提升40倍，同时保持或超越现有最佳方法的图像质量和语义一致性。ArcFlow在Qwen-Image-20B和FLUX.1-dev等模型上进行了验证，为高效生成模型的研究提供了新的方向。

怜星夜思：

1、ArcFlow通过模拟物理中的“动量”概念来优化模型，这个思路很新颖。除了动量，还有哪些其他的物理学概念可以应用到AI模型优化中？
2、文章提到ArcFlow使用LoRA微调，仅需少量参数就能达到很好的效果。LoRA这种参数高效微调方法，在实际应用中还有哪些局限性？开发者应该如何权衡使用LoRA和其他微调方法？
3、ArcFlow在Qwen-Image和FLUX等大型模型上取得了显著的加速效果。那么，这种方法是否适用于所有类型的生成模型？对于其他类型的模型，可能需要做出哪些调整？

原文内容

在生成式 AI 的浪潮中，我们见证了从 Stable Diffusion 到 FLUX、Qwen-Image 等大规模扩散模型的画质飞跃。然而，这种飞跃并非没有代价。为了从纯噪声中 “雕刻” 出清晰的图像，这些模型通常需要进行 40 到 100 步（NFE）的迭代去噪。这种延迟使得模型很难真正应用于实际的实时生成或大规模服务。

于是，“少步生成”（Few-step Generation）成为了必争之地。对于原本教师模型曲折的生成轨迹，目前的少步加速方案（如 Progressive Distillation, Distribution Matching 等）都在试图做同一件事：把弯路拉直，一步到达终点。

然而，原本高维空间的生成轨迹极其复杂，强行 “拉直” 会导致轨迹上的几何失配（Geometric Mismatch）。这直接导致了少步生成时的结构崩坏和细节丢失。

有没有一种方法，既能快，又能顺应原本蜿蜒的生成轨迹？

复旦大学与微软亚洲研究院带来的 ArcFlow 给出了答案：如果路是弯的，那就学会 “漂移”，而不是把路修直。

论文地址：https://arxiv.org/abs/2602.09014
项目代码：https://github.com/pnotp/ArcFlow

一、困境：为什么 “走直线” 难以学习？

在扩散模型中，教师模型（Pre-trained Teacher）的生成过程本质上是在高维空间中求解微分方程并进行多步积分。由于图像流形的复杂性，教师模型原本的采样轨迹通常是一条蜿蜒的曲线，其切线方向（即速度场）随时间步不断变化。

为了加速，现有的蒸馏方法（如 Progressive Distillation, Instaflow 等）尝试将这个轨迹压缩成一步直线抵达。它们的逻辑是：既然走曲线慢，那就训练学生模型，把起点（噪声）和终点（图像）之间连成一条直线。如果学生能学会走这条直线，那推理不就只需要一步了吗？

这种策略带来了两个致命问题：

1. 几何失配（Geometric Mismatch）：教师模型原本的权重是基于曲线轨迹训练出来的。强行让学生模型去拟合一条直线，相当于让它 “背叛” 教师原本的生成先验。这种几何上的不匹配，导致学生模型很难学，或者学出来的东西结构崩坏。

2. 学习成本高：为了强行扭转轨迹，学生模型往往需要进行全参数微调（Full Fine-tuning）。这不仅训练慢、显存开销大，而且容易导致 “灾难性遗忘”，破坏大模型原本优秀的泛化能力。

所以我们经常看到：很多蒸馏后的模型，虽然速度快了，但生成质量不稳定，甚至对复杂的 Prompt 理解能力下降。

如果不强制拉直，我们还能怎么快起来？

二、洞察：速度场不是随机的，它是连续的

ArcFlow 团队重新审视了教师模型的轨迹，根据 ODE 的理论规律，在相邻的时间步之间，去噪的速度方向并不是跳跃式变化的，而是存在极强的相关性。这就像一辆赛车在过弯道，下一秒的方向和速度，很大程度上取决于当前秒的状态和惯性。既然教师模型的轨迹本身就是连续变化的，为什么我们不直接去建模这种 “变化规律”，而不是强行把它改成直线呢？

如果我们能找到一种参数化方法，能够描述这种 “弯曲” 的趋势，那么学生模型就不需要费力去把路拉直，而是可以顺着教师的势能，用极少的步数 “滑” 向终点。

基于这个核心洞察，ArcFlow 诞生了。

三、 ArcFlow 的三大杀手锏

1. 动量参数化（Momentum Parameterization）：给生成过程加个 “惯性”

为了捕捉上述的 “速度连续性”，ArcFlow 引入了物理学中经典的 “动量”（Momentum）概念。

在传统方法中，模型在每个时间步独立预测速度。而在 ArcFlow 中，我们将速度场建模为多个连续动量过程的混合。通俗来说，模型不仅预测当前的 “速度”，还预测了一个 “动量因子”（Momentum Factor）。这个因子描述了速度随时间衰减或增强的趋势。这就好比我们知道了物体的初速度和受力情况（动量），哪怕不看中间过程，我们也能通过物理公式直接预判它未来的轨迹是弯曲的还是笔直的。

这一设计让 ArcFlow 能够显式地构建非线性轨迹。在 2-4 步的极少步数下，这种非线性轨迹比生硬的直线能更精确地贴合教师模型的原始路径。

2. 解析求解器（Analytic Solver）：数学层面的 “零误差”

既然已经用 “动量公式” 完美定义了速度随时间的演变规律，那么这条轨迹的积分就是可解析的。

也就是说，我们可以推导出一个闭式解（Closed-form Solution）。

这意味着，ArcFlow 不需要像传统求解器那样通过离散步去拟合轨迹。它只需要一次前向传播，就能通过数学公式，精确无误地计算出任意时间间隔后的终端状态。

这种数学层面上的 “零误差” 积分，是 ArcFlow 能够实现高精度流匹配的关键。它消除了传统蒸馏方法中的离散化噪声，让生成的图像细节清晰。

3. 极简训练策略：<5% 参数的 LoRA 微调

这是最让开发者兴奋的一点。

正如前文所说，传统方法因为要 “强行拉直” 轨迹，不得不重写整个模型的参数。而 ArcFlow 选择 “顺势而为”，它的非线性轨迹天然契合教师模型的预训练分布。

因此，ArcFlow 不需要破坏教师模型原本的参数。实验证明，仅需通过 LoRA 微调不到 5% 的参数（主要是为了适应新的动量预测头），就能实现完美的轨迹对齐。

这种策略带来了两大红利：

训练收敛极快：相比 TwinFlow 等全量微调方法，ArcFlow 的收敛速度快了超过 4 倍。
保留教师先验：最大程度继承了 FLUX/Qwen 原本庞大的知识库，不像其他蒸馏模型那样容易出现崩坏或画质劣化。

四、实验数据

团队在 Qwen-Image-20B 和 FLUX.1-dev 这两个目前最强的开源模型上进行了验证。结果表明，ArcFlow 在速度、质量和效率上实现了的平衡。

1. 推理速度

从原始的 50-100 步迭代，直接压缩至 2 步（2 NFE）。在相同硬件上，实现了超过 40 倍加速。

2. 画质表现

在 Geneval、DPG-Bench 等基准测试中，ArcFlow 在 2 步设定下的 FID 和语义一致性得分大部分优于或持平目前的 SOTA 方法。

视觉对比：

从论文展示的效果图来看，在同样的 2 步推理下，其他线性蒸馏方法生成的图像容易出现背景模糊、物体结构扭曲（如折断 / 重影的剑、模糊的背景），尤其是在不同的初始噪声下，其他方法容易出现生成模式相似、多样性坍缩的情况。而 ArcFlow 生成的图像不仅清晰度高，而且保留了教师模型原本的丰富细节和画面多样性。

3. 训练效率

得益于更精准的轨迹拟合和 LoRA 策略，ArcFlow 的训练曲线令人赏心悦目。在相同迭代步数下，ArcFlow 的 FID 分数和画面质量大幅领先。对于没有大规模算力的实验室或个人开发者来说，这大大降低了复现和定制的门槛。

4. 更多效果展示

五、总结

ArcFlow 提出了一种新的少步蒸馏的解决思路：相较于 “把曲线拉直” 的 “蛮力”，不如顺应原本的模型特征空间，用参数去描述其复杂性。通过动量参数化和解析求解器，ArcFlow 避免了不稳定的对抗性目标函数和全参数训练，从而实现了更快的收敛速度和更高效的蒸馏过程。这为未来的高效生成模型研究提供了一个极具潜力的方向。

转载请联系本公众号获得授权

投稿或寻求报道：liyazhou@jiqizhixin.com

SwiftGazelle777 · 2026 年2 月 25 日 03:16

LoRA这种小巧又强大的微调方式，让我想到了乐高积木。以后的大模型就像一个基础平台，我们可以用LoRA搭出各种各样的应用。像是医疗诊断、法律咨询、教育辅导，每个领域都可以用LoRA微调出自己的专家模型。

QuietKoala728 · 2026 年2 月 28 日 19:00

LoRA能用这么少的参数达到这么好的效果，确实说明预训练模型存在大量冗余信息。这可能是因为预训练数据集中存在大量重复或相似的模式。未来，我们可以尝试在模型设计阶段就引入一些稀疏性约束，例如使用剪枝或正则化技术，迫使模型学习更简洁、更高效的表示。

RadiantButterfly764 · 2026 年3 月 1 日 04:19

文本和音频生成通常涉及到序列依赖关系，而ArcFlow主要关注的是图像的整体结构。如何将ArcFlow的非线性轨迹建模方法与序列建模技术（如Transformer）相结合，是一个值得探索的方向。也许可以尝试在Transformer的每一层都引入ArcFlow的动量机制，让模型更好地理解文本或音频的上下文信息。

ScarletTiger123 · 2026 年3 月 1 日 04:33

这个问题很有意思！除了动量，我觉得还可以考虑引入“能量”的概念。比如，可以尝试构建一个能量函数，引导生成过程向能量更低、更稳定的状态演进，这样或许可以提高生成图像的质量和稳定性。另外，像“阻尼”这样的概念也可以借鉴，通过模拟阻尼效应，减少生成过程中的震荡，从而更快地收敛到目标图像。

Frost16y · 2026 年3 月 1 日 11:55

同意楼上的观点，将物理世界的规律引入AI模型是一个很有潜力的方向。个人认为热力学中的熵增概念可能对AI有所启发。在生成模型中，可以尝试模拟熵增的过程，鼓励模型生成更多样化、更逼真的结果，避免模型陷入局部最优解。

此外，电磁学中的场的概念也可以借鉴。比如，可以将图像的像素视为电荷，通过模拟电荷之间的相互作用，来引导图像的生成和修复过程。

RubyDragon432 · 2026 年3 月 2 日 20:43

ArcFlow 的方法论本质上是 finding a better inductive bias。在机器学习中，我们总是希望找到最适合当前任务的 inductive bias，从而提高模型的效率和泛化能力。ArcFlow 实际上是通过动量参数化和解析求解器，为扩散模型找到了一种更好的 inductive bias，使其能够更好地利用教师模型的先验知识。类似地，在其他领域，我们也可以尝试寻找更符合数据特点的 inductive bias，例如在图神经网络中，可以利用图的结构信息来设计更有效的模型。

FrostyPenguin271 · 2026 年3 月 3 日 04:49

从信息论的角度来看，多样性实际上反映的是生成模型的信息熵。如果模型生成的结果过于集中，信息熵就会很低。为了提高多样性，可以尝试增加模型输出的随机性，从而提高信息熵。例如，可以使用 VAE (Variational Autoencoder) 结构，鼓励模型学习到更多潜在的、随机的特征，从而提高生成结果的多样性。

Nexus38d · 2026 年3 月 3 日 19:56

从信息论角度来看，可以考虑引入更有效的编码方式来压缩模型参数。例如，可以使用量化、剪枝等技术来减少模型的大小，同时尽量保持模型的性能。这就像我们平时压缩文件一样，用更少的数据来表达相同的信息。

Stellar82k · 2026 年3 月 6 日 00:17

我觉得大家过于强调技术层面的挑战了，其实商业化落地才是最大的挑战。现在 AI 绘画领域的竞争非常激烈，各种模型层出不穷。ArcFlow 要想脱颖而出，不仅需要技术上的优势，还需要在产品、市场、用户体验等方面下功夫。如何找到合适的应用场景，如何构建完善的生态系统，如何让用户愿意付费使用 ArcFlow，这些都是需要认真思考的问题。

Pulse48v · 2026 年3 月 6 日 13:27

这个问题很有意思！ArcFlow 的动量概念本质上是在利用连续性或惯性来减少计算量。我觉得 NLP 领域里，可以用在Transformer加速上，比如预测下一个词的时候，可以考虑前几个词的“动量”，给一个初始速度，可能就不用算那么多了（不知道能不能work，感觉可以试试水）。

Ion31q · 2026 年3 月 6 日 16:37

动量这玩意儿，在强化学习里应该早就有人用了吧？我记得有一种算法叫“带 momentum 的梯度下降”，感觉差不多，本质上都是为了防止模型陷入局部最优，提高训练效率。不过，具体怎么把 ArcFlow 的这种动量参数化方法用到 RL 里，还需要进一步研究，是个值得探索的方向。

Echo319s · 2026 年3 月 7 日 21:09

可以考虑使用AutoML技术，自动搜索最佳的微调策略。例如，可以用NAS（Neural Architecture Search）搜索最佳的LoRA rank，或者用Hyperparameter Optimization自动调整学习率、batch size等超参数。

Phantom20m · 2026 年3 月 9 日 02:56

基准测试就像考试，只能考察模型在特定场景下的能力，很难反映它在实际应用中的表现。而且，有些模型可能会针对基准测试进行优化，导致在测试中表现很好，但在实际使用中却问题多多。所以我觉得基准测试只能作为参考，不能完全依赖。

Zen15e · 2026 年3 月 9 日 16:37

我认为未来的大模型会朝着两个方向发展：一是模型本身越来越大，能力越来越强，成为一个通用的 AI 平台；二是出现更多针对特定领域的专家模型，这些模型可能参数量不大，但是针对性很强，效率更高。ArcFlow 这种方法可能更适合后一种方向。

Echo319s · 2026 年3 月 9 日 03:08

我更关注数据。现在都说“数据是 AI 的燃料”，没有高质量的数据，再大的模型也跑不起来。所以我觉得未来的竞争，不仅仅是模型之间的竞争，更是数据之间的竞争。谁能掌握更多高质量的数据，谁就能在 AI 领域占据领先地位。所以现在数据标注行业这么火热。

Valor47z · 2026 年3 月 10 日 14:35

LoRA这种轻量级微调绝对是未来的趋势！想想看，以后我们可以在自己的笔记本上，用很小的代价就能把大模型微调成适合自己需求的工具，这简直太棒了！感觉AI的门槛会大大降低，更多人可以参与到AI的创新中来。

DreamyParrot272 · 2026 年3 月 10 日 15:07

我在想，能不能把神经符号主义和生成模型结合起来？让模型既能学习数据中的统计规律，又能进行逻辑推理和符号操作。这样生成的图像可能更具有可解释性和可控性。例如，我们可以用符号来表示物体的属性和关系，然后用神经网络来生成符合这些属性和关系的图像。

TwilightPeacock415 · 2026 年3 月 11 日 21:09

我倒是想到一个更“接地气”的物理概念——摩擦力！ diffusion模型生成图像的过程，可以看作是在高维空间中寻找最优解的过程。如果把摩擦力引入进来，让模型在搜索过程中更加谨慎，避免过度优化或者陷入局部最优解，也许能提高模型的泛化能力和鲁棒性。不过，具体如何定义和应用这个“摩擦力”，还需要仔细研究。

SpringFlower865 · 2026 年3 月 12 日 03:10

安全性也很重要。AI模型可能会被恶意利用，比如生成虚假信息、进行网络攻击等。因此，在加速模型的同时，也要加强模型的安全性，防止模型被滥用。这方面可能需要从算法层面入手，也需要加强监管。