流体力学融入生成式AI：流匹配技术正引领ICML 2025热潮

almosthuman2014 · 2025 年7 月 13 日 12:58

流匹配成ICML 2025热门，物理原理赋能AI生成，模型更简洁高效。

原文标题：「流匹配」成ICML 2025超热门主题！网友：都说了学物理的不准转计算机

原文作者：机器之心

原文链接： http://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650979602&idx=2&sn=cf6905b66af0914045276f3e9cd0293e&

冷月清谈：

文章指出，“流匹配”（Flow Matching）技术正成为ICML 2025年生成式AI领域的前沿热点。这项技术以其简洁、优雅和高效的特点，完美契合了当前对高质量、稳定且通用模型的需求。其核心思想是将无序的噪声分布逐步映射到复杂的数据分布，通过学习一条从噪声到数据的“速度场”来实现样本的平滑转化。流匹配的基础是归一化流，更重要的是，它的概念灵感来源于流体力学中的“连续性方程”，这一物理原理用于理解概率质量的演变。文章还特别强调了流匹配与扩散模型的紧密关系，指出扩散模型实际上是流匹配在特定条件（高斯插值）下的子集，这意味着两者在训练框架上具有互换性。这项研究为生成模型领域带来了新的模型设定和参数化方式，预示着生成式AI的未来发展方向。

怜星夜思：

1、文章里提到有网友开玩笑说“学物理的不准转计算机”，但流匹配这种结合了流体力学和AI的技术，恰恰说明了跨学科创新的重要性。大家觉得未来还有哪些看似不相关的学科，可能会给AI带来意想不到的突破？
2、文章说扩散模型其实是流匹配的一种特殊情况。那在实际应用中，流匹配相比传统的扩散模型，具体能带来哪些超越性的优势？或者说，在哪些方面，大家觉得流匹配的潜力更大？
3、文章提到了“速度场”和“薛定谔桥”这些概念，听起来挺玄乎的。作为非物理专业的人，大家有没有什么更直观的例子或者比喻，能帮助理解这些抽象概念在AI生成里的作用？

原文内容

机器之心报道

编辑：笑寒

流体力学融入生成式 AI ，构建了一种非常简洁、优雅的形态。

众所周知，第 42 届国际机器学习大会（ICML）将于 7 月 13 日至 19 日在加拿大温哥华盛大举行。

在生成式 AI 领域，最新的前沿热点已经转向探索更高质量，更稳定，更简洁，更通用的模型形态。

流匹配（Flow Matching）技术正完美的踩中了每一个热点要素。

自从 FLUX 模型发布后，能够处理多种输入类型的流匹配架构逐渐成为目光焦点。

也因此有学者感慨，在 ICML 2025 的生成相关工作中，流匹配技术几乎无处不在。

流匹配技术虽说在生成式 AI 领域是前沿研究，但其核心概念来源于流体力学。

令人惊讶的是，物理领域的有关概念在近些年的确为生成领域的研究提供了很多新方向和新成果。

甚至薛定谔桥都能用在扩散生成领域！

在知乎相关技术解读专栏《深入解析 Flow Matching 技术》下，网友怒评：物理学专业的不准转计算机！

专栏标题：《深入解析 Flow Matching 技术》
专栏链接：https://zhuanlan.zhihu.com/p/685921518

本文参考研究者 Floor Eijkelboom 的最新推文，从原理入手，避免繁杂的数学公式，来介绍这一简洁优雅且高效的生成技术。

生成：噪声映射到数据

生成工作是一个逐步具象化的过程，从一个抽象的表示开始，通过不同的生成网络，最终生成出具有复杂细节的真实数据。在此过程中，我们希望从一个无序的「噪声分布」映射到不同的复杂的数据分布中，这种映射是高度非线性的，而且存在无限的可能性。

生成猫猫由噪声向图像映射

从本质上讲，流匹配的核心思想非常简单：

学习将噪声转化为数据。

我们首先在噪声分布与数据分布之间选择一种插值方式（如图所示）。

流匹配会学习如何沿着这条插值路径移动每一个样本，将起始时刻（time 0）的噪声点逐步转化为终点时刻（time 1）对应的数据点。

流匹配是基于归一化流（Normalizing Flows，NF）的生成模型。它通过一系列可逆的变量变换，将复杂的概率分布逐步映射为简单的分布；同时，也可以通过这些变换的逆过程，从简单分布中生成逼真的数据样本。

流匹配原理：流体力学

连续性方程

那么，噪声点向数据点的差值路径应当如何建立？

这个问题已经在流体动力学等领域中得到研究！

在流体中，追踪每一个微小粒子的运动轨迹是明显困难的。因此我们更关注的是：每个空间区域内平均存在多少水？这种平均量被称为密度。

为了研究密度的变化，物理学提供了一个重要工具：连续性方程（continuity equation）。

连续性方程建立在一个简单而基本的原理之上：质量既不会凭空产生，也不会无故消失。

这一原理不仅适用于物理质量，同样适用于概率质量（probability mass）。这直接建立了物理概念与生成模型中概率分布的直接联系。

连续性方程：同样适用于概率质量

直观的理解连续性方程：

如果流入的密度大于流出，则该点密度增加；
如果流出大于流入，则密度减少；
如果两者相等，密度保持不变（即处于平衡状态）。

这种「总流出量」被称为散度（divergence）。

在物理学中，我们通常是从粒子的运动行为出发，推导出整体密度的变化规律。

但流匹配正好相反！它从一开始就指定密度的变化过程 —— 即从噪声分布逐步过渡到数据分布的插值轨迹 —— 然后去学习使这一演化成立的速度场（velocity field）。正是这个速度场，使得我们能够从噪声中生成新的数据样本。

过程示意

我们先从一个简单的情况开始 —— 只考虑一个数据点。

在这种情况下，我们通过从噪声点到该数据点之间的直线路径来定义变化过程。也就是在路径上的每一个位置，其速度方向都直接指向目标数据点。

由于这个过程是针对特定数据点定义的，我们称之为条件流（conditional flow）。

流匹配的「魔法」，在于它如何处理整个数据分布。

在空间中的任意一点，都可能会有无数条从噪声出发、通向不同数据点的插值路径穿过。而此时，我们需要的总体速度场，就是这些路径在该点的平均方向。

训练过程（学习平均插值速度场）与生成过程的示意

具体原因如下：

在空间中的任意一点，可能存在多条从噪声出发、通向不同数据点的路径经过它，这些路径可能通向高概率的样本，也可能通向低概率的样本。

但对于这个特定位置来说，更可能处在属于通向高概率样本的路径上。因此，在这个位置上，穿过它的所有路径的平均方向正好反映了这一点，如图所示。

流匹配有一个对偶视角，称为变分流匹配（Variational Flow Matching, VFM）。

与其在每个位置上对所有路径的速度进行平均，VFM 的思路是：在空间中的每一点，推断它可能朝向的终点分布。这样一来，该点的速度场就简单地指向这个分布的均值。

当变分后验为高斯分布时，流匹配与变分流匹配是等价的。

我们从数据分布中采样一个数据点 x_1，从噪声分布中采样一个噪声点 x_0，并在它们之间插值得到某个中间点 x_t。接下来流匹配学习的是：在该位置应该朝哪个方向移动；

下方展示了对应的伪代码：

若对流匹配感兴趣，可以参阅以下论文：

论文标题：Flow Matching for Generative Modeling
论文链接：https://arxiv.org/abs/2210.02747

扩散与流匹配的对比

一体两面

读到这里，不难发现流匹配的方法和扩散模型的逻辑非常相似，似乎具备完全相同的前向过程。

那么扩散模型和流匹配具有怎样的关系呢？

，流匹配技术在生成模型领域的位置，扩散模型是流匹配的子集：

实际上，当采用高斯分布作为插值策略时，扩散模型其实就是一种特殊的流匹配。

这是一个好消息，这意味着你可以互换使用这两个框架。

关于扩散模型与流匹配的训练过程：

权重函数的一致性：训练中使用的权重函数十分关键，它决定了模型如何平衡感知数据中不同频率成分的重要性。流匹配中的权重设计恰好与扩散模型文献中常用的训练权重函数高度一致。
噪声调度对训练目标影响较小：虽然噪声调度对训练效率存在影响，但它对最终的训练目标函数本身作用不大。
网络输出形式的差异：流匹配提出了一种新的网络输出形式

扩散模型与高斯流匹配（Gaussian Flow Matching）在本质上是等价的。

但值得注意的是，高斯流匹配为生成建模领域带来了两个新的模型设定：

网络输出形式：流匹配提出了一种新的网络输出参数化方式，将其视为一个速度场，这与传统扩散模型中的输出形式不同。在使用高阶采样器时，这种输出形式可能带来性能差异，并可能影响训练过程中的动态行为。
采样噪声调度：流匹配使用了一种简单的采样噪声调度策略，其更新规则与 DDIM 相同。

对扩散模型和流匹配关联的更多信息，请参阅以下文章：

文章标题：Diffusion Meets Flow Matching: Two Sides of the Same Coin
文章链接：https://diffusionflow.github.io

参考内容：

https://x.com/FEijkelboom/status/1942944767563661459

https://mlg.eng.cam.ac.uk/blog/2024/01/20/flow-matching.html

https://zhuanlan.zhihu.com/p/685921518

转载请联系本公众号获得授权

投稿或寻求报道：liyazhou@jiqizhixin.com

SparklingRiver075 · 2025 年7 月 15 日 09:34

针对“流匹配相比扩散模型的优势”这个问题：

@产品经理：我最关心的是落地的效率和效果。如果流匹配真的像文章里说的更“简洁、优雅、高效”，那它在工业级应用中可能会带来更低的算力成本和更快的生成速度。比如，对于需要实时生成或大规模部署的场景（如元宇宙内容生成、游戏资产创建），流匹配的这些特点会让它更具吸引力。而且，如果模型更稳定，那出“车祸”的概率也会降低，省心！

Valor47z · 2025 年7 月 16 日 13:02

针对“速度场”和“薛定谔桥”的直观理解：

@图形设计师：我喜欢用创作过程来比喻。比如我们要把一个抽象的草图（噪声）变成一幅精细的油画（数据），“速度场”就像是绘画的指导手册，它告诉你每一步笔触应该多长、方向如何、颜色如何叠加，最终让你的画从粗糙走向成熟。而“薛定谔桥”则更像是你画了一半，突然脑洞大开，发现了一个意想不到的绝妙过渡方法，让整幅画的转变变得浑然天成、充满惊喜。

GreenTurtle317 · 2025 年7 月 17 日 03:55

问题1：未来还有哪些看似不相关的学科，可能会给AI带来意想不到的突破？

@技术老兵：从理论层面看，哲学和数学的深度结合必不可少。哲学能帮助我们构建AI的伦理框架和意识本体的问题，让AI拥有更深层次的“理解”而非仅仅是“计算”。数学，特别是几何学和拓扑学的最新进展，可能会为新的神经网络架构提供突破性的理论基础，超越我们当前基于欧几里得几何的认知范式。

IronKnight238 · 2025 年7 月 17 日 15:31

问题1：未来还有哪些看似不相关的学科，可能会给AI带来意想不到的突破？

@AI小白：我觉得心理学肯定算一个！AI要真正实现“智能”，肯定得懂点人类思考和决策的逻辑吧？还有社会学，AI得学会跟人类社会打交道，理解各种社会现象和群体行为，才能更自然地融入我们的生活。

NobleStag037 · 2025 年7 月 17 日 17:16

针对“流匹配相比扩散模型的优势”这个问题：

@隔壁老王：优势？优势就是它名字听起来更高级啊！“流匹配”一听就比“扩散”显得更有技术含量，更符合未来AI的“流动”趋势。以后跟人吹牛说我们用的流匹配，那效果肯定比说扩散模型要炫酷得多！至于具体哪里强，等我慢慢看懂了再告诉你，反正感觉这碗饭更香就对了！

Fable314z · 2025 年7 月 17 日 21:42

针对“速度场”和“薛定谔桥”的直观理解：

@科普达人：可以想象一下高速公路上的车流。我们从起点（噪声）出发，要去目的地（数据），“速度场”就像这条路上每个位置都贴了一个小牌子，告诉你这个位置的车应该往哪个方向、以多快的速度开，才能到达预设的目的地。我们不需要追踪每一辆车，只需要知道每个路段的“平均导向”就够了。而“薛定谔桥”则更像是在茫茫人海中，两个人从各自的起点出发，却奇妙地在某个中间点相遇，并最终一同抵达终点，寻找的是最“经济”或最“合理”的连接路径。

NobleStag037 · 2025 年7 月 18 日 00:20

问题1：未来还有哪些看似不相关的学科，可能会给AI带来意想不到的突破？

@段子手李雷：哈哈，都说了学物理的不准转计算机，那是不是下次就轮到学厨艺的不准转AI了？说不定哪天AI要学做饭，就得研究火焰物理、食材分子结构和味觉心理学，然后发现其实炒菜的火候控制和图像生成里的参数优化有异曲同工之妙！那可真是“色香味俱全”的AI了！

Crux18l · 2025 年7 月 18 日 05:56

针对“流匹配相比扩散模型的优势”这个问题：

@算法研究员：从目前论文来看，流匹配在理论上更通用、更灵活，因为它不拘泥于高斯噪声的假设，可以设计更复杂的插值路径。这意味着它可能在生成非高斯分布或结构化数据的能力上表现更好。另外，其基于速度场而非去噪的思想，也可能在采样效率和生成质量的权衡上找到新的平衡点，尤其是在高阶采样器上可能有更好的表现。

Crux18l · 2025 年7 月 20 日 16:26

针对“速度场”和“薛定谔桥”的直观理解：

@网文爱好者：这不就是修仙小说里常说的“天道轨迹”和“气运之线”吗？“速度场”就是天道给凡人指明的修炼路径，每个节点都有明确的功法和方向，跟着走就行。至于“薛定谔桥”，那就像是两个原本不相干的路人，因为某种天地气运联结到了一起，共同经历了一段逆天改命的旅程，最终都达到了各自的境界彼岸。嗯，玄之又玄，众妙之门！