NS-Diff:为扩散模型注入物理引擎,让AI视频生成更真实

北大彭宇新团队提出NS-Diff,为扩散模型装上“物理引擎”,结合物理约束与强化学习,显著提升视频生成的物理真实感,有效降低运动误差和流体发散。

原文标题:CVPR 2026 | 给扩散模型装上「物理引擎」: 北大彭宇新团队提出NS-Diff,使扩散模型学会流体与刚体力学

原文作者:机器之心

冷月清谈:

北京大学彭宇新团队的最新研究成果NS-Diff,通过将物理约束与强化学习相结合,解决了视频生成中常见的物理失真问题。该方案设计了噪声鲁棒的物理动力学检测器和物理条件潜在注入模块,使AI在生成视频时遵循物理定律。实验结果表明,NS-Diff能有效降低视频中的运动急动度误差和流体发散度,提升生成视频的物理真实感和视觉质量。该研究为AIGC领域实现从“视觉真实”到“物理真实”的跨越提供了新思路,证明了将经典物理约束融入视频生成大模型的有效性。

怜星夜思:

1、NS-Diff 如何在高噪声环境下准确检测运动信息和材料属性?这对于提升视频生成的物理真实性有何关键作用?
2、文章中提到的“最小急动度原则”和“简化纳维-斯托克斯方程”分别是如何约束刚体和流体运动的?在实际应用中,这些约束会带来哪些挑战?
3、NS-Diff 如何平衡物理真实性和视觉质量?仅仅是符合物理规律的视频就足够了吗?

原文内容


本文是北京大学彭宇新教授团队在文本生成视频领域的最新研究成果,相关论文已被 CVPR 2026 接收



  • 论文标题:NS-Diff: Fluid Navier–Stokes Guided Video Diffusion via Reinforcement Learning

  • 论文链接:http://39.108.48.32/mipl/download_paper.php?fileId=202601

  • 开源代码:https://github.com/PKU-ICST-MIPL/NS-Diff_CVPR2026

  • 实验室网址:https://www.wict.pku.edu.cn/mipl


背景与动机


想象一下,当你让 AI 生成一段「牛奶倒入咖啡产生丝滑旋涡」的视频时,却发现 AI 根本无法生成出你想要的「丝滑旋涡」。虽然如今的 Sora、Wan 等视频生成模型已经能做出如电影般华丽的画面,但它们往往只是「画皮难画骨」—— 因为 AI 并不真正懂得现实世界的物理定律,导致生成的视频经常出现违背常识的「穿帮」镜头。


在物理世界中,液体的流动遵循着复杂的纳维 - 斯托克斯(Navier-Stokes)方程,而刚体的运动则有着严谨的轨迹规律。实现视频生成从「视觉真实」向「物理真实」的跨越,是当前 AIGC 领域的重大挑战。


针对这一难题,北京大学彭宇新教授团队提出了给扩散模型装上「物理引擎」的新方案 ——NS-Diff。该研究将物理约束与强化学习相结合,通过物理动力学检测器和物理条件注入模块,让 AI 像人类一样在生成画面的同时,脑子里还紧绷着一根「物理定律」的弦。


实验表明,NS-Diff 将视频中的运动急动度(jerk)误差降低了 43%,流体发散度降低了 33%,使 AI 生成的每一帧画面不仅好看,而且遵循物理规律。这一成果表明将经典物理约束融入视频生成大模型,是解决视频生成中物理失真问题的有效途径。


技术方案


图 1. 物理引导的视频生成强化学习框架 NS-Diff


本文提出了一种物理引导的视频生成强化学习框架 NS-Diff,将物理约束融入视频扩散过程中,以提升生成视频的物理真实感。其主要贡献包括:(1)噪声鲁棒的物理动力学检测器:设计了可在含噪潜在帧中精准分析运动信息的检测器,实现对刚体与流体区域的有效区分。(2)物理条件潜在注入模块:将速度场、形变梯度等关键物理信息编码,并通过交叉注意力机制注入 DiT 去噪器,从而实现对生成过程的物理引导。(3)强化学习优化模块:引入强化学习,通过策略梯度对流体施加简化的纳维 - 斯托克斯约束,对刚体施加最小化急动度(Jerk)原则,确保了视频生成中动态过程的物理合理性。具体如下:


1. 噪声鲁棒的物理动力学检测器


实现物理引导去噪的关键在于高噪声环境下对运动和材料属性的精准估计。由于去噪过程在隐空间(latent space)中运行,直接在 RGB 帧上使用 ARFlow 是不可行的。为此,本文设计了一种结合隐空间解码的运动估计方案,具体流程如下:


(1)全局运动补偿 (Global Motion Compensation):在检测局部刚体或流体区域前,首先利用全局单应性矩阵图片估计相机的全局运动。通过对原始光流图片进行补偿,消除由相机移动引起的运动干扰,后续的区域检测均在补偿后的光流上进行。


图片


(2)隐空间 - RGB 空间解码 (Latent-to-RGB Decoding):在选定的去噪步图片 ,使用预训练 VAE 解码器将潜变量图片解码为低分辨率的 RGB 代理图像 图片。这种部分解码在保持计算效率的同时,能提供足够的空间结构信息用于光流估计。随后,利用 ARFlow 计算代理图像间的运动光流。


(3)噪声鲁棒的光流估计:通过在噪声样本上微调的 ARFlow ,计算相邻代理图像间的光流图片,并利用图片 帧的时间滤波器得到平滑光流图片 。



(4)材质区域分割:针对每个分块图片,本文通过求解仿射变换(矩阵图片捕捉线性变形 / 旋转,图片捕捉平移)来显式建模平面刚体运动。


图片


根据该分数,本文将图片的区域标记为刚体区域;同时,将满足速度场散度与旋度平方和大于阈值 图片 的区域标记为流体区域。


2. 物理条件潜在注入


为了将物理特征反馈给扩散模型,本文设计了 PCLI 模块,将运动动力学和材质嵌入整合进 DiT 的中间特征中。本文为每个分块提取物理描述符图片,包含:速度场 图片(光流的时间导数)、变形梯度 图片(运动的空间雅可比矩阵)以及材质嵌入图片。这些特征通过一个双层 MLP 投影为图片维的物理嵌入向量图片



此外,本文引入了一个自适应门控机制图片,确保在去噪轨迹的不同阶段动态调整物理约束的影响力。


图片


3. 物理引导的强化学习优化


本文将扩散器图片参数化为一个随机策略图片,动作图片(预测的噪声残差)从以 图片 为中心的控制分布中采样。


(1) 刚体平滑度正则化:最小加加速度原则 (Minimum-Jerk Principles) 针对刚体区域图片,本文采用最小急动度先验来消除非物理的高频振荡。该约束通过惩罚运动轨迹的高阶导数(加速度的变化率)来确保时间连续性。


图片


(2) 流体动力学惩罚简化纳维 - 斯托克斯方程 (Navier-Stokes Constraints),针对流体区域图片,本文采用了 Navier-Stokes 方程的轻量化近似。核心在于最小化速度场散度的空间梯度,作为压力修正的微分代理,从而在不求解复杂泊松方程的情况下诱导流体趋向不可压缩状态。



(3) 策略更新 (PPO Objective):最终,物理感知奖励图片定义为刚体与流体惩罚项的负加权和。本文应用近端策略优化(PPO)算法来更新 DiT 策略参数图片


图片


4. 物理引导的自适应激活


由于去噪初期的噪声水平过高,会导致运动估计不可靠。本文引入了一个自适应激活调度器图片


图片


该权重图片同时作用于 PCLI 的注入强度和强化学习的奖励值,使得物理引导在去噪后期(噪声较低、物理估计较准确时)平滑地达到满额强度,从而确保训练的稳定性。


实验结果


1. 实验设置


本文在 PhysVideoBench 以及 UCF-101(包含 13,320 个真实世界人类动作视频)和 WebVid-10M(包含 1000 万个带有文本描述的互联网视频)。本文从物理合理性和视觉质量两个角度对本文方法进行评估。


(1)物理指标:

  • 急动度误差(Jerk Consistency,图片):通过计算质心轨迹的三阶时间导数的幅值,来衡量刚体运动的时间平滑度。

  • 流体散度误差(Fluid Divergence Error,图片):根据光流真值计算得出的散度误差图片范数。


(2)视觉指标:

  • VBench:综合视频质量指标。本文遵循 VideoJam 的方法计算视频外观和运动质量。

  • Fréchet Video Distance(FVD):衡量真实视频与生成视频之间的分布距离。

  • Frame Consistency:相邻帧的 CLIP 图像嵌入之间的平均余弦相似度,反映了时间上的连贯性。


2. 对比实验结果


表 1. PhysVideoBench 数据集结果


在 PhysVideoBench 上,NS-Diff 在所有指标上均实现了最佳性能。通过潜空间注入(Latent Injection)以及 Jerk / 散度损失(Jerk/divergence losses)引入物理先验,提升了运动的真实性,尤其是在刚体和流体区域。相比于在给定用户外力情况下模拟刚体动力学的 PhysGen,NS-Diff 在不需要预定义外力或模拟的情况下实现了更好的泛化能力,同时保持了更高的保真度和更低的散度误差。实验表明,本文的方法将 Jerk 误差降低了 43%,流体散度降低了 33%,并使 FVD 提升了 22.7%,实现了更高的物理合理性和视觉质量。


表 2. UCF-101 数据集结果


在 UCF-101 基准测试中,本文的 NS-Diff 模型表现出色。具体而言,NS-Diff DiT 1B 版本的 FVD 为 106,帧一致性(Frame Consistency)达到 0.94;而 NS-Diff DiT 11B 版本则进一步将 FVD 降低至 85,帧一致性提升至 0.95。这表明本文的方法不仅提升了运动的物理准确度,还显著增强了生成视频的时间连贯性。


表 3. WebVid-10M 数据集结果


为了评估物理引导学习框架在受限基准测试之外的开放世界场景中的泛化能力,本文在 WebVid-10M 数据集上进行了文本生成视频(Text-to-Video)合成测试。实验旨在测试物理约束(刚体 / 流体动力学)在面对包含新颖物体交互和环境的未知文本描述时,是否仍能保持合理性。本方法在运动质量(FVD)和文图对齐(CLIPSIM)两个指标上均优于 VideoFactory。


图 2. 可视化对比结果


图 2 展示了 NS-Diff 与 ModelScope、PhysGen、Wan2.1 以及 OpenSora2 的视觉效果对比。结果分析表明,本文方法生成的视频在刚体和流体运动方面表现得更加真实,显著减少了诸如物体无故出现或消失、以及非自然的拆分或合并等不符合物理规律的伪影。此外,本文方法还大幅提升了帧间一致性,在处理篮球投篮、火山熔岩流、玻璃破碎等物理密集型场景时,能够比对比模型展现出更高的时间连贯性和运动可信度。


结论


本文提出了一种基于强化学习的物理引导视频扩散框架 NS-Diff。该框架通过抗噪物理动力学检测器,实现了对视频潜空间中刚体与流体区域的精准识别。利用物理条件潜空间注入技术,速度场、变形梯度及材料掩码被有效整合至去噪流程中。此外,本文方法通过强化学习优化机制,将纳维 - 斯托克斯方程与最小急动度(Minimum-Jerk)原则转化为训练约束,强制模型遵循物理运动规律。实验结果表明,NS-Diff 在 PhysVideoBench、UCF-101 等多个基准数据集上超过现有方法,在显著降低物理运动误差的同时,确保了视觉生成质量。研究表明,将经典物理约束深度融合于生成模型,是解决视频生成中物理失真问题的有效途径。


© THE END

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

我觉得吧,一步一步来。先把刚体和流体搞明白,就已经很厉害了。燃烧和爆炸这种,看看好莱坞特效就知道了,那都是烧钱烧出来的。AI想要达到那种程度,估计还得很多年。不过,可以先从简单的火焰模拟开始,逐步增加复杂度。

在我看来,处理燃烧、爆炸等复杂物理现象,核心挑战在于建立精确的物理模型和高效的计算方法。NS-Diff的框架可以扩展,但需要引入更高级的物理方程,例如考虑能量守恒、质量守恒的方程。此外,还需要开发更有效的数值方法,例如有限元法、有限体积法等,来求解这些方程。未来的研究方向可能包括:1) 基于物理的神经网络;2) 数据驱动的物理模型;3) 混合物理和数据驱动的方法。

这个问题问到了关键!我猜想,他们可能使用了多目标优化或者加权损失函数,让模型在尽可能符合物理规律的同时,也保证视觉效果。权重比例的调整应该是个技术活,得不断实验才能找到最佳平衡点。

燃烧和爆炸比刚体和流体复杂多了!涉及到化学反应、热传递等等。我觉得NS-Diff现在的框架可能不够用,得加入更多的物理模型才行。未来的研究方向可能是把计算流体力学(CFD)和AI结合起来,让AI学习更复杂的物理现象。

我比较关注的是在对话机器人方面的应用。现在的对话机器人虽然能回答问题,但是缺乏情感和同理心。如果能让AI通过强化学习与用户进行更深入的互动,学习如何更好地理解用户的情感需求,那么对话机器人就能变得更加人性化。

从学术的角度来说,强化学习可以被用于优化生成模型的参数,使其更好地生成符合特定要求的图像、文本等内容。例如,可以利用强化学习来提高图像生成模型的清晰度、真实感,或者让文本生成模型生成更具创意和逻辑性的文章。这种方法的核心在于将生成模型的训练过程视为一个强化学习问题,通过奖励机制来引导模型学习。

奖励函数的设计确实是强化学习中的一个关键环节!奖励函数设计得好,能引导模型朝着期望的方向发展;设计不好,就可能出现“奖励中毒”现象,模型为了追求高奖励反而做出一些奇怪的行为。

* 有效的奖励函数应该能够准确地量化物理规律的偏离程度。例如,对于流体,可以使用速度场的散度和旋度作为惩罚项;对于刚体,可以使用急动度作为惩罚项。但需要注意的是,这些物理量本身也可能存在噪声,需要进行平滑处理。
* 为了避免“奖励中毒”,可以引入一些辅助性的奖励,例如鼓励模型生成多样化的结果,或者对模型的复杂度进行惩罚。此外,还可以使用 curriculum learning 的方法,先让模型学习一些简单的物理现象,再逐渐增加难度。

我理解的是,在RGB空间直接约束,细节太多了,模型容易被各种纹理,颜色等等干扰,反而学不到通用的物理规律。有点像我们学物理,上来就做各种现实世界的复杂题目,肯定学不好,得先从理想模型开始。

在潜空间进行物理引导,我觉得最大的优势就是计算效率!直接在RGB空间进行物理约束,需要处理高分辨率的图像,计算量会非常大。而在潜空间中,图像被压缩成低维的向量,计算量大大降低。

另外,潜空间也更容易捕捉到图像的抽象特征,有利于模型学习到更加通用的物理规律。当然,潜空间也存在一些问题,例如信息的丢失,需要仔细权衡。

个人认为,NS-Diff的思路具有普适性,但推广到其他领域需要具体问题具体分析。

* 图像领域:挑战在于物理规律的复杂性和多样性。真实世界的光照、材质交互非常复杂,难以用简单的模型完全描述。此外,图像的风格化需求也很高,如何在物理真实性和艺术风格之间取得平衡是一个难题。
* 音频领域:挑战在于音频感知的主观性。人们对音频的感知差异很大,如何设计能够反映普遍规律的物理模型是一个挑战。此外,音频的生成速度也是一个重要考虑因素。

理论上可行,但需要考虑计算成本和模型的复杂度。图像生成或许可以通过引入光线追踪或者物理渲染来提升真实感,音频生成可以模拟乐器的物理振动。但这些都会显著增加计算量。另外,如何将物理模型的参数和生成模型的参数进行有效融合也是一个挑战。

强化学习的一大难题就是奖励函数的设计。如果奖励函数设计得不好,很容易导致模型学到一些奇奇怪怪的策略。在视频生成中,如何定义一个能够准确反映物理真实性的奖励函数是一个挑战。可以尝试将多种物理指标结合起来,并引入人工评估,不断优化奖励函数。

这个问题问到了点子上!在高噪声环境下进行运动估计确实是个挑战。NS-Diff 的巧妙之处在于,它没有直接在 RGB 帧上操作,而是结合了隐空间解码的运动估计方案。简单来说,就是先用 VAE 解码器将潜变量解码为低分辨率的 RGB 代理图像,然后在这些代理图像上进行光流估计。这样既保留了足够的空间结构信息,又降低了计算复杂度。通过噪声样本微调的 ARFlow 和时间滤波器进一步提高了光流估计的鲁棒性。想象一下,在嘈杂的环境中,我们眯起眼睛、放慢动作,也能更准确地判断物体运动,NS-Diff 的思路有点类似。

准确的运动信息和材料属性是物理引导的基础。只有准确识别出刚体和流体区域,才能施加相应的物理约束,比如最小急动度原则和纳维 - 斯托克斯方程的近似。如果一开始就“看错”了,后面的物理引导就无从谈起,生成的视频自然也很难符合物理规律。

这个问题很有意思!我觉得可以这样理解:

1. 隐空间操作:扩散模型本身就是在隐空间中进行去噪,NS-Diff 巧妙地利用了这一点,在隐空间解码后的低分辨率图像上进行运动估计,降低了噪声的干扰。
2. 噪声鲁棒性:通过在噪声样本上微调 ARFlow,使光流估计器对噪声更加不敏感。这就像是给 AI 配备了一个“降噪耳机”,让它在嘈杂的环境中也能听清物体的运动。
3. 物理约束引导:准确的运动信息是后续施加物理约束的前提。只有知道哪些区域是刚体,哪些区域是流体,才能分别应用最小急动度原则和纳维-斯托克斯方程,从而保证生成视频的物理合理性。

总的来说,NS-Diff 通过一系列巧妙的设计,成功地在高噪声环境下实现了准确的运动估计,为后续的物理引导奠定了基础。

物理真实性和视觉质量,就像鱼和熊掌,不可兼得?我觉得 NS-Diff 的目标是尽量都抓住!它就像一个“精明的商人”,在物理和视觉之间找到一个平衡点,让大家都能满意。

光有物理可不行,得好看!就像做菜,光有营养不行,还得色香味俱全。视频也是一样,光符合物理规律还不够,还得让观众觉得好看、有趣,甚至能引发思考,这样才能真正打动观众。

这两个约束就像是给视频生成加了“紧箍咒”!“最小急动度原则”让刚体老老实实地运动,不能乱动,不然就念咒惩罚它。“简化纳维-斯托克斯方程”则让流体乖乖听话,不能乱飘,也要受到惩罚。但是,这个“紧箍咒”也不能念太紧,不然生成的视频就死板了,不好看了。

挑战嘛,我觉得最大的挑战就是找到这个“紧箍咒”的松紧度。太松了,妖精(不真实的运动)就跑出来了;太紧了,孙悟空(视频)就不灵活了。

最小急动度原则,简单来说,就是让刚体的运动尽可能平滑,避免出现突兀的变化。想象一下,你用手平稳地端着一杯水走路,目标就是尽可能减少水的晃动。这个原则通过惩罚运动轨迹的高阶导数(加速度的变化率)来实现,确保运动的连续性和自然性。

简化纳维-斯托克斯方程,则是针对流体运动的约束。它通过最小化速度场散度的空间梯度,来模拟流体的不可压缩性。可以想象成,水流在流动时,尽量保持体积不变,避免出现突然膨胀或收缩的情况。

实际应用中,这些约束会带来以下挑战:

1. 计算复杂度:精确求解纳维-斯托克斯方程非常耗时,简化后的方程虽然降低了计算量,但仍然需要一定的计算资源。
2. 参数调整:约束的强度需要仔细调整,过强的约束可能导致生成结果过于僵硬,过弱的约束则无法有效改善物理真实性。
3. 泛化能力:在面对复杂场景和多样化的运动时,这些约束可能难以完全适用,需要进一步改进和扩展。

平衡物理真实性和视觉质量,是所有基于物理的视频生成方法都需要面对的问题。NS-Diff 的做法是,通过自适应门控机制和自适应激活调度器,动态调整物理约束的影响力。简单来说,就是根据去噪的不同阶段,以及噪声的水平,来决定是否施加物理约束,以及施加多大力度的约束。

仅仅符合物理规律的视频当然不够。一个好的视频,不仅要真实,还要美观,还要能表达一定的情感或故事。所以,除了物理约束,还需要考虑纹理、光照、风格等因素,以及如何将这些因素与物理运动相结合。未来的研究方向可能包括:

1. 更精细的物理模型:例如,考虑更复杂的材料属性、流体湍流等。
2. 与视觉风格的融合:如何将物理约束与各种视觉风格相结合,生成具有艺术感的视频。
3. 交互式视频生成:允许用户通过交互来控制物理过程,例如,改变外力、调整参数等。