字节豆包大模型团队研究发现,视频生成模型无法抽象出物理规律,只能模仿训练数据中的案例。该研究表明,视频生成模型目前不能被用作世界模型,因为它们依赖于视觉模糊性,无法进行精确的物理建模。
原文标题:LeCun赞转!类Sora模型能否理解物理规律?字节豆包大模型团队系统性研究揭秘
原文作者:机器之心
冷月清谈:
* 视频生成模型**无法抽象出一般物理规则**,即使模型规模和训练数据量增加。
* 模型**只会在训练数据覆盖的范围内表现良好**,无法泛化到新的情况。
* 模型**更多依赖于记忆和案例模仿**,而不是对规律的理解。
* 复杂组合泛化**仅适用于训练数据中出现的组合**,无法生成符合物理规律的视频。
* 单纯**通过视频表示进行生成不足以作为世界模型**,因为视觉模糊性会导致误差。
**研究还表明:**
* **增加训练数据和模型规模**对分布内泛化至关重要,但对分布外泛化影响有限。
* **组合多样性**对于组合泛化至关重要,而不仅仅是扩大数据量。
* **颜色是视频生成模型匹配模仿对象的**主要属性,其次是大小、速度和形状。
怜星夜思:
2、你认为视频生成模型的局限性是否会阻碍它们被用作训练机器人或其他现实世界应用程序?
3、你认为我们如何改进视频生成模型以更好地理解物理规律?
原文内容
机器之心发布
机器之心编辑部
视频生成模型虽然可以生成一些看似符合常识的视频,但被证实目前还无法理解物理规律!
自从 Sora 横空出世,业界便掀起了一场「视频生成模型到底懂不懂物理规律」的争论。图灵奖得主 Yann LeCun 明确表示,基于文本提示生成的逼真视频并不代表模型真正理解了物理世界。之后更是直言,像 Sora 这样通过生成像素来建模世界的方式注定要失败。
Keras 之父 François Chollet 则认为,Sora 这样的视频生成模型确实嵌入了「物理模型」,但问题是:这个物理模型是否准确?它能否泛化到新的情况,即那些不仅仅是训练数据插值的情形?这些问题至关重要,决定了生成图像的应用范围 —— 是仅限于媒体生产,还是可以用作现实世界的可靠模拟。最后他指出,不能简单地通过拟合大量数据来期望得到一个能够泛化到现实世界所有可能情况的模型。
此后,关于视频生成模型到底有没有在学习、理解物理规律,业界始终没有一个定论。直到近日,字节豆包大模型团队公布的一项系统性研究,为两者之间的关系「划上了不等号」。
该团队通过大规模实验发现 —— 即便依照 Scaling Law 扩大模型参数与训练数据量,模型依然无法抽象出一般物理规则,甚至连牛顿第一定律、抛物线运动都无法领会。
「视频生成模型目前就像一个只会『抄作业』的学生,可以记忆案例,但还无法真正理解物理规律,做到『举一反三』。因此,模型遇到未学习过的场景就会『犯迷糊』,生成结果与物理规则不符。」研究作者表示。
相关推文在 X 发布后,获得 Yann LeCun 点赞转发,还评价道 —— 结果虽不意外,但有人尝试研究确实是一件好事。
此外,CV 大牛谢赛宁和常年活跃的 Gary Marcus 等人也纷纷跟进关注。
-
论文标题:How Far is Video Generation from World Model: A Physical Law Perspective
-
论文链接:https://arxiv.org/abs/2411.02385
-
展示页面:https://phyworld.github.io
Sora 的世界里,物理学存在么?
此前 Sora 发布时,OpenAI 就在其宣传页面写道:我们的成果揭示了 —— 提升视频生成模型参数与数据量,为构建物理世界通用模拟器,提供了一条可行之路。
给人希望的同时,业内质疑声纷至沓来,很多人并不认为基于 DiT 架构的视频生成模型能够真正理解物理规律。其中尤以 LeCun 为代表,一直以来,这位人工智能巨头一直坚称,基于概率的大语言模型无法理解常识,其中包括现实物理规律。
尽管大家众说纷纭,但市面上,系统性针对该问题的研究一直寥寥。出于对这一课题的好奇,字节豆包大模型相关团队于 2024 年初启动了这一研究立项,并历经 8 个月终于完成系统性实验。
原理与实验设计
在本次工作中,如何定量分析视频生成模型对于物理规律的理解,是一大挑战。
豆包大模型团队通过专门开发的物理引擎合成了匀速直接运动、小球碰撞、抛物线运动等经典物理场景的运动视频,用于训练基于主流 DiT 架构的视频生成模型。然后,通过检验模型后续生成的视频在运动和碰撞方面是否符合力学定律,判断模型是否真正理解了物理规律,并具有「世界模型」的潜力。
针对视频生成模型在学习物理定律时的泛化能力,团队探讨了下面三种场景的表现:
-
分布内泛化 (In-Distribution, ID):指训练数据和测试数据来自同一分布。
-
分布外泛化 (Out-of-Distribution, OOD) :分布外泛化指的是模型在面对从未见过的新场景时,是否能够将已学过的物理定律应用到未知的情境。
-
组合泛化 (Combinatorial Generalization):组合泛化介于 ID 和 OOD 之间,此种情况下,训练数据已包含了所有「概念」或物体,但这些概念、物体并未以所有可能的组合或更复杂的形式出现。
在基于视频的观察中,每一帧代表一个时间点,物理定律的预测则对应于根据过去和现在的帧生成未来的帧。因此,团队在每个实验中都训练一个基于帧条件的视频生成模型,来模拟和预测物理现象的演变。
通过测量生成视频每个帧(时间点)中物体位置变化,可判断其运动状态,进而与真实模拟的视频数据比对,判断生成内容是否符合经典物理学的方程表达。
实验设计方面,团队聚焦于由基本运动学方程支配的确定性任务。这些任务能清晰定义分布内 (ID) 和分布外 (OOD) 泛化,并且能够进行直观的误差量化评估。
团队选择了以下三种物理场景进行评估,每种运动由其初始帧决定:
-
匀速直线运动:一个球水平移动,速度保持恒定,用于说明惯性定律。
-
完美弹性碰撞:两个具有不同大小和速度的球水平相向运动并发生碰撞,体现了能量与动量守恒定律。
-
抛物线运动:一个带有初始水平速度的球因重力作用下落,符合牛顿第二定律。

-
更高的误差:在所有设置中,OOD 速度误差比 ID 高出一个数量级 (~0.02 v.s. ~0.3)。
-
扩展数据和模型规模的影响有限:与分布内泛化不同,扩展训练数据和模型规模对降低 OOD 误差几乎没有影响。这表明,简单的数据量和模型规模的增加无法有效提升模型在 OOD 场景中的推理能力。
-
模型似乎更多依赖记忆和案例模仿
-
模型更多靠颜色寻找模仿对象
-
复杂组合泛化情况
-
视频表征的局限性