Physion-Eval:AI视频生成物理真实性评估基准发布

Physion-Eval 关注AI生成视频的物理真实性,而非仅视觉效果。研究表明,当前模型在模拟基本物理规律方面仍有很大差距。

原文标题:Physion-Eval发布 | 别被「更像真的视频」骗了,AI视频生成,可能还远未真正学会物理世界

原文作者:机器之心

冷月清谈:

Physion-Eval是一个新的视频生成模型评测基准,旨在评估AI生成视频在物理层面的真实性。与以往侧重于视觉质量的评测不同,Physion-Eval关注视频是否符合基本的物理常识,如物体守恒、重力、不可穿透性等。该基准包含来自第一人称和第三人称视角的10,990条专家推理轨迹,覆盖22类细粒度物理现象,每条样本都带有时间戳、错误类别和文字解释的高质量标注。研究结果表明,目前的视频生成模型在物理一致性方面存在明显不足,大量生成的视频包含人类可以明确识别的物理错误。即使是先进的多模态模型,在时序一致性、交互合理性以及隐含物理规律的判断上,也表现出明显的局限性。Physion-Eval的出现,提醒行业在关注视频“看起来有多真”的同时,更应重视其“实际上对不对”,从而推动视频生成模型在world model、机器人、具身智能和仿真等领域的应用。

怜星夜思:

1、文章提到目前的视频生成模型更擅长制造“真实感”,但离“真正符合物理规律”还很远。你认为这种“真实感”的价值在哪里?在哪些应用场景下,它可以弥补物理规律上的不足?
2、Physion-Eval benchmark 的标注过程强调了人类智能在识别和解释物理错误方面的优势。那么,你认为未来如何结合人类智能和人工智能,来提升视频生成模型的物理合理性?
3、文章提到,现有的多模态模型在判断视频中的物理错误时,表现并不理想。你认为,如何改进多模态模型,使其能够更好地理解和推理视频中的物理现象?

原文内容


这两年,视频生成模型进步很快。清晰度更高了,镜头更稳了,人物和场景看上去也越来越自然。很多时候,我们判断一个模型强不强,看的就是它 “像不像真的”。但这其实只回答了一半的问题:它看起来像真的,不代表它真的符合现实世界的物理规律。这件事放在短视频生成里,也许只是 “偶尔有点怪”;但如果视频模型真的要往 world model、仿真系统、具身智能这些方向走,问题就不一样了。一个模型如果连物体怎么接触、状态怎么变化、事件怎么按因果顺序发生都搞不清楚,那它再像,也只是像。



现在的视频评测,更像是在比 “好不好看”


目前,视频生成领域常见的评测方式,要么看自动指标,要么让人直接选 “哪个视频更好”。这种方式当然有意义,它能比较清晰度、流畅度、观感这些东西,但它很难告诉你:视频里到底有没有违反基本物理常识


比如,一个物体是不是无缘无故消失了;两个东西是不是明明没接触却发生了交互;一个动作的结果是不是和前面的过程根本对不上。这些问题,才真正关系到模型是在 “生成一个像真的画面”,还是在 “模拟一个可信的世界”。


Physion-Eval:从 “视觉真实” 走向 “物理真实” 的新 benchmark


这篇工作提出了 Physion-Eval。它不是再做一个 “谁的视频更好看” 的排行榜,而是想认真回答一个更关键的问题:AI 生成的视频,在物理层面到底有多真实



  • 论文标题: Physion-Eval: Evaluating Physical Realism in Generated Video via Human Reasoning

  • 作者:  Qin Zhang, Peiyu Jing, Hong-Xing Yu, Fangqiang Ding, Fan Nie, Weimin Wang, Yilun Du, James Zou, Jiajun Wu, and Bing Shuai

  • 作者单位:Physion Labs,斯坦福大学,MIT,哈佛大学,Character AI

  • 论文链接: https://arxiv.org/abs/2603.19607

  • 数据集链接: https://huggingface.co/datasets/PhysionLabs/Physion-Eval

  • 视频链接:https://www.youtube.com/watch?v=Vbn_W3WNUHw



这个 benchmark 同时覆盖第一人称和第三人称场景,包含 10,990 条专家推理轨迹,覆盖 22 类细粒度物理现象。和常见评测不太一样的地方在于,这里的每条样本不只是简单打个分,而是会标出错误发生在什么时候、属于哪一类问题,以及为什么不对


数据上,第三人称部分来自 WISA-80K,第一人称部分基于 EPIC-KITCHENS 构建。为了保证标注质量,论文组织了 90 位具有 STEM 背景并接受过本科物理训练的专家标注者,采用双人标注和资深专家裁决的流程,最后得到的是带时间戳、错误类别和文字解释的高质量标注。


在这一过程中,人类智能所展现出的优势尤为明显:人类不仅能够识别视觉上的异常,更能够基于物理直觉与因果理解,对复杂的动态过程进行推理和解释。相比之下,即使是当前最先进的多模态模型,在时序一致性、交互合理性以及隐含物理规律的判断上,仍存在明显不足。




最直接的结论:现在的模型,还远谈不上 “物理一致”


这篇工作的主结论其实很简单,也很扎眼:在物理过程敏感的场景里,83.3% 的第三人称生成视频和 93.5% 的第一人称生成视频,都至少包含一个人类可以明确识别的物理错误。这说明什么?说明今天的视频模型确实越来越会制造 “真实感” 了,但离 “真正符合物理规律” 还有很远。



而且这些错误不是零零散散的小毛病,而是系统性的。论文里总结的典型问题包括:接触或交互失败、对象突然出现或消失、时间连贯性崩塌、因果顺序错乱、材料或状态变化异常、几何碰撞不合理等等。换句话说,问题不只是 “画面有点假”,而是模型对物体、接触、运动和结果之间最基本的关系,还经常搞错。



很多错误不是粗糙,而是 “看着像,但其实完全不对”


Physion-Eval 里最有意思的地方,其实是那些具体例子。它们不是那种一眼就看出来的低级 bug,而是第一眼好像还行,仔细一想却明显不符合常识。


比如,桌面上突然多出一把本来不存在的刀;瓶口朝下,液体却不往下流;水直接穿过锅底;又或者一个锅被两根手指以几乎不可能的方式拎起来。它们的问题不在于 “渲染不精细”,而在于直接违背了物体守恒、重力、不可穿透性和稳定接触这些最基本的物理规律。


这也是为什么我们觉得,这项工作不只是 “又多了一个 benchmark”。它更像是在提醒大家:今天很多模型也许已经很会生成 “像真的视频”,但还远没有学会 “世界为什么会这样动”。




更麻烦的是,连最强的多模态模型也不太会看这些错误


论文还问了另一个很现实的问题:那能不能让现在的大模型来当 “自动评委”,替人判断一个视频有没有物理问题?


答案是,暂时还不行。


文章评估了 10 个开源和闭源的 MLLM critic,结果显示,它们和人类判断之间还有明显差距。以 Gemini 3.0 Pro 为例,它会漏掉超过 74.4% 的第三人称错误视频和 90.1% 的第一人称错误视频。而且它们不只是漏检,还会把错误发生的时间说错,甚至编出根本不存在的原因。


这点其实很关键。因为如果以后大家真想靠自动 critic 去评估 world model 或视频生成系统,那 critic 本身至少得先真的看懂视频里的物理过程。就目前来看,人类判断依然是最可靠的标准。






越是高动态的物理过程,越容易暴露当前模型的短板


论文进一步从 physical intensity 和 dynamics 两个维度分析了生成模型与市面上已有的 MLLM critic 的表现。结果表明,相比强度大小,过程本身的动态性和复杂性更容易暴露视频生成模型的物理建模缺陷。对 MLLM critic 来说也是如此:只有当错误足够明显时,它们才会表现出有限的判断能力,但整体仍明显落后于人类。





总结


Physion-Eval 想指出的,不只是 “现在的视频生成模型还不够强”,而是一个更根本的问题:当行业越来越关注视频 “看起来有多真” 的时候,我们可能忽略了它 “实际上对不对”


对于真正想做 world model、机器人、具身智能和仿真的人来说,这个问题绕不过去。画面更清晰、动作更顺滑,当然重要;但如果物体会无故出现,液体不会往下流,动作结果和前因对不上,那模型就还没有真正学会世界的运行方式。


视频生成下一阶段,也许不该只继续卷观感,而应该更认真地去解决物体持续性、接触关系、状态变化、时序一致性和因果结构这些更本质的问题。“看起来对”,从来不等于 “实际上对”


作者介绍


本文由来自美国顶级科技公司与世界一流高校的豪华作者阵容共同完成,集结 Physion Labs、斯坦福大学、MIT、哈佛大学及 Character AI 的核心研究者。其中,Physion Labs 团队(Qin Zhang、Peiyu Jing、Bing Shuai)长期专注于生成式视频与世界模型中的物理一致性问题,构建了面向行业的评估基础设施与数据闭环,致力于成为下一代生成模型的 “物理可信层”。其余作者包括斯坦福大学的 Hong-Xing Yu、Fan Nie、James Zou、Jiajun Wu,麻省理工学院的 Fangqiang Ding,哈佛大学的 Yilun Du,以及 Character AI 的 Weimin Wang 等业内顶尖学者。




© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

嗨,这还不简单?直接众包啊!把视频丢给网友,让他们来找茬。找到一个物理错误就奖励几块钱,比雇专家便宜多了!而且人多力量大,肯定能找到很多隐藏的bug。就是得注意审核,别被熊孩子给恶意刷单了。

害,这还不简单?“真实感”最大的价值就是能忽悠人啊!想想那些虚假宣传的广告,不都是靠着看起来很真的视频来吸引眼球的吗?当然,我不是鼓励大家去造假,只是说这种技术确实有被滥用的风险,得注意防范。

从学术角度看,这种“真实感”其实是一种表征学习的结果。模型可能还没有完全理解物理规律,但它通过大量数据学习到了现实世界的视觉模式。这种模式可以作为一种弱先验知识,在一些对精度要求不高的场景下使用,比如快速原型设计或者草图生成。

从信息论的角度,多模态模型需要更好地融合视觉信息和语言信息。现在的模型可能只是简单地将两种模态的信息拼接在一起,没有充分利用它们之间的互补性。可以尝试使用一些注意力机制,让模型能够更好地关注视频中与物理现象相关的关键区域,并结合语言描述进行推理。

要我说,关键在于让模型学会“推理”。现在的大模型更多是基于模式匹配,看到相似的场景就给出相似的答案。但物理世界的理解需要更深层次的推理能力。可以尝试引入一些符号推理或者知识图谱的方法,让模型能够像人类一样,根据已知的物理定律来判断视频的合理性。

我觉得可以搞一个“人机协作”的标注平台。让人类专家负责标注那些比较难识别的物理错误,然后用这些高质量的数据来训练AI模型,让它逐渐学会识别各种物理异常。这样既能保证数据的质量,又能发挥AI的自动化优势。