英伟达科学家提出第二代AI预训练范式:从预测语言到预测物理世界

英伟达科学家提出AI预训练新范式:#世界建模#,预测物理状态而非文字。视觉优先,或引领机器人学新突破!

原文标题:第二代AI预训练范式:预测下个物理状态

原文作者:机器之心

冷月清谈:

英伟达研究科学家 Jim Fan 提出了第二代AI预训练范式,核心在于“世界建模”,即在特定动作的约束下,预测下一个或一段时间内物理世界的合理状态。这与当前以“预测下一个词”为代表的第一代范式形成对比,后者在应用于物理世界时表现出局限性。Jim Fan 认为,视觉是连接大脑、运动系统和物理世界的高带宽通道,世界模型捕捉到了“反事实”,即在给定不同动作时,推理未来演化将如何不同。他预测,2026年将是“大世界模型”为机器人学以及更广泛的多模态AI奠定基础的一年。不同于视觉语言模型(VLMs)的“语言优先”模式,世界建模将视觉置于首位,通过海量的视觉数据学习物理世界的规律,从而实现更高级的物理智能。他强调,视觉空间推理将是未来的方向,可以通过模拟几何形状和接触点来解决物理难题,无需依赖语言。

怜星夜思:

1、Jim Fan 提出的“大世界模型”概念,如果真的在机器人领域实现了突破,你觉得最先改变的会是哪个行业?
2、文章中提到“视觉是连接大脑、运动系统和物理世界的高带宽通道”,你认为这句话该如何理解?
3、Jim Fan 认为现有的VLA模型是“头重脚轻”,你认为在发展通用AI时,知识和物理世界理解,哪个更重要,或者说应该如何平衡?

原文内容

图片
编辑 | 杜伟、泽南


又一位大佬准备对现有 AI 技术范式开刀了。


今天凌晨,英伟达高级研究科学家、机器人团队负责人 Jim Fan(范麟熙)发布文章《第二代预训练范式》,引发了机器学习社区的讨论。



Jim Fan 指出,目前以大语言模型(LLM)为代表的 AI 模型主要基于「对下一词的预测」,这第一代范式虽然取得了巨大成功,但在将其应用于物理世界时,出现了明显的「水土不服」。


对于这个观点,纽约大学助理教授、谷歌 DeepMind 研究科学家谢赛宁也表示同意。



那么预训练的第二代范式应该是什么样子?我们先来看 Jim Fan 的全文内容:


「预测下一个词」曾是第一个预训练范式。而现在,我们正处于第二个范式转移之中:世界建模(World Modeling)或者「预测下一个物理状态」


很少有人意识到这场变革的影响有多么深远,遗憾的是,目前世界模型最被大众熟知的用例只是些 AI 视频废料(以及即将到来的游戏废料)。但我敢全心笃定,2026 年将成为「大世界模型」(Large World Models, LWMs)为机器人学以及更广泛的多模态 AI 奠定真实基础的元年


在此背景下,我将「世界建模」定义为:在特定动作的约束下,预测下一个(或一段持续时间内)合理的物理世界状态。 视频生成模型是其中的一种实例化体现,这里的「下一状态」是一系列 RGB 帧(通常为 8-10 秒,最长可几分钟),而「动作」则是对该做什么的文本描述。训练过程涉及对数十亿小时视频像素中未来变化的建模。


从核心上看,视频世界模型是可学习的物理模拟器和渲染引擎,它们捕捉到了「反事实」。这是一个更高级的词汇,意指在给定不同动作时,推理未来的演化如何不同。世界模型从根本上将视觉置于首位。


相比之下,视觉语言模型(VLMs)在本质上是「语言优先」的。从最早的原型(如 LLaVA)开始,其叙事逻辑几乎未变:视觉信息从编码器进入,然后被路由到语言主干网络中。随着时间的推移,编码器在改进,架构更趋简洁,视觉也试图变得更加「原生」(如 omni 模型)。但它始终像是一个「二等公民」,在物理规模上远逊于业界多年来为大语言模型(LLMs)练就的肌肉。


这条路径很便捷,因为我们知道 LLM 是可扩展的。我们的架构直觉、数据配方设计以及基准测试(如 VQA)都高度针对语言进行了优化。


对于物理 AI,2025 年曾被 VLA(视觉 - 语言 - 动作)模型主导:在预训练的 VLM 检查点之上,硬生生嫁接一个机器人电机动作解码器。这其实是 「LVA」:其重要性排序依次为语言 > 视觉 > 动作。同样,这条路径很方便,因为我们精通 VLM 的训练套路。


然而,VLM 中的大部分参数都分配给了知识(例如「这团像素是可口可乐品牌」),而非物理(例如「如果你打翻可乐瓶,液体会蔓延成一片褐色污渍,弄脏白桌布,并毁掉电机」)。VLA 在设计上非常擅长知识检索,但在错误的地方显得「头重脚轻」。这种多阶段的嫁接设计也违背了我对简洁与优雅的追求。


从生物学角度看,视觉主导了我们的皮层计算。大脑皮层约有三分之一的部分专门用于处理枕叶、颞叶和顶叶区域的像素信息。相比之下,语言仅依赖于一个相对紧凑的区域。视觉是连接大脑、运动系统和物理世界的高带宽通道,它闭合了「感觉运动回路」。这是解决机器人问题的最核心环路,而且这个过程的中转完全不需要语言。


大自然给了我们一个存在性证明:一种具有极高肢体智能但语言能力微乎其微的生物 —— 类人猿。


我曾见过类人猿驾驶高尔夫球车,像人类技工一样用螺丝刀更换刹车片。它们的语言理解能力比不过 BERT 或 GPT-1,但它们的物理技能远超目前最先进的机器人。类人猿或许没有强大的语言模型,但它们肯定拥有极其稳健的「如果... 会怎样」的心理图景:即物理世界如何运作,以及如何应对它们的干预。


世界建模的时代已经到来,它充满了「苦涩的教训」的味道。正如加州大学伯克利分校教授 Jitendra Malik 经常提醒我们这些「规模崇拜者」所说:「监督学习是 AI 研究者的鸦片。」YouTube 的全部存量以及智能眼镜的兴起,将捕捉到规模远超人类历史所有文本的原始物理世界视觉流。


我们将见证一种新型预训练:下一个世界状态可能不限于 RGB 图像,3D 空间运动、本体感觉和触觉感知才刚刚起步。


我们将见证一种新型推理:发生在视觉空间而非语言空间的「思维链」。你可以通过模拟几何形状和接触点,想象物体如何移动和碰撞来解决物理难题,而无需将其转化为字符串。语言只是一个瓶颈,一个脚手架,而非根基。


我们将面临一盒全新的潘多拉之问:即使有了完美的未来模拟,动作指令该如何解码?像素重建真的是最佳目标吗,还是我们应该进入另一种潜空间?我们需要多少机器人数据,扩展遥操作规模仍是标准答案吗?在经历过这些探索后,我们是否终于在向机器人领域的「GPT-3 时刻」迈进?


Ilya 终究是对的,AGI 尚未收敛。我们回到了「研究的时代」,没有什么比挑战第一性原理更令人心潮澎湃了。


Jim Fan 对现状的思考以及对未来的判断,同样收获了评论区大量网友的认可。




有人认为这是「神经符号 AI 社区的胜利」。



你认同 Jim Fan 的观点吗?



© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

可以考虑使用一些模拟环境来训练 AI 模型。在模拟环境中,AI 可以自由地进行各种实验,并观察实验结果。这样可以帮助 AI 更好地理解物理世界的规律,并掌握各种操控技能。而且,模拟环境可以生成大量的训练数据,可以有效地解决数据稀缺的问题。

我觉得这个问题需要辩证地看。语言作为人类高级认知功能的体现,肯定在 AGI 中有其不可替代的作用。但是,如果为了追求语言能力而牺牲了对物理世界的理解和交互能力,那肯定是本末倒置。AGI 应该是一个多模态、综合性的智能系统,语言、视觉、运动等能力应该协同发展。

这就像是说,我们的眼睛就像一个高速公路,直接连接着我们的世界认知和行动能力。我们看到什么,大脑就能快速处理,然后指挥身体做出反应。没有视觉,我们就慢很多,也笨拙很多。想象一下,闭着眼睛走路,是不是效率低很多?

我倒是觉得游戏行业会先受益。现在游戏里的AI NPC还是有点呆板,如果有了“大世界模型”,NPC的行为会更自然、更智能,游戏体验肯定会大大提升。说不定以后就能在游戏里体验到更真实的社交了。

我觉得都重要,但侧重点可能要根据应用场景来定。如果要做一个智能客服,那知识肯定更重要;但如果要做一个机器人,那物理世界理解就更重要。通用AI肯定需要两者兼备,但初期可能需要更侧重物理世界理解,毕竟这是AI和现实世界交互的基础。

可以从信息论的角度理解。视觉信息包含的信息量远大于其他感官信息,比如听觉或触觉。而且,视觉信息是并行处理的,可以同时获取场景中的大量信息。这使得我们能够更快地理解环境,并做出相应的反应。

楼上的都太乐观了,我觉得短期内还是科研领域受益最大。这种模型首先需要大量的数据和计算资源,只有科研机构才有条件进行深入研究。而且,模型本身也需要不断地改进和优化,这都需要科研人员的努力。

这让我想起了深度学习里的“过拟合”问题。如果模型只学到了知识,而没有理解背后的物理规律,那它就很容易“过拟合”到特定的数据集上,泛化能力会很差。所以,我觉得应该先让AI理解物理世界,然后再学习知识,这样才能更好地提升泛化能力。

我觉得会是工业自动化领域。想想看,如果机器人能够更精准地预测物理状态,自主完成复杂装配、维护任务,那生产效率得提升多少啊!而且还能降低人为错误导致的损失。

这句话让我想到了生物学上的感觉运动环路。视觉感知提供环境信息,这些信息被大脑处理后,传递给运动系统,控制肌肉运动。这个环路不断迭代,形成我们与环境的互动。视觉在这个环路中起着至关重要的作用。

我不太同意楼上的观点。我觉得知识是理解物理世界的基础。没有知识,AI就无法对物理现象进行抽象和建模。当然,纯粹的知识也缺乏应用价值,所以需要将知识和物理世界理解结合起来,让AI能够根据知识来预测和解释物理现象。