Meta推出V-JEPA 2世界模型,Yann LeCun携研究成果回归

Meta发布V-JEPA 2世界模型,提升AI物理推理能力。LeCun认为AI需构建世界模型,扎克伯格加码AI投入,或将推动通用人工智能发展。

原文标题:被“网暴”两个月后,Yann LeCun 携最新世界模型杀回!小扎千万美元激励抢人,Meta AI 内部权利之争开始

原文作者:AI前线

冷月清谈:

Meta发布了新的“世界模型”V-JEPA 2,旨在提升AI在物理世界的视觉理解与预测能力,从而增强AI主体的物理推理能力。该模型通过构建现实的抽象数字孪生,使AI能够预测行为后果并规划行动方案。V-JEPA 2无需标记视频片段即可进行推理,适用于自动驾驶、仓库机器人和无人机配送系统等领域。Meta已开源V-JEPA 2,并发布了IntPhys 2、MVPBench和CausalVQA三项基准测试,用于评估模型从视频中进行物理世界推理的能力。Yann LeCun认为AI需要世界模型而非仅依赖大语言模型,并表示已研究此想法20年。Meta加倍押注AI,扎克伯格亲自领导超级智能团队的组建,并向Scale AI投资。世界模型注重空间理解、因果推理和预测能力,可能为AI在动态环境中自主运行铺平道路,并在医疗、农业和救灾等领域有广泛应用。

怜星夜思:

1、V-JEPA 2 强调无需标记视频片段进行推理,这会给AI训练带来哪些变革?是否会降低对大规模数据集的依赖?
2、LeCun 认为 LLM 只是“token 生成器”,世界模型才是未来。你是否认同这种观点?为什么?
3、Meta 如此大手笔投入 AI,是否能追赶上 OpenAI 和 Google DeepMind 的步伐?Meta 在 AI 领域有哪些优势和劣势?

原文内容

整理 | 华卫

昨日,Meta 推出了其新的“世界模型”V-JEPA 2,旨在实现物理世界中顶尖的视觉理解与预测能力,以提升 AI 主体的物理推理能力。对于构建能在物理世界中运作的 AI 智能体和实现高级机器智能(AMI)的工作而言,物理推理能力至关重要。

在一段发布的 V-JEPA 2 视频演示中,图灵奖获得者、Meta 首席 AI 科学家 Yann LeCun 将 V-JEPA 2 描述为“现实的抽象数字孪生”,使 AI 能够 “预测其行为的后果” 并 “规划行动方案以完成给定任务”。

“我们相信,世界模型将开启机器人技术的新纪元,使现实世界中的 AI 主体能够帮助完成家务和体力任务,而无需海量的机器人训练数据。”

比英伟达的 Cosmos 模型快 30 倍,

现已开源

作为人类,我们具备预测物理世界如何因响应自身或他人行为而变化的能力。例如,你知道将网球抛向空中时,重力会将其拉回地面;在陌生的拥挤区域行走时,你会朝着目的地移动,同时避免碰撞沿途的人群或障碍物;打曲棍球时,你会滑向冰球的前进方向,而非它当前的位置。

实际上,人类是通过观察周围世界并构建内部模型来形成这种物理直觉,进而预测假设行为的结果。

V-JEPA 2 的作用就是,帮助 AI 主体模拟这种智能,使其对物理世界的认知更加敏锐。具体来说,此类世界模型赋予 AI 三大核心能力:理解、预测与规划,试图构建现实的内部模拟,帮助机器预测结果并据此规划行动。

并且,Meta 称,V-JEPA 2 可以在不需要标记视频片段的情况下执行此类推理,这使其有别于 ChatGPT 或 Gemini 等现有生成式 AI 系统,旨在为自动驾驶汽车、仓库机器人和无人机配送系统等 AI 驱动型技术实现实时空间理解。

另外据了解,这次的 V-JEPA 2 是 Meta 去年发布的视频训练模型 V-JEPA 的扩展版本,进一步提升了理解与预测能力,使机器人能与陌生物体和环境交互以完成任务。

该模型是在 100 多万小时的视频基础上训练出来的,其训练数据旨在帮助机器人或其他人工智能主体在物理世界中运作,理解并预测诸如重力等概念将如何影响序列中的后续事件,这些是幼儿和动物在大脑发育过程中形成的常识性联系。例如,当你和狗玩接物游戏时,狗会理解将球在地上弹跳如何使其向上反弹,或者它应该跑向它认为球将落地的位置,而不是球在那一刻的精确位置。

Meta 还描述了一些机器人可能会遇到的情况,比如机器人手持盘子和锅铲、走向放有熟鸡蛋的炉子的视角。AI 可以预测,下一个极有可能的动作是用锅铲将鸡蛋移到盘子里。 当在实验室机器人上部署时,Meta 发现机器人可借助 V-JEPA 2 执行抓取、拾取物体并将其放置到新位置等任务。

同时,该公司还发布了三项新的基准测试,包括 IntPhys 2、MVPBench 和 CausalVQA,用于评估现有模型从视频中进行物理世界推理的能力。

据 Meta 称,V-JEPA 2 的速度比英伟达的 Cosmos 模型快 30 倍。今年的 CES 上,英伟达宣布公开提供一系列可以预测和生成“物理感知”视频的世界模型,此系列为 Cosmos World Foundation 模型,简称 Cosmos。不过,Meta 评估自己模型的基准可能与英伟达不同。

值得注意的是,现在 Meta 已将 V-JEPA 2 开源,允许开发人员访问、测试并将其集成到各种用例中。

  LeCun 力挺 V-JEPA 2,

“想法已研究 20 年”

对于这次的 V-JEPA 2,Yann LeCun 显然也十分重视,不仅在演示视频中亲自出镜讲解这一成果,并在 Meta 官方介绍 V-JEPA 2 后火速在社交平台转发帖子。

LeCun 在塑造现代 AI 方面发挥了重要作用,他的早期工作主要集中在神经网络和计算机视觉上,为后来的深度学习奠定了基础。加入 Meta 后,LeCun 就一直负责 Meta 的 AI 研究工作,领导的基础 AI 研究实验室(Fundamental AI Research)。直到 2023 年,Meta 才又新成立了一个生成式 AI 小组。

然而,一直以来,LeCun 都认为,AI 需要世界模型,而不仅仅是大语言模型。“我们需要 AI 来构建世界如何运作的模型,而不仅仅是模仿人类文本。”他还曾透露:“通过训练系统预测视频中将要发生的事情来理解世界如何运作的想法是非常古老的。我至少以某种形式研究了 20 年。”

在 LeCun 最近的公开发言中,他也多次批评 LLM 不足以实现人类水平的智能,而主张建立通过观察环境和与环境互动来学习的世界模型。今年的英伟达 GTC 大会上,LeCun 直接将 LLM 贬为“token 生成器”,还放话称“五年内没有理智的人会继续使用它们”。

因而,今年 4 月,当 Meta 因 Llama 4 发布后表现不佳招致种种“落后”质疑时,就有业内人士直接将根源归咎于其“对 LLM 前进方向的厌恶 / 拒绝”心态。还有网友表示,“有像 Yann Lecun 这样的顶级科学家、数千亿资本支出用于计算资源以及内部研究,Meta 竟然还能搞砸成这样。”

这次发布 V-JEPA 2 后,不少网友都表示,LeCun 终于带着他的世界模型“熬出头”了。

Meta 公开表示, V-JEPA 2 标志着其长期 AI 路线图的一个关键里程碑,尤其是在与 OpenAI、微软和谷歌的竞争日益激烈的情况下。随着世界模型在 AI 进步中变得越来越重要,V-JEPA 2 将使 Meta 在开发 “通用人工智能” 的竞赛中发挥主导作用 —— 这类 AI 有望在现实世界中更接近人类的思考和行动模式。

  急于追赶 AI 进度的小扎,

已亲自上阵

推出 V-JEPA 2 的这个当下,正值 Meta 加倍押注其 AI 雄心之际。据悉,该公司不仅希望通过 AI 改善 Facebook 和 Instagram 的用户体验,还致力于开发机器人技术和自主系统方面的长期能力。

而如今,来自中国的 DeepSeek 和 Qwen,在开源社区中的影响力愈加扩大,Llama 激起的“水花”反而越来越小,Llama 4 也不尽如人意。面对这样的情况,Meta 的首席执行官马克・扎克伯格(Mark Zuckerberg)似乎也开始着急了。

前不久,有外媒报道,这家科技巨头向 Scale AI 投资 140 亿美元,这是一家总部位于旧金山的初创公司,为机器学习提供训练数据。该公司由 Alexandr Wang 创立,有望在 Meta 下一阶段的 AI 发展中发挥关键作用。知情人士透露,Wang 还被聘请领导 Meta 的关键人工智能计划。这笔投资也与扎克伯格的既定目标一致,即“将 AI 嵌入 Meta 的核心产品中” 。

另据一位知情人士透露,Meta 的领导层抱怨该公司领先的 AI 团队缺乏围绕数据的创新,期望 Scale AI 能够重新点燃其 AI 工作。在过去的几年里,OpenAI 等领先的 AI 实验室一直依靠 Scale AI 来生成和标记用于训练模型的数据。Anyscale 联合创始人 Robert Nishihara 曾指出,“数据是一个移动的目标,要迎头赶上,这不仅仅是有限的努力——你必须创新。”

并且,时隔两年,Meta 再次着手引入新的 AI 团队。

据外媒报道,该公司正在组建一个专注于实现“超级智能”目标的团队,并由扎克伯格亲自领导进行。他计划为超级智能组招募约 50 名顶尖 AI 专家,并将向这些人员提供为期数年、价值数千万美元的薪酬方案,包括股权激励。

当前,他不仅私人会见了多位顶尖 AI 研究人员和工程师,还组建了名为“Recruiting Party”的 WhatsApp 群组。谷歌 DeepMind 首席研究员 Jack Rae 预计将加入 Meta 的超级智能团队,他也是该团队曝出的首个成员。Rae 此前在谷歌 DeepMind 工作了两年,负责 Gemini 的“思考”相关进展。另有消息称,AI 语音初创公司 Sesame AI 的机器学习负责人 Johan Schalkwyk 也已被 Meta 招募。

与此同时,Meta 的一些竞争对手似乎正在为留住 AI 研究人员提供新的激励措施。一位知情人士透露,Meta 曾试图挖走谷歌顶级人工智能研究员之一 Koray Kavukcuoglu 以及 OpenAI 首席研究员 Noam Brown,但均未成功。

世界模型竞争开始升温

不同于解读和生成文本的大型语言模型,世界模型更注重空间理解、因果推理和预测能力。这些模型可能成为任何在动态现实环境中运行的 AI 的核心要素。根据 Meta 的说法, V-JEPA 2 依赖于简化的空间推理而不是大量的数据输入,这可能使其比现有的 AI 模型更高效、适应性和可扩展性都更强。

因此,其影响很可能不仅限于物流和机器人技术。

如果像 V-JEPA 2 这样的世界模型继续按预期发展,它们可能会为 AI 在陌生环境中自主运行铺平道路,进而开拓医疗、农业甚至救灾等领域的应用场景。

并且,Meta 的这一举措,似乎也顺应了 AI 研究正向世界建模发展的增长趋势。

去年 9 月,AI 研究员李飞飞为初创公司 World Labs 筹集了 2.3 亿美元,该公司同样专注于构建大规模世界模型。与此同时,谷歌 DeepMind 部门正在测试名为 Genie 的世界模型项目,旨在实时模拟游戏和虚拟环境。

参考链接:

https://techcrunch.com/2025/06/11/metas-v-jepa-2-model-teaches-ai-to-understand-its-surroundings/

https://about.fb.com/news/2025/06/our-new-model-helps-ai-think-before-it-acts/

https://invezz.com/news/2025/06/11/meta-unveils-v-jepa-2-ai-model-predicts-real-world-movement-without-video-data/

https://www.1950.ai/post/why-yann-lecun-believes-ai-needs-world-models-not-just-language-models-2

声明:本文为 AI 前线整理,不代表平台观点,未经许可禁止转载。

直播预告

大模型“上岸”之后,AI 应用走到哪了?产品、交互、人才、闭环,三位一线从业者直播开聊。扫码预约直播,不见不散!


今日荐文

图片

你也「在看」吗?👇


V-JEPA 2 这种无需标记视频的推理方式,简直是AI训练的一大福音!想象一下,以后不用再花费大量时间和金钱去标注数据,AI就能自己学会理解世界,简直爽歪歪!而且,如果真的能降低对大规模数据集的依赖,那小型研究团队也能玩转AI了,感觉整个AI圈都要 democratize 了!

我觉得关键在于 Meta 如何将技术转化为实际的产品和服务。OpenAI 的 ChatGPT 之所以火爆,很大程度上是因为它找到了一个杀手级的应用。Meta 如果能将 AI 技术与 Facebook、Instagram 等产品深度结合,创造出用户真正需要的功能,那就有可能后来居上。毕竟,用户体验才是王道!

我倒是觉得 LLM 和世界模型并不冲突,而是互补的关系。LLM 可以提供丰富的知识和语言能力,而世界模型可以提供对世界的理解和推理能力。可以将 LLM 看作是 AI 的大脑,世界模型看作是 AI 的眼睛和双手。只有大脑足够聪明,眼睛和双手足够灵活,才能创造出真正的人工智能。

从学术角度来看,V-JEPA 2 的非监督学习方式确实潜力巨大。传统的监督学习高度依赖标注数据质量,而无监督学习若能有效提取视频中的结构化信息,无疑将大大提升模型的泛化能力。但需要注意的是,非监督学习对算法设计要求更高,如何确保模型学到的是真正有用的信息,而非噪声,将是一个挑战。

LeCun 大佬的观点一直很鲜明,他一直强调 AI 需要理解世界,而不是仅仅模仿人类语言。我觉得他说的“token 生成器”可能有点极端,但确实点出了 LLM 的一个局限性:缺乏对世界的真正理解。它们可以生成流畅的文本,但很难进行真正的推理和规划。世界模型如果真的能让 AI 像人类一样思考,那绝对是质的飞跃!

从信息论的角度来看,LLM 本质上是在学习概率分布,并根据已有的文本生成新的文本。这种方式在文本生成、翻译等任务上表现出色,但在需要进行复杂推理、规划等任务时,就显得力不从心。世界模型则试图构建一个对世界的抽象表示,从而进行预测和规划。两者各有优势,适用于不同的任务类型。未来更可能是一种融合,而不是完全替代。

Meta 在 AI 领域既有优势也有劣势。优势在于:1. 强大的算力基础和资金支持;2. 丰富的应用场景和数据资源;3. LeCun 等顶尖 AI 科学家的加盟。劣势在于:1. 起步较晚,技术积累相对薄弱;2. 在 AI 伦理和社会责任方面面临更大的挑战;3. 内部组织结构和决策效率可能存在问题。

Meta 的决心和财力毋庸置疑,小扎亲自挂帅,砸钱抢人,这架势就是要 All in AI 了!但 OpenAI 和 DeepMind 已经领先了好几个身位,Meta 想要追赶,恐怕还得拿出点真本事才行。比如,在应用场景方面,Meta 拥有庞大的用户基数和丰富的数据,这或许是它弯道超车的机会。

我觉得‘无需标记’这个说法可能有些绝对了,更准确的说法应该是‘减少对显式标记的依赖’。AI 还是需要从数据中学习,只是学习的方式更聪明了。它可能通过观察视频中的物理规律、对象交互等信息,自动构建内部模型。这样一来,数据集的规模可能仍然很重要,但对数据质量的要求会更高,需要更丰富、更真实、更具多样性的数据。