PEVA:伯克利&Meta提出基于全身动作的具身智能世界模型

伯克利&Meta提出PEVA模型,通过AI学习身体动作与视觉信息之间的关系,构建更贴近现实的具身智能。

原文标题:伯克利&Meta面向具身智能的世界模型:让AI通过全身动作「看见」未来

原文作者:机器之心

冷月清谈:

本文介绍了伯克利和Meta提出的PEVA(Whole-Body Conditioned Egocentric Video Prediction)模型,该模型旨在通过模拟人类的身体动作与视觉信息之间的关系,来构建更贴近现实的具身智能。与传统世界模型只考虑低维度控制指令不同,PEVA将整个人的3D姿态输入模型,使AI能够学习身体动作如何改变视觉体验,例如手臂抬起遮挡物体、蹲下改变视角等。PEVA目前可以根据未来动作预测第一视角视频、分解复杂动作为原子动作、生成长达16秒的视觉流,并支持“反事实”推断和多方案规划。研究表明,PEVA在短期视觉预测、长期连贯性、原子动作控制和多动作规划方面都表现出可行性,为具身智能提供了一种新的切入点

怜星夜思:

1、PEVA模型通过预测身体动作带来的视觉变化来模拟世界,这种方式与传统AI预测图像的方式相比,有哪些优势和局限性?
2、文章提到PEVA可以进行“反事实”推断,即预测如果做另一个动作会看到什么。这种能力在实际应用中有哪些潜在价值?
3、PEVA目前还存在一些局限,例如无法用语言描述目标。你认为未来如何让AI能够像人一样,将语言指令融入到具身智能的世界模型中?

原文内容


本文基于 Yutong Bai、Danny Tran、Amir Bar、Yann LeCun、Trevor Darrell 和 Jitendra Malik 等人的研究工作。



  • 论文标题:Whole-Body Conditioned Egocentric Video Prediction

  • 论文地址:https://arxiv.org/pdf/2506.21552

  • 项目地址:https://dannytran123.github.io/PEVA/

  • 参考阅读链接:https://x.com/YutongBAI1002/status/1938442251866411281


几十年来,人工智能领域一直在思考一个看似简单但非常根本的问题:


如果一个智能体要在真实世界中行动、规划,并且和环境互动,它需要一个怎样的「世界模型」?


在很多早期研究中,世界模型就是一个预测引擎:只要给它一个抽象的控制指令,比如「向前走一米」或者「向左转 30 度」,它就能模拟出未来的图像。这类方式在实验室环境里已经发挥过很大作用,但一旦放到真正复杂的人类生活环境,就常常捉襟见肘。


毕竟,人并不是一个漂浮在空中的摄像头。人有四肢、有关节、有骨骼,也有着非常具体的物理限制:


  • 关节的活动范围

  • 躯干的稳定性和平衡

  • 肌肉力量的极限


这些物理约束决定了:并不是所有动作都能被执行,很多计划只能在可达、可平衡、可承受的范围内完成。而正是这样的物理性,才塑造了人类真实的动作方式,也塑造了我们能够看到的和不能看到的信息。


举一些例子:


  • 你想看到身后的情况,就必须转头或者转身

  • 你想看清桌下的东西,就必须弯腰蹲下

  • 你想拿到高处的杯子,就必须抬起手臂并伸展身体


这些都不是凭空的,而是被身体结构和运动学约束的行为。所以如果 AI 也要像人一样预测未来,就得学会:预测自己的身体能做到什么动作,以及由此产生的视觉后果。


为什么说视觉就是规划的一部分?


从心理学、神经科学到行为学,人们早就发现一个规律:在执行动作之前,人会先预演接下来会看到什么。


例如:


  • 走向水杯时,脑子里会提前预测水杯什么时候出现

  • 转过一个拐角前,会猜测即将出现的景象

  • 伸手的时候,会想象手臂何时进入视野


这种「预演」能力让人类能及时修正动作并避免失误。也就是说,我们并不是光靠看到的画面做出决策,而是一直在用大脑里的「想象」,预测动作的结果。


如果未来的 AI 想在真实环境中做到和人一样自然地计划,就需要拥有同样的预测机制:「我如果这样动,接下来会看到什么?」


世界模型的老思路和新思路


世界模型并不新鲜,从 1943 年 Craik 提出「小规模大脑模型」的概念开始,到 Kalman 滤波器、LQR 等控制理论的出现,再到近年用深度学习做视觉预测,大家都在试图回答:「我采取一个动作,未来会怎样?」


但是这些方法往往只考虑了低维度的控制:像「前进」、「转向」这类参数。相比人类的全身动作,它们显得非常简陋。因为人类的动作:


  • 有几十个自由度的关节

  • 有清晰的分层控制结构

  • 动作对视觉的结果会随着环境不断改变


如果一个世界模型不能考虑身体动作如何塑造视觉信息,它很难在现实世界里生存下来。


PEVA 的小尝试


基于这样的背景,来自加州大学伯克利分校、Meta的研究者们提出了一个看起来简单但非常自然的问题:「如果我真的做了一个完整的人体动作,那接下来从我的眼睛会看到什么?」


相比传统模型只用「速度 + 方向」做预测,PEVA 把整个人的 3D 姿态(包括关节位置和旋转)一并喂进模型,和历史的视频帧一起输入,从而让 AI 学会:身体的动作,会如何重新组织我们能看到的世界。



举一些例子:


  • 手臂抬起 → 遮挡部分物体,同时也可能露出新的区域

  • 蹲下 → 视角高度变化,地面特征出现

  • 转头 → 原本背后的信息重新进入可见范围


这就是 PEVA 的核心:预测未来,不只是预测像素,而是预测身体驱动下的视觉后果。



    PEVA 的功能


    PEVA 目前能做的事情包括:


    • 给定未来的 3D 全身动作,预测连续的第一视角视频。

    • 分解复杂行为成「原子动作」,例如只控制左手或者头部旋转。



    不仅做单次预测,还能生成最长 16 秒的视觉流。



    支持「反事实」推断:如果做另一个动作,会看到什么?


    在多条动作序列之间做规划,通过视觉相似度挑出更优方案。




    在多样化的日常环境中学习,避免过拟合在简单场景。


    一句话总结,PEVA 就像一个身体驱动的可视化模拟器,让 AI 获得更接近人类的想象方式。


    技术细节


    PEVA 的技术很简单直接,主要包括:


    • 全身动作输入(48 维度的三维姿态)

    • 条件扩散模型 + Transformer,兼顾视觉生成和时间逻辑

    • 在真实同步的视频 + 动作(Nymeria 数据集)上训练

    • 用时间跳跃策略预测到 16 秒

    • 做一个可行的多方案规划:在若干个动作轨迹中,用视觉相似度挑一个最可能达成目标的方案。



    研究者在文章中也用大篇幅讨论了局限和展望:例如只做了单臂或部分身体的规划,目标意图还比较粗糙,没法像人那样用语言描述目标,这些都值得后续慢慢补齐。


    能力小结


    从评估看,PEVA 在几个方面算是一个可行的探索:


    • 短期视觉预测,与动作对齐度高。

    • 长期可达 16 秒的视频,仍保持较好连贯性。

    • 原子动作的控制能力,比如只预测手部动作、只预测转身。

    • 规划:尝试多动作模拟,挑选最接近目标的一条。


    这些能力至少证明了一个方向:用身体驱动未来的视觉预测,是走向具身智能的一种合理切入点。


    展望


    后续还值得探索的方向包括:


    • 语言目标和多模态输入

    • 真实交互中的闭环控制

    • 对更复杂任务的可解释规划


    当 AI 试着像人一样行动时,也许它同样需要先学会:如果我这么动,接下来会看到什么。


    结语


    或许可以这样说:人类之所以能看见未来,是因为身体在动,视觉随之更新。


    PEVA 只是一个很小的尝试,但希望为未来可解释、可信任的具身智能,提供一点点启发。


    © THE END 

    转载请联系本公众号获得授权

    投稿或寻求报道:[email protected]

    传统AI偏重于预测宏观变化,忽略了动作对视觉的细微影响,这在复杂环境中可能导致决策失误。而PEVA的优势在于能更精细地模拟这种影响,但对硬件和算法的要求也更高,模型训练也更困难。

    在游戏AI中,“反事实”推断可以帮助AI玩家更好地理解对手的意图,并做出更有效的策略。有点像棋类游戏中提前几步的思考。

    如果结合增强学习,那这玩意儿简直是作弊神器!AI可以通过模拟各种动作的结果,快速学习最优策略,就像拥有了预知未来的能力一样。当然,前提是模型足够准确。

    也许可以借鉴儿童学习的方式,让人类通过示范动作和口头指导来训练AI。这样AI就能逐渐建立起语言和动作之间的联系。

    从哲学角度考虑,PEVA体现了一种具身认知的思想,认为智能是与身体不可分割的。不过,是否所有智能都必须依赖身体?这仍然是一个开放的问题。也许在某些特定任务中,纯粹的图像预测仍然有其优势。

    可以尝试将自然语言处理(NLP)模型与PEVA结合,让AI理解语言指令,并将其转化为具体的动作目标。这需要一个强大的多模态学习框架。

    我觉得关键在于建立一个共享的语义空间,让语言和视觉信息能够在这个空间中相互映射。这样,AI才能真正理解语言的含义,并将其转化为可执行的动作。

    PEVA的优势在于更贴近人类认知方式,考虑了身体的物理限制,预测结果更符合真实情况。但局限性在于需要精确的全身动作数据,计算复杂度更高。

    “反事实”推断在机器人导航中很有用。例如,机器人可以模拟不同的行走路线,选择一条能避开障碍物的最佳路径。