清华&斯坦福团队Ctrl-World世界模型,具身智能登顶WorldArena,多项指标超越谷歌、英伟达

清华&斯坦福团队Ctrl-World世界模型在具身智能权威评测WorldArena中登顶,多项指标超越谷歌、英伟达,标志世界模型进入新阶段。

原文标题:击败谷歌、英伟达!清华陈建宇×斯坦福Chelsea团队世界模型Ctrl-World具身能力登顶全球

原文作者:机器之心

冷月清谈:

清华大学陈建宇团队与斯坦福大学Chelsea Finn团队联合研发的Ctrl-World世界模型在具身智能权威评测 WorldArena 中表现卓越,在具身任务能力、主体一致性、轨迹精度、深度准确性、策略评估一致性等多项核心维度登顶。该模型在视频生成能力方面也名列前茅,超越谷歌和英伟达等顶尖模型。WorldArena 作为全球具身世界模型的权威评测平台,通过硬核基准、鼎盛的参赛阵容和硬核评测体系,为具身智能领域的发展提供了重要参考。Ctrl-World 的成功在于其动作条件化架构、物理引擎约束嵌入以及多视图联合与视频预测模型的运用,使其在策略评估、动作规划和合成数据有效性等方面均表现出色,标志着世界模型进入了从“生成好看”到“真能干活”的新阶段。

怜星夜思:

1、Ctrl-World模型在策略评估一致性上表现出色,这意味着什么?它对机器人研发的成本和效率会产生什么影响?
2、文章提到Ctrl-World采用了动作条件化架构和物理引擎约束嵌入,这两种方法分别解决了什么问题?为什么它们对具身智能至关重要?
3、Ctrl-World在WorldArena的成功,对具身智能领域的发展有哪些启示?未来具身智能的发展方向可能是什么?

原文内容

图片
机器之心编辑部

在全球具身智能领域的顶级权威评测 WorldArena 榜单中,清华陈建宇(星动纪元创始人)团队联合斯坦福 Chelsea Finn(PI 创始人) 团队研发的 Ctrl-World 世界模型交出优异答卷:



    • 具身任务能力斩获全球第一,更在主体一致性、轨迹精度、深度准确性、策略评估一致性四大核心维度登顶;

    • 视频生成能力排名全球第二,仅次于阿里 Wan 2.6,强势超越谷歌 Veo 3.1、英伟达 Cosmos-Predict 2.5 等世界顶尖模型;

    • Ctrl-World 成为在「视频生成质量」(看起来真实) 与「具身任务」(真正可用) 两大维度均跻身顶级梯队的世界模型


    14 个世界模型在 WorldArena 融合多维度表现的 EWMScore 综合指标评分

    (a)  Ctrl-World 在具身策略评估一致性上高达 0.986,远超英伟达等同类模型;(b) Ctrl-World 以 59.70 在视频生成质量上排名全球第二,超越谷歌 Veo 3.1(58.87),仅次于阿里 Wan 2.6(61.86)


    WorldArena:

    全球具身世界模型的「终极试炼场」


    WorldArena 之所以能成为行业公认的权威榜单,核心在于其「全面、硬核、具引领性」的定位,彻底区别于泛化的 AI 评测体系,其专业权威源于三大核心特质:


    1. 硬核基准:顶尖学术共建,全方位综合评测


    WorldArena 由清华大学牵头,联合普林斯顿大学、新加坡国立大学、北京大学、香港大学、中科院、上海交通大学、中国科学技术大学等 8 所全球顶尖学术机构共同研发,团队成员均为具身智能、计算机视觉、机器人学领域的权威学者,共同制定了兼具科学性与实用性的硬核评测标准。


    该体系聚焦具身世界模型这一核心领域,打造了涵盖 16 大核心指标、3 大真实应用任务的全方位综合测试场景,全面考核模型的感知精度、物理理解、空间认知、动作预测及实际落地适配能力,实现对具身智能核心技术的全方位、深层次检验,而非单一维度的能力比拼。


    2. 参赛阵容鼎盛:全球巨头与顶尖机构同台竞技


    得益于其权威的评测标准与行业影响力,全球顶尖具身世界模型研发团队均主动参与评测,首批参评阵容涵盖国际科技巨头、顶尖学术机构,包括:谷歌、英伟达、阿里、字节、智谱、智元、极佳视界、清华大学、斯坦福大学、北京大学、香港大学、普林斯顿大学等


    此次共有全球顶尖 14 款参赛模型同台竞技,覆盖通用视频生成衍生模型、机器人专用模型等所有主流技术路线,真正形成「全球顶级玩家齐聚」的格局,榜单结果不仅是各模型能力的直观排名,更成为行业技术研发、方向布局的重要「风向标」,引领具身智能领域的创新发展。


    3. 评测硬核:16 项指标 + 3 大任务,直击「真干活」的核心需求


    WorldArena 的评测体系围绕「具身实用」设计,聚焦「真能干活」:


    视频质量 6 大评估维度示意图:视觉质量、运动质量、内容一致性、物理贴合度、3D 精度、可控性,每个维度都有明确的优劣判断标准


    6 大核心维度涵盖视觉质量、运动质量、内容一致性、物理贴合度(Physics Adherence)、3D 准确性(3D Accuracy)、可控性,细分为 16 项量化指标,每一项都对应机器人实际应用的痛点;


    具身任务评估体系概览:通过数据引擎、策略评估、动作规划三大任务,全面测试模型的实战能力


    3 大具身任务(数据引擎、策略评估、动作规划)模拟模型的真实使用场景,直接考核「生成的内容能不能训练机器人」、「模拟的环境能不能测试策略」、「规划的动作能不能完成任务」;


    70 位专业标注者对 3500 个视频进行主观评估,确保结果既符合技术标准,又贴近人类对「实用」的直觉判断。


    现有世界模型基准与 WorldArena 的评测维度对比:

    该表从视频质量 6 个子维度、具身任务 3 大核心角色及人类评估维度,全面对比了主流评测基准与 WorldArena 的覆盖情况,直观体现了 WorldArena 在具身任务评测上的独家优势,是其成为具身世界模型专属评测金标准的核心依据。


    这种「技术指标 + 实用任务 + 人类校验」的三重考核,让 WorldArena 的排名不只是「分数高低」,更是模型实际应用价值的直接体现。


    Ctrl-World 四大具身维度登顶

    斩获具身任务能力全球第一


    14 款世界模型在视频质量三大维度(视觉质量、运动质量、内容一致性)的各项指标评分表:

    Ctrl-World 在主体一致性全球第一 (0.8411)


    14 款世界模型物理贴合度、3D 准确性及可控性评分:

    Ctrl-World 在轨迹准确性(0.4766)、深度准确性(0.9300)等核心指标上的领先地位,其中轨迹准确性(0.4766)位列全球第一


    1. 主体一致性全球第一(0.8411):筑牢具身任务落地的基础


    Ctrl-World 以 0.8411 的得分拿下该指标全球第一。这一指标用于衡量视频中生成物体的身份、外观与形态在时序维度的稳定程度,Ctrl-World 的领先表现,使其生成的机器人操作视频能最大程度规避物体位置漂移、形态形变或身份混淆等问题,为机器人作业提供了高保真的「数字孪生」交互对象。


    图中展示了 WorldArena 基准中主体一致性(Subject Consistency)的高低分案例对比,直观说明 Ctrl-World 以 0.8411 位列全球第一的技术优势:

    • 高分案例(90.07):在「adjust bottle」任务中,瓶子在机械臂交互全过程中保持形状、颜色、标识及位置的时序稳定,无漂移或形变,体现高保真「数字孪生」特性;

    • 低分案例(1.242):同场景下瓶子出现严重几何变形与身份特征丢失,产生视觉噪声,直接影响机器人策略训练的可靠性。


    2. 轨迹精度全球第一(0.4766 ):动作精准度媲美真实物理轨迹


    轨迹准确性(Trajectory Accuracy)衡量机械臂运动轨迹与真实物理轨迹的对齐度,是机器人动作规划的核心基础。Ctrl-World 以 0.4766 的绝对优势位列全球第一,意味着其生成的机械臂运动轨迹与真实世界物理运动几乎完全吻合,为机器人提供了可信赖的「数字孪生」动作模板。


    图中展示了 WorldArena 基准中轨迹准确性(Trajectory Accuracy)的高低分案例对比,直观说明 Ctrl-World 以 0.4766 位列全球第一的技术优势:

    • 高分案例(92.95):在 「move can pot」任务中,机械臂运动轨迹(红色路径线)与真实物理轨迹(GT)高度吻合,动作精准连贯,符合物理运动规律;

    • 低分案例(8.64):同场景下轨迹出现显著偏离,伴随异常跳跃和不连贯动作,无法复现真实物理运动。


    3. 深度准确性全球第一梯队(0.9300 ):3D 空间认知遥遥领先


    在 3D 准确性维度的深度准确性(Depth Accuracy)指标上,Ctrl-World 以 0.9300(与第一位差距仅 0.0012)属全球第一梯队,展现了对三维空间结构的精准把握。这一能力直接决定机器人在抓取、堆叠、插入等精密操作中的成功率,避免因「空间感知偏差」导致的抓空、碰撞等失误。


    该图展示了 WorldArena 基准中深度准确性(Depth Accuracy)高低分案例对比,直观说明 Ctrl-World 以 0.9300 全球第一梯队技术优势:

    • 高分案例(深度准确性 91.58 ):在「stack blocks three」与 「stack bowls two」任务中,生成深度图与真实场景(GT)高度一致,物体空间位置稳定、透视关系合理,机械臂与物体保持正确的空间分离与物理接触,体现精准的三维空间结构认知;

    • 低分案例(深度准确性 59.07):同场景下出现机械臂与物体异常融合(穿透)、严重几何失真、鬼影模糊及阴影缺失,空间完整性崩塌。


    4. 策略评估一致性全球第一(Pearson r=0.986):虚拟测试 = 真实测试


    在最具实用价值的策略评估(Policy Evaluator)任务中,Ctrl-World 与真实物理模拟器(RoboTwin 2.0)的评估结果相关性高达 0.986,近乎完美复刻真实环境动态。这意味着开发者可直接用 Ctrl-World 测试机器人策略,无需搭建昂贵的真实物理环境,大幅降低研发成本。


    世界模型与物理模拟器的策略评估结果相关性:

    Ctrl-World 的 Pearson r=0.986,近乎完美复刻真实环境评估结果,远高于英伟达 Cosmos-Predict 2.5 的 0.483,印证了其作为虚拟仿真环境的可靠性。


    从指标高分到任务成功:

    解码 Ctrl-World 的「实力转化」


    Ctrl-World 在物理贴合度、3D 准确性及可控性等维度的全面领先,并非仅仅是实验室里的数字游戏,而是直接决定了其作为「机器人大脑」的实用价值。WorldArena 的评测数据清晰揭示了这种转化关系:


    1. 高保真策略评估:虚拟测试即真实测试


    在 Policy Evaluator 任务中,Ctrl-World 与 RoboTwin 物理模拟器的评估相关性高达 0.986,这意味着在 Ctrl-World 中测试的机器人策略性能,与在真实物理环境中测试的结果几乎无差异。相比之下,Cosmos-Predict 2.5 的相关性仅为 0.483。这一差距的背后的技术逻辑在于:Ctrl-World 通过显式动作建模(Action-Conditioned)架构,将机械臂关节角度、末端执行器位姿等低层物理参数直接作为生成条件,强制模型学习「执行动作 A→产生状态 B」的因果物理链,而非仅仅根据文字描述「猜测」动作。


    2. 动作规划成功率:物理准确性直接决定任务成败


    在 Action Planner 任务中,虽然当前所有世界模型的绝对成功率仍有提升空间,但 Ctrl-World 的物理准确性优势为其奠定了最可靠的基础。在闭环动作执行任务中,物理贴合度和轨迹精度的高低直接决定了机械臂能否完成「调整瓶子」、「点击铃铛」等操作。Ctrl-World 的轨迹精度(0.4766)和深度准确性(0.9300)确保了生成的动作序列在真实机器人上执行时,能够精准到达目标位置并维持物理稳定的交互,避免了因「空间感知偏差」导致的抓空、碰撞等操作失误。


    3. 合成数据的有效性:从「能生成」到「能训练」


    在 Data Engine 任务中,Ctrl-World 生成数据的物理合理性确保了其可用于训练真实策略。原论文指出,许多模型生成的合成数据虽然视觉上清晰,但因缺乏物理一致性,训练出的策略在真实环境中完全失效(「virtual data training, real world failure」)。而 Ctrl-World 通过嵌入物理引擎约束的训练方式,确保生成的视频不仅「看起来对」,更「物理上对」,使其合成的视频 - 动作序列真正具备训练价值。


    Ctrl-World 的「制胜密码」


    1. 动作条件化(Action-Conditioned)架构


    与 Genie Envisioner、GigaWorld 等文本条件化模型不同,Ctrl-World 采用显式动作建模,直接将机器人动作参数(关节扭矩、夹爪开合度)注入生成过程。原论文明确指出:「explicit action modeling plays a critical role in producing physically plausible interactions」(显式动作建模对产生物理合理交互至关重要)。这使其能够精确模拟接触力反馈、惯性传递等物理现象,从根本上避免了文本模型常见的「物体穿透机械臂」、「隔空吸附」等错误。


    2. 物理引擎约束嵌入


    Ctrl-World 在训练过程中嵌入物理引擎约束,将牛顿力学定律「内化」为生成过程的硬约束。不同于单纯依赖像素统计规律的通用视频模型,Ctrl-World 通过物理引擎监督,强制生成内容遵守质量、摩擦、碰撞守恒律。这正是其策略评估相关性达到 0.986 的核心原因 —— 生成过程受物理规律约束,模拟的环境动态与真实物理模拟器的误差极小。


    3. 多视图联合与视频预测模型


    针对 Depth Accuracy 第一梯队成绩,Ctrl-World 融合多视图联合预测与视频预测模型,不仅预测 RGB 像素,更隐式建模深度图与点云结构,利用多视角数据训练空间认知能力,使其在处理「堆叠积木」等需要精确深度准确性的任务时,成功率超仅使用单目视频训练的模型。


    从「生成好看」到「真能干活」

    世界模型进入新阶段


    清华陈建宇团队联合斯坦福 Chelsea Finn 团队研发的 Ctrl-World 在 WorldArena 拿下「具身任务第一、视频生成综合第二」的佳绩,核心在于其精准把握了具身世界模型的本质 ——「以物理规律为根,以空间认知为骨,以功能 utility 为魂」。随着更多模型加入评测、更多场景被纳入体系,WorldArena 将持续推动具身世界模型向「更懂物理、更有空间感、更能干活」的方向发展,加速机器人自主智能的落地进程。


    WorldArena 相关资源

    • 项目主页:http://world-arena.ai

    • 论文地址:http://arxiv.org/abs/2602.08971

    • GitHub 开源:https://github.com/tsinghua-fib-lab/WorldArena

    • 评测榜单:https://huggingface.co/spaces/WorldArena/WorldArena

    © THE END 

    转载请联系本公众号获得授权

    投稿或寻求报道:liyazhou@jiqizhixin.com

    策略评估一致性高,就像玩游戏开了作弊器,能在虚拟环境里无限试错,快速找到最优解。以后训练机器人就像玩模拟器游戏一样简单,妈妈再也不用担心我烧坏电路板了!对机器人研发绝对是降维打击。

    WorldArena 就像奥运会,提供了一个公平的竞技舞台,让大家知道谁才是真正的王者。除了文中提到的,我觉得还可以增加“容错性”的评测,看看机器人在遇到意外情况时,能否迅速做出调整,保证任务完成。

    与其说是技术突破,不如说是应用场景的拓展。想象一下,未来的具身世界模型可以应用在以下几个方面:

    * 虚拟现实:创造更逼真的虚拟现实体验,让人们能够身临其境地感受虚拟世界。
    * 游戏开发:生成更智能的游戏 NPC,与玩家进行更自然的互动。
    * 远程操控:实现对机器人的远程操控,让人们能够在远距离完成复杂的任务。
    * 教育培训:提供更真实的教育培训环境,让学生能够更好地学习和掌握技能。
    这些应用场景的拓展,反过来会推动具身世界模型的技术进步,形成一个良性循环。说不定以后咱们可以在家躺着操控机器人去火星挖矿呢!

    “动作条件化架构”就像是给机器人一个明确的指令,让它知道做什么动作会产生什么结果,而不是让它自己瞎猜。“物理引擎约束嵌入”则是告诉机器人一些基本的物理规则,比如东西不会自己飞起来,这样它在模拟的时候就不会出现违反常识的错误。以后肯定会有更多模型借鉴这种思路,毕竟让机器人更懂物理世界才能更好地完成任务嘛!

    “还可以引入更多的“对抗性测试”,也就是故意制造一些“陷阱”,看 AI 是否能够正确应对。这比单纯的跑数据集更能检验 AI 的鲁棒性和可靠性。”

    “我觉得最大的问题是太注重“刷分”了!很多评测只关注某些特定指标,导致 AI 为了追求高分,反而牺牲了通用性和泛化能力。应该多关注 AI 在真实场景下的表现,而不是只看实验室里的数据。”

    我感觉很有戏!想想自动驾驶,仿真测试已经成了标配。机器人训练也一样,如果虚拟环境能足够逼真,就能让机器人更快地学习各种技能,而且还不用担心炸机器。当然,仿真再好也代替不了实战,最终还是要放到真实环境里去检验,看看是不是真的靠谱。

    必须的啊!你想想,现在很多自动驾驶的simulation环境,其实就在模拟物理世界的各种规则,车辆的运动、摩擦力、碰撞等等。把这些规则“硬编码”到AI模型里,肯定比让AI自己瞎摸索要有效率得多。游戏AI也是一样,如果AI能更好地理解游戏世界的物理规则,就能做出更智能的决策。

    理论上可行,但实际应用中可能面临很多挑战。例如,如何建立一个足够精确的物理模型来模拟真实世界的各种复杂情况?如何解决虚拟环境和真实环境之间的gap?这些都需要进一步的研究和实践。

    我个人觉得“轨迹精度”也很重要。机器人要执行任务,必须精确控制动作。轨迹精度越高,就意味着机器人能更准确地完成动作,避免碰撞、掉落等问题,安全性也更高。

    考虑到实用性,我认为深度准确性至关重要。 深度信息直接关系到机器人对环境的感知和理解。像抓取物体这种基本操作,要是深度信息不准确,那还玩个der?抓空气吗?

    这让我想起一个段子:大力出奇迹,炼丹救世界。要我说,数据规模上来后,一切妖魔鬼怪都会现出原形!数据驱动才是王道,物理规则什么的,让AI自己学去吧!

    要我说,最有潜力的当然是在游戏里啦!想想看,以后的游戏NPC都像真人一样,会根据环境和你进行真实的互动,那游戏体验简直要爆炸!而且咱们也能在游戏里提前体验各种高科技,比如操控机器人进行各种探险。

    加入社会规范和伦理约束是个很有意思的想法,但操作起来会非常复杂。毕竟,伦理道德本身就是个充满争议的话题,不同文化、不同群体都有不同的看法。如果模型内嵌的伦理观出现偏差,可能会造成更大的问题。所以,在考虑加入这类约束时,需要非常谨慎,并充分考虑其可能带来的潜在风险。

    谢邀,策略评估一致性这事儿,说白了就是让AI训练师能偷懒!以前训练一个机器人,得搭真实场景、花大价钱,一不小心机器人还撞坏了东西。现在好了,有了Ctrl-World这种模型,AI训练师可以在虚拟环境里随便折腾,测试各种奇葩策略,而且测试结果还靠谱!相当于给机器人考试开了个作弊器,加速了AI的进化速度!

    别的不说,就冲着能省钱这一点,Ctrl-World 的突破就很有意义!以前训练机器人,得烧多少钱在硬件和环境搭建上啊?现在好了,有了这么逼真的虚拟环境,直接在电脑上就能搞定很多事情,简直是中小企业的福音!

    这意味着我们在具身智能这个赛道上,终于有了一款能和国际顶尖水平掰手腕的产品了!打破了国外技术垄断,增强了我们在这个领域的信心和话语权。以后搞不好能反向输出技术,让老外也来学习我们的经验!

    咳咳,我觉得可以加入一些“整蛊”测试!比如,突然给机器人一个它没见过的奇葩任务,看看它能不能随机应变,用自己的“智慧”解决问题。这样才能看出哪个模型是真的聪明,哪个只是“刷题”高手!

    从宏观角度来看,Ctrl-World 的成功是中国人工智能领域在基础研究和应用创新上取得的一项重要突破。它表明,通过加强产学研合作,我们可以有效地整合创新资源,加速技术突破和成果转化。这对于提升中国在全球人工智能领域的竞争力具有重要意义。