智元机器人开源EVAC具身世界模型与EWMBench评测基准,加速具身智能研究

智元机器人开源EVAC具身世界模型与EWMBench评测基准,构建“低成本模拟 - 标准化评测 - 高效迭代”的具身智能开发范式。

原文标题:智元机器人发布并开源首个机器人动作序列驱动的世界模型

原文作者:AI前线

冷月清谈:

智元机器人发布了全球首个基于机器人动作序列驱动的具身世界模型EVAC (EnerVerse-AC)和具身世界模型评测基准EWMBench,并已全面开源。EVAC 通过多级动作条件注入机制,实现了“物理动作-视觉动态”的端到端生成,能够动态复现机器人与环境的复杂交互,并具备机器人动作与像素的高精度对齐、动态多视图建模和卓越的长时序一致性等核心能力。EWMBench 则构建了场景一致性、动作合理性与语义对齐与多样性三维评估体系,旨在科学、系统地衡量具身世界模型的性能表现。这两大创新成果旨在构建“低成本模拟 - 标准化评测 - 高效迭代”的全新开发范式,持续赋能全球具身智能研究,加速技术落地与产业发展。

怜星夜思:

1、EVAC模型中提到的“动作序列驱动”相比于传统仿真,核心优势体现在哪里?在实际应用中,这种驱动方式会对机器人学习和决策产生什么影响?
2、EWMBench评测基准中,为什么会选择场景一致性、动作合理性以及语义对齐与多样性这三个维度作为核心指标?这三个维度分别侧重于评估具身世界模型的哪些关键能力?
3、智元机器人开源EVAC和EWMBench,对于国内的机器人研究者和开发者来说,意味着什么?你认为开源对于推动具身智能的进步有多大的作用?

原文内容

作者 | 褚杏娟

近日,智元机器人重磅发布具身智能领域双重里程碑式突破:全球首个基于机器人动作序列驱动的具身世界模型 EVAC (EnerVerse-AC),以及具身世界模型评测基准 EWMBench。这两大创新成果现已全面开源,旨在构建“低成本模拟 - 标准化评测 - 高效迭代”的全新开发范式,持续赋能全球具身智能研究,加速技术落地与产业发展。

EVAC arxiv:https://arxiv.org/abs/2505.09723

EVAC 开源代码:https://github.com/AgibotTech/EnerVerse-AC

EWMBench arxiv: https://arxiv.org/abs/2505.09694

EWMBench 开源代码:https://github.com/AgibotTech/EWMBench

当前具身智能演进面临两大关键制约:在测试阶段,真机验证代价大、风险高,仿真系统又受制于虚实偏差;在数据层面,海量真机数据尚未构建基于轨迹扩增的高效利用机制,限制了多样性生成与泛化训练。为打破困局,智元机器人在去年发布的世界模型架构 EnerVerse 基础上推出创新成果:基于动作序列驱动的世界模型 EVAC 与具身世界模型评测榜单 EWMBench,构建从训练到评测全链路技术闭环,重新定义具身世界模型研发范式。

全球首个机器人动作序列驱动的世界模型

EVAC 是一个能够动态复现机器人与环境复杂交互的世界模型,标志着从传统仿真到生成式模拟的跃迁。

核心能力:从 “物理执行” 到“像素空间”的精准映射

EVAC 基于前序工作 EnerVerse 架构持续演进,创新型引入多级动作条件注入机制,实现 “物理动作 - 视觉动态” 的端到端生成,其核心能力体现在以下几个方面:

  • 机器人动作与像素的高精度对齐:将机械臂 6D 位姿(x,y,z,roll,pitch,yaw)与末端执行器行程投影为 action map,确保物理动作与图像帧的像素级对齐,精准建模 “抓取”、“放置”、“碰撞”、“推拉”、“快速抛掷”、“缓慢摇晃” 等复杂动力学行为;
  • 动态多视图建模:引入 Ray Map 编码相机运动轨迹,支持头部 、腕部等多视角协同生成一致且连贯的视觉场景,赋予机器人更全面的环境生成能力。;
  • 卓越的长时序一致性:采用 Chunk-Wise 自回归扩散架构与稀疏记忆机制(Sparse Memory),EVAC 能够实现单视图稳定生成长达 30 个连续片段、多视图下亦可维持 10 个连续片段的无漂移稳定输出,保证了模拟过程在时间轴上的连贯性与真实性;
  • 数据高效利用:融合 Agibot-World 数据集 + 失败轨迹(如抓取滑脱、路径碰撞)提升生成质量,该策略能有效抑制幻觉现象,使模型能更合理、更全面地建模机器人与环境的交互动态。
生成式仿真评估 + 数据引擎双轮驱动
  • 生成式仿真评测

针对真机评测成本高、风险大、难以复现等痛点,EVAC 开创性地提出了生成式模拟评测方案,它能与待评测的策略模型进行交替推理,构建起一套完整的交互式评测管线。实验显示,在多个任务中,EVAC 所生成的评测结果与真机评测的成功率具有高度一致性,甚至能够可靠地识别出性能更优的模型权重,大幅提升了策略模型的筛选效率。

  • 数据增广引擎

EVAC 能够基于极少量的专家轨迹数据,通过动作插值与高保真画面生成技术进行大规模数据增广。应用结果表明,采用 EVAC 数据增广数据训练的策略模型,其任务成功率提升高达 29%,目标跟随性得到显著改善,验证了这一方案在具身智能研究中的实用性与高性价比。

打造具身世界模型的 “质检尺”

为了科学、系统地衡量具身世界模型的性能表现,智元机器人推出了全球首个具身世界模型评测基准——EWMBench,旨在填补行业空白,构建统一、可信的评测标准。

三维度评估体系:场景 × 动作 × 语义的立体考核

针对机器人操作场景的复杂性与特殊性,EWMBench 构建了立体化的评估体系,从场景一致性、动作合理性 与 语义对齐与多样性 三大核心指标进行分析:

  • 场景一致性 Scene Consistency,评估生成场景中背景 / 物体 / 视角等稳固度与真实性,采用微调过的 DINOv2 特征进行量化。
  • 动作合理性 Motion Correctness,利用 HSD (Symmetric Hausdorff Distance), nDTW (normalized Dynamic Time Warping) 和 Dynamics Score 三重互补指标协同精确评估生成动作的合理性与动力学真实度。
  • 语义对齐与多样性 Semantic Alignment & Diversity,结合 MLLM(多模态大模型)和 CLIP 从全局指令对齐度、关键步骤语义准确性、逻辑合理性等多个层次对生成视频进行语义理解评估。
权威数据支撑与便捷开源工具
  • 基准数据集:EWMBench 基于行业领先的开源百万真机数据集 AgiBot World 构建,涵盖了家居、工业、医疗三大场景的 10 类典型机器人操作任务和刚体 / 柔体 / 流体 / 关节物体等多种交互对象,其中包含超过 300 个精心设计的测试样本及 30% 挑战性场景(低光照 / 部分遮挡),全面验证模型在复杂环境下的鲁棒性。
  • 开源评测工具:智元机器人同步开源了全流程评测工具,支持一键生成标准化对比报告,大幅降低评估门槛,方便研究者快速开展模型比较与性能分析,加速实验验证与成果复现。
卓越评测性能:更贴近人类主观感知

相较于当前主流视频生成评测基准 VBench,EWMBench 在评测结果与人类主观判断的一致性方面表现更优,能够更真实、细致地反映具身世界模型在交互理解、动作还原与视觉一致性等核心维度的实际能力。

EnerVerse 作为强大的世界模型基础架构,为 EVAC 提供可靠的基础框架与预训练能力,而 EVAC 生成的多样化高质量数据又能反哺 EnerVerse 模型的持续优化,二者形成 “训练 - 验证” 技术闭环,不断推动模型性能突破。通过 EWMBench 提供的精细化、多维度量化分析,研发团队可以精准定位 EVAC 在处理如 “多物体交互”“动态环境避障” 等复杂场景的潜在不足,从而进行更具针对性的优化。

据悉,EVAC 与 EWMBench 组合方案,已正式入选 AgiBot World Challenge @ IROS 2025 – World Model 赛道的官方基线系统与评测标准。

点击底部阅读原文访问 InfoQ 官网,获取更多精彩内容!

活动推荐

6 月 27~28 日的 AICon 北京站将继续聚焦 AI 技术的前沿突破与产业落地,围绕 AI Agent 构建、多模态应用、大模型推理性能优化、数据智能实践、AI 产品创新等热门议题,深入探讨技术与应用融合的最新趋势。欢迎持续关注,和我们一起探索 AI 应用的无限可能!


今日荐文

图片

你也「在看」吗?👇

我觉得开源最大的作用在于降低了创新的门槛。以前做机器人研究,需要大量的资金和资源,只有少数大型机构才能负担得起。现在有了开源的工具和平台,更多的小团队和个人开发者也能参与进来,做出令人惊艳的成果。说不定下一个具身智能的突破,就来自于某个不知名的开源项目。总之,我对开源充满期待!

开源是加速科技进步的关键驱动力之一。具身智能领域正处于快速发展期,开源可以促进知识的共享和传播,加速技术的迭代和演进。但同时,也需要注意开源的风险,比如知识产权保护和代码安全性等问题。希望智元机器人在开源的同时,也能做好相应的保障工作,维护好开源社区的健康发展。

从学术角度来看,EVAC的动作序列驱动实际上是在优化 reward function 的设计。传统仿真中,reward function往往需要人为设定,容易引入偏差。而EVAC通过模拟真实动作序列,让机器人自己去探索和学习,更接近 inverse reinforcement learning 的思想,有助于发现更优的策略。但同时,也需要注意如何避免模型overfitting到特定的动作序列,提高泛化能力。

个人觉得最大的优势在于提升了数据利用率。之前的仿真数据,因为精度问题,可能对实际训练的帮助不大。现在EVAC能生成更高质量的仿真数据,相当于变相扩充了数据集,提高了机器人学习的效率。设想一下,如果能用高质量的仿真数据预训练模型,再用少量真实数据进行微调,那就能大大降低真机实验的成本和风险了,想想就觉得很美好。

从评测的角度来看,这三个维度实际上对应了模型预测的不同层面。场景一致性是最低层级的要求,保证视觉上的合理性;动作合理性则更进一步,要求模型能够预测合理的物理运动;而语义对齐与多样性则是最高层级的要求,考察模型是否能够理解任务目标并生成多样化的解决方案。这就像是在给模型做体检,一层一层地检查它的各项功能是否正常。

我更关注语义对齐与多样性,因为我觉得这是具身智能的核心。如果模型只能生成符合物理规律的动作,但无法理解任务目标,那也只是一个高级的仿真器而已。真正的具身智能,需要能够根据环境和指令,自主地生成合适的动作序列,完成任务。所以,语义理解和决策能力才是关键,而EWMBench对这方面的考察,体现了对具身智能发展方向的深刻理解。当然,前提是这个MLLM(多模态大模型)别太拉胯,不然评测结果就不好说了。

这绝对是个大好事!开源意味着我们可以站在巨人的肩膀上,快速学习和应用最新的技术。以前很多先进的算法和模型都在国外,我们只能通过论文了解,很难真正上手实践。现在有了EVAC和EWMBench,我们可以直接下载代码,进行二次开发和定制,这大大缩短了我们与国际先进水平的差距。而且,开源也有助于形成一个活跃的社区,大家可以互相交流、共同进步,这对于推动具身智能的整体发展至关重要。

动作序列驱动的关键在于它将机器人的物理动作直接映射到视觉动态,这样可以更精确地模拟真实世界的交互。传统的仿真可能在物理参数的设置上存在偏差,导致仿真结果与实际情况不符。而EVAC通过像素级别的对齐,减少了这种偏差,使得机器人学习到的策略在真实环境中更有效。如果说传统仿真像是在玩简化版的沙盒游戏,那EVAC就像是玩VR游戏,沉浸感和真实度完全不一样,学习效果自然更好。

这三个维度选得很有意思,感觉是抓住了世界模型的几个核心要素。场景一致性保证了模型生成的环境是稳定的,不会出现穿模或者物体凭空消失的情况,这很重要,不然机器人就没法在这个虚假的环境中进行有效的训练。动作合理性就是说,机器人的动作要符合物理规律,不能出现反关节或者违反直觉的运动,不然机器人学到的就是“魔法”。最后的语义对齐与多样性,其实是在考察模型对指令的理解能力,以及生成不同解决方案的能力。总的来说,这三个维度分别考察了世界模型的真实性、物理性和智能性。