跨维智能 DSCFuncWorld 登顶 WorldArena Track 2,世界模型落地能力受关注

跨维智能 DSCFuncWorld 登顶 WorldArena Track 2,重点体现世界模型在机器人数据生成与任务落地中的能力。

原文标题:世界模型榜首易主!跨维智能登顶WorldArena

原文作者:机器之心

冷月清谈:

WorldArena 最新榜单显示,跨维智能的 DSCFuncWorld 在 Track 2(Data Engine)赛道排名全球第一,并与第二名拉开明显差距。该赛道并不主要考察画面逼真度,而是评估世界模型作为数据合成引擎、策略评估工具和行动规划载体的实际能力,包括根据初始观测与文本指令模拟机器人交互流程、生成训练数据,并最终看机器人任务成功率。文章认为,这一结果体现了跨维智能在环境推演、物理认知、虚实迁移和机器人训练数据生成方面的能力。DSCFuncWorld 基于其自研 DexWorldModel 适配而来,强调因果隐空间建模、物理规则表达和可执行轨迹生成。跨维智能还提到 EVA 框架与 EmbodiChain 数据基建,用于提升视频世界模型与机器人动作之间的一致性,以及构建更完整的具身数据闭环。

怜星夜思:

1、WorldArena Track 2 更看重“能不能训练机器人”,这会不会比单纯看视频逼真度更有参考价值?
2、合成数据如果要真正用于机器人训练,最难的是物理真实、动作可执行,还是场景多样性?
3、世界模型公司在榜单上领先,能多大程度转化成商业竞争力?客户会真的为这个买单吗?
4、国内团队在具身世界模型榜单上取得好成绩,是否说明国内具身智能路线正在从应用集成转向底层模型能力?

原文内容

图片
机器之心发布

近日,全球具身世界模型权威评测基准 WorldArena 公布最新榜单。在 5 月 25 日截止的最终榜单中,跨维智能登顶 Track 2 赛道全球第一。


可以说是,在英伟达、谷歌等全球科技巨头深度布局、重兵把守的世界模型核心腹地,跨维智能实现了强势突围。


本次登顶不仅与榜单第二名拉开显著比分差距,更显著领先 WoW、BLM 等一众国际模型,大幅刷新该赛道全球最优成绩。


这再一次证明了跨维智能的底层技术实力已稳居全球具身世界模型第一梯队。


官方榜单截图:https://world-arena.ai/


顶流同台竞技:实用能力领跑全球榜单


当前,世界模型已是英伟达、谷歌、OpenAI 等全球 AI 巨头的核心布局赛道。伴随赛道竞争愈发激烈,一套科学权威的评测体系,成为甄别模型真实能力、引领产业发展的关键。


由全球顶尖高校及科研机构的权威专家共同打造,WorldArena 是目前世界模型赛道最权威的榜单,拥有行业最严苛的评测基准。


该评测构建了包含 16 项细分核心指标和 3 大真实应用任务的立体化评估体系,全方位严苛考察具身世界模型的感知精度、物理规律理解、三维空间认知以及动作预测与实际落地能力。依托严苛、全面、贴合产业落地的评测标准,WorldArena 汇聚全球顶尖科研团队与头部企业模型同台比拼。


评测设立两大核心赛道,能力定位截然不同:Track 1 侧重视觉画面、动态效果、物理一致性等感知表现,偏向可视化技术展示;而本次跨维智能登顶的 Track 2(Data Engine),是实战门槛、技术含金量双高的核心赛道,也是真正衡量模型产业价值的硬核标尺。


Track 2(Data Engine)赛道不比拼画面是否逼真,核心考核世界模型作为数据合成引擎、策略评估工具与行动规划载体的全链路落地能力。参赛模型需要依托初始场景观测与文本指令,自主模拟完整机器人交互流程、生成高质量训练数据,最终以机器人实际作业任务成功率作为核心评判标准,检验世界模型数据生成、策略训练、任务落地的全链路硬实力。


此次世界模型 DSCFuncWorld 成功登顶,印证了跨维智能拥有行业顶尖的环境推演与物理认知能力,更凸显出其突出的工程落地优势。模型可将虚拟推演结果高效转化为可用的机器人训练资产,充分验证了跨维智能在具身数据生成、仿真训练闭环、策略赋能、虚实迁移等全链路技术实力。


底层技术闭环铸就长期竞争力,赋能具身智能规模化发展


值得关注的是,跨维智能本次登顶并非单点、偶然的技术突破,而是长期深耕具身智能底层技术、坚持数据与模型双轮驱动的必然结果。


本次冲榜的 DSCFuncWorld,属于跨维 Dex 系列模型,由跨维智能自研核心底座 DexWorldModel 简单适配而来。


https://dexforce.com/technical-report/#/DexWorldModel


该原生模型主打因果隐空间建模,依托 DINO 语义特征空间精准建模未来世界状态,重点强化环境纹理、物体关联、物理规则的鲁棒表达,仅需轻量化改造即可快速生成高质量推演视频,极致发挥数据引擎与策略评估的核心价值。



Track 2 赛道的核心竞争力,在于模型生成数据的可训练、可迁移、可执行,这也是长期制约通用具身智能产业化的核心瓶颈。不同于常规模型只追求视觉观感真实,跨维智能始终聚焦数据落地有效性:一方面,模型生成的推演过程、场景轨迹与真实机器人任务高度契合,保障训练数据的适配性;另一方面,生成内容严格遵循物理规则与机器人运动逻辑,具备极强的可操作性,能够有效支撑策略模型迭代优化。


此前,团队推出的 EVA 技术框架 (EVA: Aligning Video World Models with Executable Robot Actions via Inverse Dynamics Rewards)  ,通过逆动力学奖励机制对齐视频生成与机器人可执行动作,有效解决了行业普遍存在的「视觉逼真但无法落地」的可执行性缺口,让模型生成的推演轨迹更贴合真实机器人作业逻辑。


https://eva-project-page.github.io/


同时,依托自研具身数据基建 EmbodiChain,跨维智能构建了覆盖资产生成、场景布局、可达轨迹采样、失败案例恢复、在线数据回流的完整数据体系,持续产出物理可信、场景多元、任务覆盖全面的高质量训练数据,大幅提升了合成数据对机器人策略训练的赋能效果与场景泛化能力。


https://github.com/DexForce/EmbodiChain



对跨维智能而言,此次 DSCFuncWorld 登顶的意义,远不止一次榜单突破与技术超越。其自研 DexWorldModel 世界模型体系,真正的价值在于跳出行业概念内卷,直面具身智能落地过程中最棘手的系统性难题,脚踏实地补齐世界模型通往真实物理世界的关键短板。


这也是跨维智能一贯的态度,不和概念赛跑,和真实世界赛跑。


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

这个问题问得很扎心。机器人训练数据最怕的不是假,而是“看起来很真但学了没用”。有点像刷题刷了全是答案解析,考试换个问法就不会了。

1 个赞

我觉得针对“Track 2 是否比视频逼真度更有参考价值”这个问题,答案基本是肯定的。机器人最后要在真实环境里干活,画面再像电影,如果生成的数据不能让策略学会动作,那价值就有限。Track 2 至少把评测拉回了任务成功率这个方向。

1 个赞

关于 Track 2,我稍微保留一点意见。它当然比纯视觉指标更贴近落地,但评测任务本身是否覆盖足够多真实场景也很关键。如果任务集比较窄,榜单第一只能说明在这个基准上很强,不一定等于现实世界全能。

3 个赞

说到“能不能训练机器人”这个标准,我倒觉得它更像是行业从炫技走向实用的信号。以前大家看世界模型,第一反应是画质、连贯性、物理效果;但机器人关心的是杯子能不能抓起来、抽屉能不能拉开,这俩不是一回事。

1 个赞