千寻智能 Spirit v1.6 登顶 RoboArena:具身智能竞争转向真实数据闭环

Spirit v1.6 登顶 RoboArena,具身智能竞争焦点转向真实数据与场景闭环。

原文标题:老黄的Cosmos 3刚发一天,就被一家中国公司反超了

原文作者:机器之心

冷月清谈:

文章围绕千寻智能 Spirit v1.6 在 RoboArena 榜单反超英伟达 Cosmos 3 展开,强调具身智能评测正在从静态 benchmark 走向真实机器人任务对抗。RoboArena 通过分布式协作、双盲对决、Elo 排名和开放评测网络,考察模型在真实环境中的任务完成能力。文章认为,Spirit v1.6 的优势不仅体现在排名上,也体现在打开笔记本、抓取并放置小物体等真实任务中的连续动作执行能力。其背后关键是千寻智能围绕真实世界交互数据建立的采集、清洗、标注、质检和反馈闭环。文章还提到千寻智能近期融资接近 50 亿元,并在工业、零售、高端制造等场景推进商业化落地,形成场景、数据、模型相互强化的飞轮。核心观点是,具身智能下一阶段的竞争不只是模型能力,而是数据基础设施、工程迭代和真实场景部署的系统性比拼。

怜星夜思:

1、RoboArena 这种“真机对抗”榜单,会不会比传统 benchmark 更能说明机器人模型的真实水平?
2、具身智能公司到底应该优先拼模型算法,还是优先拼真实世界数据?
3、千寻智能 3 个月融资近 50 亿,资本看中的是真技术,还是具身智能这波风口?
4、机器人进入工厂、零售、家庭这些真实场景时,最难跨过去的门槛是什么?

原文内容

图片
编辑|+0


6 月 1 日,老黄在 GTC 上用了不小的篇幅讲物理 AI 和具身智能,并重磅发布了 Cosmos 3。英伟达将其定义为面向 Physical AI 的最新前沿模型,也是全球首个完全开放的全能模型,原生具备视觉推理、世界生成和动作生成能力。


老黄自豪地表示,Cosmos 3 在全球各大排行榜上位列开放模型第一。



然而仅仅一天后,RoboArena 榜单更新,中国公司千寻智能的 Spirit v1.6 反超 Cosmos 3,登上全球第一。



RoboArena 为何值得关注?


因为它切中了当前机器人基础模型评测的一个核心问题:很多模型可以在仿真环境或静态 benchmark 上表现很好,但一到真实机器人、真实物体、真实误差,就很难稳定复现。


我们可以把 RoboArena 理解为 LMArena 的具身机器人版本,只不过,LMArena 比的是大模型回答质量,RoboArena 比的是机器人策略在真实世界中完成任务的能力。RoboArena 由 UC Berkeley、Stanford、NVIDIA 等机构参与发起,相关论文入选 CoRL 2025 Oral。


具体来看,RoboArena 的机制可以拆成四点:分布式协作、双盲对决、Elo 式动态排名、开放评测网络。分布式协作扩大了任务和环境的覆盖面;双盲对决降低了评测中的主观偏见;Elo 排名让榜单像体育赛事一样持续更新;开放评测网络则让更多模型可以被放到同一个真实世界擂台上检验。


因此,RoboArena 的意义在于把具身智能评测从「静态跑分」推向了「真机对抗」。


在这个背景下,千寻智能成为首个在这一由硅谷巨头和顶尖高校共同主导的「客场」榜单上拿下全球第一的中国企业,其意义也不只是一次排名领先,更说明千寻智能在多任务执行、真实环境适应和泛化能力上,已经进入全球第一梯队。


Spirit v1.6 到底凭什么赢?


榜单上的结果,最终只是数字。更有说服力的,还是 Spirit v1.6 在真实任务中的操作表现。我们来看几组双盲对比视频。


第一组任务:打开笔记本


这并不是一次简单抓取。机器人需要先识别笔记本的位置和朝向,再判断从哪里接触、如何施力,以及手部和机械臂如何配合,最后完成翻开动作。中间任何一个环节出错,任务都可能失败。



可以看到,Spirit v1.6 的动作衔接更自然,能够快速完成打开笔记本的任务;相比之下,Cosmos 3 几乎没有形成有效尝试。


第二组任务:把卡皮巴拉放到盘子里


这类任务考验的是机器人对小型物体的识别、定位和精细操作能力。它不仅要判断目标物体在哪里,还要在抓取后保持稳定,并准确放到指定位置。



这一次,Spirit v1.6 依然完成了识别、抓取和放置。虽然在抓取过程中有一次短暂调整,但整体动作链条是连贯的,最终成功完成任务。相比之下,pi 0.5 既没有成功识别目标物体,也未能完成有效抓取。


整体来看,这几组视频比榜单数字更直观地说明了 Spirit v1.6 的优势:它不只是能在评测中拿到更高分,更能在真实任务里把「看见、判断、抓取、放置」这一整套操作链条跑通。


把时间往前倒,这个结果也并不突兀。


今年稍早,Spirit v1.5 已经在 RoboChallenge 真机评测中拿到第一,取得 66.09 分、50.33% 成功率,超过 Physical Intelligence 的 pi 0.5。公开报道显示,v1.5 在多任务连续执行、复杂指令拆解、物体拾取、插花、移动物体等任务上,已经表现出不错的稳定性。


从 v1.5 到 v1.6,时间并不长,但千寻智能又在 RoboArena 上完成反超,这是千寻智能的一套持续迭代机制的结果:持续采真实场景数据,持续看哪里会失败,持续把评测结果喂回训练和工程优化里。


具身智能模型和纯软件模型不一样,不是堆训练规模就能自然变强。物理世界里有摩擦、遮挡、失误、延迟和一堆不确定的东西。越往真实场景走,越看工程组织能力、数据闭环能力 and 迭代速度。


Spirit v1.6 在榜上的表现,说明千寻智能把这套闭环转起来了。


真正的胜负手,

在真实世界数据里


在 GTC 上,黄仁勋反复强调了一个问题:物理 AI 的数据很难获得。


原因并不复杂。互联网视频很多,但绝大多数是第三人称视角;机器人真正需要的,却是第一人称、可行动、可反馈的数据。也就是说,机器人不只要「看过世界」,还要理解自己如何在世界中移动、接触、抓取和改变物体。


Cosmos 3 的目标之一,正是通过 Omniverse、遥操作和视角重投影,缓解机器人领域的数据稀缺问题。它代表了大厂对物理 AI 的一个判断:下一阶段,模型能力的提升不只依赖参数和算力,也依赖能否构建更大规模、更高质量、更贴近机器人行动的数据体系。


千寻智能回答的是同一道题,但路径有所不同。


千寻智能更强调真实世界数据的持续沉淀。公开信息显示,千寻智能已经自研 7 代轻量化可穿戴数采设备,并在全国 100 多个城市搭建分布式数据采集网络,形成从采集、清洗、标注到质检的完整流程。公司计划在 2026 年内沉淀百万小时级真实世界交互数据。


千寻智能可穿戴数采设备在全国多城同时进行数据采集。


这套体系可以理解为千寻智能的「数据金字塔」。


最底层,是大规模真实世界交互数据。机器人要进入家庭、门店、工厂和仓储场景,就必须理解真实空间里的杂乱、变化和不规则。实验室里干净、标准化的演示数据很重要,但不足以覆盖现实世界的长尾问题。


这一层的数据来源也不是单一的。互联网视频可以提供通用视觉常识,可穿戴设备可以记录人类真实操作过程,遥操作数据帮助模型对齐机器人本体,真实环境中的 roll-out 则不断把失败、修正和恢复过程反馈给模型。


中间层,是数据工程能力。数据不是采得越多越好,而是要能被清洗、标注、复盘,并真正用于训练。尤其是失败数据,在具身智能中往往比成功样本更有价值。模型为什么抓空、为什么掉落、为什么停滞、为什么判断错接触点,这些信息都能反过来帮助模型迭代。


如果数据只记录「正确示范」,模型学到的是标准动作;如果数据同时记录失败、打滑、掉落、中断和重新尝试,模型才有机会学会在不确定环境中修正自己。


最上层,是模型能力和任务泛化。数据最终要转化为真实机器人上的表现。如果真实交互数据足够多样,训练和评测闭环足够稳定,模型就更容易在陌生物体、陌生环境和陌生任务中保持可用。


千寻团队此前也提到过一个观察:具身智能里正在出现类似 Scaling Law 的能力曲线,数据规模每提升一个数量级,任务成功率就可能向更高稳定性迈进一步。



这也是百万小时级真实世界交互数据的意义所在。对机器人来说,从 90% 到 99%,不是简单多做几次实验,而是要覆盖更多物体、更复杂环境、更多失败恢复和更长动作链条。


从这个角度看,Spirit v1.6 的成绩本质上是一次外部验证。它说明,真实世界数据的规模、质量和迭代效率,正在成为具身智能公司之间最关键的竞争变量之一。


3 个月近 50 亿,

资本为什么集体押注千寻智能?


除了模型成绩,千寻智能近期更受关注的,是融资速度。


从公开信息看,千寻智能在 3 个月内连续完成四轮融资,累计融资金额接近 50 亿元人民币。本轮 15 亿元 A+ 轮完成后,资金将继续投向新一代具身基座模型迭代、全球化真实数据基础设施建设,以及多行业规模化商业落地。


这个融资节奏放在具身智能行业里并不常见,原因也不只是「机器人赛道热」。


资本真正关注的,是千寻智能是否已经形成了一个可持续运转的飞轮:真实场景带来真实数据,真实数据提升模型能力,模型能力反过来支撑更多场景落地,更多落地再继续产生数据。


这个飞轮一旦跑通,公司的价值就不只是一个机器人硬件公司,也不只是一个模型公司,而是同时连接了场景、数据、模型和应用。


不过,融资本身并不能证明技术一定领先。真正重要的是,钱会被用到哪里。


对具身智能公司而言,资金的直接用途通常包括三个方向:一是继续扩大模型训练和推理基础设施;二是建设更大规模的数据采集与处理体系;三是推进真实场景部署。千寻智能当前的优势,也恰好集中在这三件事上。


它既有 Spirit 系列模型在第三方评测中的持续表现,也有真实世界数据采集体系,还在工厂、零售、高端制造等场景里推进落地。这种组合,才是资本愿意连续下注的原因。


更关键的是,千寻智能并没有把商业化放在模型发布之后的「附属环节」,而是把它作为数据和模型迭代的一部分。


据公开资料,千寻智能正在与博世集团推进全球工业场景合作,借助真实工厂环境验证机器人在复杂工业流程中的执行能力;在国内零售场景中,千寻与京东展开战略合作,Moz 机器人已进入京东 MALL 线下门店,承担咖啡制作等服务任务;在高端制造场景中,小墨机器人已经落地宁德时代动力电池 PACK 产线,单日工作量达到人工的 3 倍。


千寻智能机器人已正式在京东 MALL 上岗履职,承担咖啡师。


工业场景重视稳定性、效率和安全边界;零售场景更看重交互、服务流程和长期运营;制造场景则要求机器人在高节拍、高一致性的任务中保持可靠表现。不同场景产生的数据和问题各不相同,也会推动模型向不同方向补齐能力。


这就是千寻智能商业化「黄金三角」的意义:一端是产业场景,一端是真实数据,一端是模型迭代。三者不是割裂的,而是相互强化。


对具身智能行业来说,真正难的不是做出一个演示视频,而是让机器人在真实环境中长期工作。真实环境会不断暴露问题,也会不断产生新的数据。谁能更早进入这些场景,谁就可能更早积累下一代模型需要的训练燃料。


结语


具身智能的竞争,正在从单点模型能力,走向一整套系统能力的比拼。


模型能否理解任务、能否稳定执行、能否适应陌生物体和复杂环境,最终都需要在真实世界中被反复验证。仿真、基础模型、数据采集、真机部署、工程优化、商业场景,任何一环都很难单独决定结果,但它们共同构成了物理 AI 走向规模化落地的基础。


从 RoboChallenge 到 RoboArena,从 Spirit v1.5 到 Spirit v1.6,千寻智能的连续表现,说明具身智能不再只是实验室里的技术展示,而正在进入更开放、更动态、更接近真实应用的验证阶段。谁能更快建立真实数据闭环,谁能更稳定地把场景反馈转化为模型进步,谁就更有机会在下一阶段竞争中占据主动。


物理 AI 的故事才刚刚开始。真正决定行业走向的,也许不是某一次发布会或某一个演示视频,而是机器人能否在一个个真实场景里持续完成任务、积累经验、修正错误,并最终走向可规模化的长期应用。千寻智能正在做的,正是把这条最难、也最关键的路一步步跑通。


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

家庭场景最难,工厂反而相对可控。工厂流程固定、物体标准化程度高;家庭里东西乱放、光线变化、用户指令还很随意,对机器人泛化能力要求高很多。

3 个赞

我觉得不能二选一。模型决定上限,数据决定你能不能稳定接近上限。尤其机器人场景里,失败样本特别值钱,比如为什么夹不住、为什么滑落、为什么卡住,这些比成功示范还宝贵。

1 个赞

我选安全边界。机器人不是手机 App,错了重启就行。机械臂抓错、撞到人、打翻东西,都是真实损失。所以落地时不只是“能不能完成任务”,还要看“失败时能不能体面地失败”。

2 个赞

“真机对抗榜单”这个事,我的理解是:至少能防一部分 PPT 机器人。以前看 demo 总觉得机器人下一秒就要进家门了,结果真上手开个抽屉都费劲。RoboArena 这种评测如果能长期开放,含金量会越来越高。

1 个赞

关于“资本看中技术还是风口”,我觉得两者都有。具身智能现在确实是大风口,但资本连续押注,通常不只是看概念,至少要看到数据体系、模型迭代、商业落地这几个点能串起来。

2 个赞

回答“真实场景最难的门槛”,我觉得是稳定性。演示成功一次不难,连续工作八小时、不出大错、不需要工程师在旁边救场,这才是商业化的分水岭。

1 个赞