具身智能「裸考」:百万算力、72小时、近百台真机,终结刷分时代

EAIDC用72小时真机实战测试具身智能,强调真实评测、开源生态与泛化能力。

原文标题:超百万算力、72小时、近百台真机:具身智能的刷分时代,被一场「裸考」终结

原文作者:机器之心

冷月清谈:

EAIDC具身智能黑客松决赛把评测从仿真和榜单拉回真实世界:20支队伍在统一硬件、算力和基础设施条件下,用72小时完成数据采集、模型训练与真机部署闭环,直接在真实任务中比拼模型落地能力。赛题包括套圆环、分水果、插电源线、拼单词,分别考察精细操作、语言到动作映射、柔性物体处理和长程任务规划,难度层层递进。比赛结果显示,许多模型初始成功率不高,但通过现场调参与补数据后,部分任务表现明显提升,说明具身智能在真实环境中具备快速迭代潜力;同时,B榜掉分、数据量不足等问题也暴露出泛化能力和训练效率仍然薄弱。文章进一步强调,具身智能当前不是单一模型竞争,而是数据、训练、部署、软硬件协同的系统工程,因此开源不仅是共享代码,更是开放可复现能力、流程与生态入口。作者认为,中国式路径的关键在于“真问题、真开源、真泛化”:通过真实场景持续采集数据、依托开源吸引更多开发者参与,推动行业从Demo导向走向可验证、可迭代、可规模化落地。

怜星夜思:

1、问题1:这种“72小时真机裸考”的比赛,真的比传统benchmark更能代表具身智能的真实水平吗?
2、问题2:文章反复强调开源,对具身智能来说,开源最重要的到底是代码、数据,还是一整套可复现流程?
3、问题3:从套圆环到插电源线、拼单词,哪一类任务最能决定机器人什么时候能真正进入家庭?
4、问题4:文章里提到不少模型在B榜掉分,这更像是数据问题、模型问题,还是评测方式的问题?

原文内容

图片
编辑|Sia

不按套路出牌的比赛


没有仿真,没有预设参数,也没有剪辑空间。


在深圳全球首届具身智能开发者大会的比赛现场,取而代之的是上百台六轴机械臂、统一的绿色布景,以及——真实世界。


20 支队伍,真机上阵:数据现场采、模型现场训、系统现场部署。


模型不限,代码自带;算力、硬件、AI Infra,全部由主办方提供。


目标只有一个:教会真机「看懂环境」、「做出决策」、「动手操作」。


时间?只有 72 小时。


如此不按套路出牌,那些 benchmark 高分模型,到了这里,恐怕也只能「菜鸟互啄」。而这,正是这场比赛想要的——


最好的测评,不在榜单,而在现实世界。


它的随机性、多样性与复杂性,是检验具身智能模型能力的终极利器。


全球首届 EAIDC(具身智能开发者大会)暨「具亮计划」黑客松决赛现场。


 30 日,由自变量机器人、深圳市人工智能行业协会、广东省具身智能训练场联合主办的全球首届 EAIDC(具身智能开发者大会)暨「具亮计划」黑客松决赛,正式收官。这也是全球首个将「真实环境 + 真实任务」同时写入赛制的大规模具身智能赛事。


过去几十年,具身智能的真机世界里,一直缺少类似大模型榜单那样的统一评测体系,来回答「哪个模型更强」。行业迫切需要一个在真实物理环境中检验技术成熟度的平台,而这场比赛,正好是一次尝试。


「大家取得的成绩,让我有些惊讶。」自变量机器人创始人兼 CEO 王潜坦言,这个方向本身上手难度极高,一开始办比赛也带着些许忐忑。但没想到,参赛团队最终能把事情做到这个程度。


自变量机器人创始人兼 CEO 王潜


四道真题,藏着具身智能的「成人礼」


清华、北大等顶尖高校与科研机构的 20 支强队同台对抗,现场可谓「硬核拉满」。「从没打过这么富裕的仗。」一位参赛选手这样形容。


决赛现场,多台机械臂协同运行,实时调试系统。


决赛现场,参赛队伍和自变量工作人员,围绕真机调试模型与系统。


三天之内上手?这在常规情况下,几乎是不可能完成的任务。要知道,专业研究实验室搭一套类似系统,至少需要 6 个月。于是主办方大手笔,直接造了一个「顶配考场」


模型?WALL-OSS、Pi0.5、Dream Zero等开源基础模型,随便选;


算力?100+ PFLOPs,管饱;


机械臂?高性能真机,近百台;


Baseline?提前配好;


数据集?免费开放;


数据采集、训练、推理 infra?一整套,现场备齐,甚至包括在线测评。


当所有「外部变量」全被抹平,唯一的问题就是:你的模型,到底能不能打?能不能在真实世界里,快速落地?


真机上阵:参赛队伍在现场完成数据采集、训练与操作闭环。


摆在选手面前的四道决赛任务,就是主办方精心设计的「职业资格考试」,包括套圆环、分水果、插电源线、拼单词。看似简单,实则难度递增,每一个任务背后都对应着具身智能落地的真实痛点。


其中,前两题更像「保底分」。


套圆环,是经典的 peg-in-hole 问题:看深度、估姿态、做对齐、控接触。这是典型的工业自动化能力之一——精细操作的分水岭。分水果,则从「手」转向「脑」:给一句指令「把水果放进碗里」,模型要完成从语言到动作映射。


如果机器人能分拣好苹果和梨,它就有望在物流仓库分拣成千上万种形态各异的快递,或者在无人超市补货。


将圆环套在柱子上(左);按指令分类水果(右)


真正拉开差距的,是后两题,分数权重也高。主办方的指向也很明确:从 Robotics  Embodied AI,「手活儿好」不够,「脑力够强」才是决定上限的能力。


任务三的插电源线,完全是机器人的「噩梦」。线是软的,姿态是随机的;手会挡视线,插入还有物理阻力。这不只是操作问题,而是在不确定中,完成精细对齐。


现实世界中,80% 的操作都不是刚体,比如线缆、衣物 、食材,谁解决了柔性物体,谁就真正接近「人类级操作」。


拼单词,更进一步——几乎不难「动手」,但极难「动脑」。这是一个典型的长程任务:顺序怎么排?哪些字母已用?放在哪里?一步出错,全盘崩掉。


插电源线(左),拼写单词(右)


而现实世界,几乎全是这种问题。去厨房拿杯子,倒好咖啡,加糖,端到书房。又或者收拾餐桌、整理玩具、叠衣服……这种长时序、多步骤的任务能力,是机器人进入家庭、成为「管家」的必经之路。


它要求模型不仅要「会做」,还要「会想」:从理解语言指令,到拆解任务、实时规划,再到一步步执行动作,最终把事情完整做完。


决赛现场的选手们。


比赛中,不同队伍选择了不同技术路径。有人用  Pi0.5Dream zero,也有不少团队选择基于 WALL-OSS,在现场复现任务表现。


但一开始,情况并不乐观。很多团队甚至连「跑通」都困难,成功率只有 20%–30% 左右。但随着调参、补数据、换策略,成绩快速爬升。


像套圆环这样的任务,成功率可以提升到 60%–70%;更复杂的拼单词任务,也从几乎不可用,提升到 40%–50% 的水平。


这说明在真实环境里,模型是能被快速调出来、真的能干活的。 


另一方面,问题也比想象中更「暴露得彻底」。


比如一上 B 榜,成绩明显掉下来,说明很多模型的泛化能力其实还不够;很多团队为了时间,只用了很少的数据,也暴露出训练范式、数据利用效率的不够。


现场24小时轮转评测,实时出分保证比赛公平


为什么必须开源?具身智能的「中国解法」


具身智能,不能再「纸上谈兵」了。行业现在缺的,不是 Demo,而是一个能在真实世界里「见真章」的真靶场。这一点,在比赛结束后的圆桌环节,形成了高度共识。


这块靶场的建设,就死磕三件事:真问题、真开源、真泛化


如果说,赛题设计锚定的是「真问题」,那么接下来更值得讨论的是,具身智能为什么必须开源?又该怎么开源?


「我们一直想把这件事真正做起来,让大家把开源模型用好。」自变量联合创始人兼 CTO 王昊表示。事实上,在当前阶段,不开源,行业很难真正跑起来——这一点,也在圆桌讨论中几乎形成共识。


在圆桌环节,自变量与来自不同生态位的嘉宾就开源、产学研生态建设,展开讨论。


原因很直接。具身智能不是单一模型的问题,已经变成一个系统工程——一个从数据采集、模型训练到真机部署、软硬件协同的系统工程。门槛高到什么程度?高到如果没有开源,大多数开发者甚至连「入场」的机会都没有,高校也很难培养出真正能落地的人才,整个行业只能在少数团队内部循环。


更关键的是,现在这个阶段,本身就没有标准答案。用什么数据、什么模型结构、什么训练路径,没有任何一条路线已经被验证为「最终解」。这就决定了,没有哪一家公司可以独立把这件事做完。只有把数据、模型、流程不断释放出来,让更多人参与试错,行业才有可能加速收敛。


从这个角度看,开源的意义,其实已经不只是技术共享,而是在「制造共识」。谁能吸引更多开发者、更多团队在同一套体系上迭代,谁就更有机会定义未来的技术路径。


但具身智能的开源,又和大模型不太一样。很多关键数据来自真实世界,涉及隐私和成本;很多能力绑定在具体硬件上,难以复现;还有一些推理和系统能力,本身就是公司的核心竞争力,不可能完全开放。


所以现实情况是,大多数所谓的「开源」,并不是完全开放,而是在不断寻找一个平衡点。


在这一点上,首届 EAIDC 算是率先打了一个样:与其只开源代码,不如把「能跑通的能力」开放出来,让开发者不仅能看到模型,还能用数据、用流程,甚至在真实环境里直接跑一遍。


以自变量的开源模型为例,在比赛现场,WALL-OSS 已经能通过标准工具链快速部署,从模型加载到机械臂执行,几小时内打通完整闭环。无论是接入 Hugging Face、魔搭,还是对接机械臂控制系统,都无需复杂定制开发。


「这个事情需要大量开发者参与,不只是科班出身,也希望更多普通开发者加入进来,生态才能真正做起来。」王潜表示。


他举了一个很形象的例子:「小龙虾」为什么能火?并不是因为一群专业人士在做,而是无数个人开发者、无数小团队一起,把它推成了一个庞大的生态。


自变量想做的,正是同样的事情。通过吸引更多开发者参与进来,不断扩展开源模型的能力边界,补全一块长期缺失的拼图:中国自己的「具身智能大脑」, 


「孤勇者」,跑不出真泛化


除了真问题、真开源,具身智能走进现实世界,需要死磕一个问题:达到真泛化。


具身智能要具备突破性的泛化能力,就不能止步于「黑灯工厂」中的单点应用,而必须走进真实的家庭与生活,在随机、充满不确定性的场景中大规模持续采集数据、开展训练。只有用优质的数据「饲料」,才能培育出具备优秀泛化能力的大模型。


对此,自变量机器人指出,必须从通用基础模型出发,才有可能在不同场景中高效迁移,实现规模化落地。这个路径是单向的,不能倒过来。


一方面,他们持续打磨通用模型能力,围绕泛化与长程任务不断提升上限;另一方面,则主动进入具体场景,尤其是养老服务、公共服务这类相对封闭的环境,让模型在真实世界中运行,不断获得真实数据,优化和验证通用能力。


圆桌嘉宾就开源与具身智能的产业化路径展开讨论。


无论是更多样的场景、更多真实数据、更多失败和反馈,恰恰只有在大量开发者同时参与时,才可能出现。这也是这场赛事的「生态价值」所在。


在王潜看来,它的意义不只是一次竞技,而是降低门槛、吸引开发者、加速生态形成的起点。


首先,它解决了「让人进门」的问题。通过开源模型与统一基础设施,把原本高门槛的具身智能「打平」,让开发者可以直接上手,在真实环境中完成任务。


表现突出的方案,还可以进入 WALL-OSS 官方示例库,获得行业认可。


其次,企业也可以站在社区肩膀上。当模型被不断复现、部署、验证,社区的反馈会迅速暴露问题,任何依赖 Demo、夸大能力的方案,都很难在这样的体系中长期存在。


而且,开发者在真实环境中完成任务、踩坑、优化,这些经验不再停留在个体,而是通过开源模型与社区不断回流,反过来推动整个技术体系进化,逐步形成「开源创新回馈」的闭环。


正如一位圆桌对谈的嘉宾所言,你把所有学生都用起来,有更多开发者,有开发者以后,就有更好的技术,有更优秀的人才,形成更好的闭环。


具身智能的进化方式,也不再依靠少数公司的单枪匹马,而是一个由生态驱动的、持续加速的系统。



未来,该项赛事将持续举办,并依托开源平台与软硬件开发体系,汇聚更多开发者,推动中国具身智能生态不断向前。王潜表示。


EAIDC,也不再只是一个比赛或大会,而是在尝试成为具身智能领域的「真实世界评测场」,以及行业的观察窗口。


过去,我们判断一个模型,看的是 benchmark 排名;而未来,一个具身模型是否真的能打,答案会更简单——


 EAIDC 的现场,看一眼。


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com


真实环境比赛的意义在于,它能更真实地反映具身智能在实际应用中可能遇到的问题。仿真环境虽然方便,但很难完全模拟真实世界的复杂性和不确定性。真实环境的挑战包括光照变化、物体形状不规则、机械臂的精度限制等,这些都会影响模型的表现。

开源是好事啊!我觉得可以先从数据集入手,比如一些通用的物体识别、姿态估计数据集。然后是一些基础的控制算法,比如PID控制、力矩控制。模型的话,可以开源一些轻量级的模型,方便大家快速上手。挑战嘛,我觉得主要是怎么平衡商业利益和开源精神,毕竟很多公司靠这个吃饭的。

谢邀,人在现场。我认为,具身智能要在真实世界有用,就必须在真实世界里训练和测试。这次比赛的意义在于提供了一个benchmark,让大家知道自己的模型在真实环境里到底是个什么水平。真实环境的挑战非常多,比如数据采集的成本、模型部署的难度、以及如何处理各种corner case。但这些挑战也是机遇,能推动具身智能技术不断进步。

利益相关,自变量员工。我认为具身智能的开源不应该只是代码的开放,更重要的是“know-how”的传递。比如这次比赛,我们把完整的工具链都开放出来,让大家知道怎么用数据、用流程,甚至在真实环境里直接跑一遍。挑战在于,如何让开源项目保持活力,吸引更多人参与进来。这需要一个良好的社区氛围,以及持续的维护和更新。

插电源线这种软性物体操作,绝对是痛点中的痛点!还有拼单词这种需要逻辑推理的任务,也很考验机器人的“智商”。要走进千家万户,我觉得首先要解决安全问题,不能让机器人伤到人。其次是要降低成本,让普通家庭也能买得起。最后是要提升智能化水平,让机器人真正能理解人的意图。

具身智能领域的开源应该从基础工具和通用模型开始。例如,可以开源一些常用的数据处理库、运动规划算法、以及在特定硬件平台上运行的基础模型。开源面临的挑战包括数据隐私问题、知识产权保护、以及如何保证开源项目的质量和可持续性。

开源对于具身智能来说,就像是把乐高积木分享给大家,每个人都可以用这些积木搭建自己的作品。这能激发无限的创造力,加速技术的普及。但开源也可能会遇到一些“熊孩子”,他们可能会破坏积木,或者搭建出一些奇怪的东西。所以,我们需要建立一套规则,让大家在开源的环境下,既能自由创造,又能保证安全和秩序。

主办方提供强大算力,就像是给参赛者提供了顶级的实验设备,让他们能够专注于算法和模型的创新,而不用在硬件和基础设施上耗费过多精力。对于行业来说,这降低了进入门槛,加速了技术迭代,就像是直接把行业发展速度提升了一个档次!

可以这样理解,插电源线这种任务,代表了具身智能需要处理现实世界中大量的不确定性和非刚性物体。而拼单词则代表了对复杂任务的理解、分解和执行能力。难点在于,现实世界充满了噪声和变化,如何让机器人在这些复杂环境中稳定、可靠地完成任务,需要算法和硬件的深度融合。

插电源线这种任务,就像是让机器人去穿针引线,不仅要眼疾手快,还要能克服各种意外情况。拼单词更像是让机器人当侦探,需要从一堆线索中找到正确的答案。这些任务的难点就在于,它们模拟了真实世界中那些需要灵活性、创造性和解决问题的能力,而这些恰恰是目前机器人最缺乏的。

开源在具身智能领域就像是催化剂,能加速技术进步和生态构建。通过共享数据、模型和算法,可以吸引更多开发者参与,共同解决技术难题。但开源也面临挑战,比如数据隐私、知识产权保护、以及如何保证开源项目的质量和可持续性。我们需要建立一套完善的开源生态管理机制,才能让开源真正发挥作用。

插电源线这种软体操作,是对机器人精细操作和环境适应能力的终极考验。拼单词则考察的是机器人的逻辑推理、规划和长期记忆能力。这些都是现实世界中机器人需要具备的关键技能,也是目前技术上的难点所在,可以说,谁能解决这些问题,谁就能在具身智能领域占据领先地位。

这就像玩游戏直接给你开了无敌模式和无限金币,让你能更专注于游戏策略本身,而不是为资源发愁。对于参赛团队来说,可以尽情发挥创意,不用担心硬件瓶颈。对于整个行业,这相当于一个信号:具身智能时代,算力不再是瓶颈,关键在于算法和应用创新!

要我说啊,还有很长的路要走。现在的机器人连扫地都经常出问题,更别说叠衣服、做饭这种精细活儿了。我觉得最大的挑战还是泛化能力不够,稍微换个场景、换个东西,模型就抓瞎了。

知识产权保护是肯定的,但也不能因此阻碍技术发展。我觉得可以借鉴一些开源社区的经验,比如建立完善的贡献者协议、行为准则等等,明确参与者的权利和义务,鼓励大家在尊重彼此知识产权的前提下,共同推动技术进步。

真实环境这个概念确实太大了,我觉得可以考虑引入一些“领域专家”参与赛题设计和评审,比如请一些工厂的工程师、养老院的护理人员等等,让他们给出更贴近实际需求的建议,这样才能更好地保证比赛的代表性。

“普遍挑战”本身就是一个动态的概念。与其追求一劳永逸的“标准答案”,不如拥抱这种多样性和随机性。这次比赛更像是一个抛砖引玉,通过暴露现有模型的局限性,引导研究者去关注更具泛化能力的模型和算法。关键在于不断迭代和演进,让评测体系能够跟上技术发展的步伐。

除了技术,伦理和安全也是很大的挑战。如果机器人犯了错,谁来承担责任?如果机器人被黑客控制,后果不堪设想。这些问题都需要提前考虑,并制定相应的规范和措施。

我觉得这次比赛的任务设计还是挺有意思的,从简单的套环、分水果到复杂的插线、拼单词,覆盖了从工业到家庭的各种场景。虽然不可能完全代表所有挑战,但至少提供了一个很好的起点,让大家关注真实世界的问题。而且,比赛也强调了开源和生态建设,鼓励更多人参与进来,共同完善这个“真实世界评测场”的标准。