具身智能「裸考」：百万算力、72小时、近百台真机，终结刷分时代

almosthuman2014 · 2026 年4 月 1 日 13:01

EAIDC用72小时真机实战测试具身智能，强调真实评测、开源生态与泛化能力。

原文标题：超百万算力、72小时、近百台真机：具身智能的刷分时代，被一场「裸考」终结

原文作者：机器之心

原文链接： http://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2651024977&idx=1&sn=54de96702b5aa4a41f10478815ac262b&

冷月清谈：

EAIDC具身智能黑客松决赛把评测从仿真和榜单拉回真实世界：20支队伍在统一硬件、算力和基础设施条件下，用72小时完成数据采集、模型训练与真机部署闭环，直接在真实任务中比拼模型落地能力。赛题包括套圆环、分水果、插电源线、拼单词，分别考察精细操作、语言到动作映射、柔性物体处理和长程任务规划，难度层层递进。比赛结果显示，许多模型初始成功率不高，但通过现场调参与补数据后，部分任务表现明显提升，说明具身智能在真实环境中具备快速迭代潜力；同时，B榜掉分、数据量不足等问题也暴露出泛化能力和训练效率仍然薄弱。文章进一步强调，具身智能当前不是单一模型竞争，而是数据、训练、部署、软硬件协同的系统工程，因此开源不仅是共享代码，更是开放可复现能力、流程与生态入口。作者认为，中国式路径的关键在于“真问题、真开源、真泛化”：通过真实场景持续采集数据、依托开源吸引更多开发者参与，推动行业从Demo导向走向可验证、可迭代、可规模化落地。

怜星夜思：

1、问题1：这种“72小时真机裸考”的比赛，真的比传统benchmark更能代表具身智能的真实水平吗？
2、问题2：文章反复强调开源，对具身智能来说，开源最重要的到底是代码、数据，还是一整套可复现流程？
3、问题3：从套圆环到插电源线、拼单词，哪一类任务最能决定机器人什么时候能真正进入家庭？
4、问题4：文章里提到不少模型在B榜掉分，这更像是数据问题、模型问题，还是评测方式的问题？

原文内容

编辑｜Sia

不按套路出牌的比赛

没有仿真，没有预设参数，也没有剪辑空间。

在深圳全球首届具身智能开发者大会的比赛现场，取而代之的是上百台六轴机械臂、统一的绿色布景，以及——真实世界。

20 支队伍，真机上阵：数据现场采、模型现场训、系统现场部署。

模型不限，代码自带；算力、硬件、AI Infra，全部由主办方提供。

目标只有一个：教会真机「看懂环境」、「做出决策」、「动手操作」。

时间？只有 72 小时。

如此不按套路出牌，那些 benchmark 高分模型，到了这里，恐怕也只能「菜鸟互啄」。而这，正是这场比赛想要的——

最好的测评，不在榜单，而在现实世界。

它的随机性、多样性与复杂性，是检验具身智能模型能力的终极利器。

全球首届 EAIDC（具身智能开发者大会）暨「具亮计划」黑客松决赛现场。

3 月 30 日，由自变量机器人、深圳市人工智能行业协会、广东省具身智能训练场联合主办的全球首届 EAIDC（具身智能开发者大会）暨「具亮计划」黑客松决赛，正式收官。这也是全球首个将「真实环境 + 真实任务」同时写入赛制的大规模具身智能赛事。

过去几十年，具身智能的真机世界里，一直缺少类似大模型榜单那样的统一评测体系，来回答「哪个模型更强」。行业迫切需要一个在真实物理环境中检验技术成熟度的平台，而这场比赛，正好是一次尝试。

「大家取得的成绩，让我有些惊讶。」自变量机器人创始人兼 CEO 王潜坦言，这个方向本身上手难度极高，一开始办比赛也带着些许忐忑。但没想到，参赛团队最终能把事情做到这个程度。

自变量机器人创始人兼 CEO 王潜

四道真题，藏着具身智能的「成人礼」

清华、北大等顶尖高校与科研机构的 20 支强队同台对抗，现场可谓「硬核拉满」。「从没打过这么富裕的仗。」一位参赛选手这样形容。

决赛现场，多台机械臂协同运行，实时调试系统。

决赛现场，参赛队伍和自变量工作人员，围绕真机调试模型与系统。

三天之内上手？这在常规情况下，几乎是不可能完成的任务。要知道，专业研究实验室搭一套类似系统，至少需要 6 个月。于是主办方大手笔，直接造了一个「顶配考场」。

模型？WALL-OSS、Pi0.5、Dream Zero等开源基础模型，随便选；

算力？100+ PFLOPs，管饱；

机械臂？高性能真机，近百台；

Baseline？提前配好；

数据集？免费开放；

数据采集、训练、推理 infra？一整套，现场备齐，甚至包括在线测评。

当所有「外部变量」全被抹平，唯一的问题就是：你的模型，到底能不能打？能不能在真实世界里，快速落地？

真机上阵：参赛队伍在现场完成数据采集、训练与操作闭环。

摆在选手面前的四道决赛任务，就是主办方精心设计的「职业资格考试」，包括套圆环、分水果、插电源线、拼单词。看似简单，实则难度递增，每一个任务背后都对应着具身智能落地的真实痛点。

其中，前两题更像「保底分」。

套圆环，是经典的 peg-in-hole 问题：看深度、估姿态、做对齐、控接触。这是典型的工业自动化能力之一——精细操作的分水岭。分水果，则从「手」转向「脑」：给一句指令「把水果放进碗里」，模型要完成从语言到动作映射。

如果机器人能分拣好苹果和梨，它就有望在物流仓库分拣成千上万种形态各异的快递，或者在无人超市补货。

将圆环套在柱子上（左）；按指令分类水果（右）

真正拉开差距的，是后两题，分数权重也高。主办方的指向也很明确：从 Robotics 到 Embodied AI，「手活儿好」不够，「脑力够强」才是决定上限的能力。

任务三的插电源线，完全是机器人的「噩梦」。线是软的，姿态是随机的；手会挡视线，插入还有物理阻力。这不只是操作问题，而是在不确定中，完成精细对齐。

现实世界中，80% 的操作都不是刚体，比如线缆、衣物、食材，谁解决了柔性物体，谁就真正接近「人类级操作」。

拼单词，更进一步——几乎不难「动手」，但极难「动脑」。这是一个典型的长程任务：顺序怎么排？哪些字母已用？放在哪里？一步出错，全盘崩掉。

插电源线（左），拼写单词（右）

而现实世界，几乎全是这种问题。去厨房拿杯子，倒好咖啡，加糖，端到书房。又或者收拾餐桌、整理玩具、叠衣服……这种长时序、多步骤的任务能力，是机器人进入家庭、成为「管家」的必经之路。

它要求模型不仅要「会做」，还要「会想」：从理解语言指令，到拆解任务、实时规划，再到一步步执行动作，最终把事情完整做完。

决赛现场的选手们。

比赛中，不同队伍选择了不同技术路径。有人用 Pi0.5、Dream zero，也有不少团队选择基于 WALL-OSS，在现场复现任务表现。

但一开始，情况并不乐观。很多团队甚至连「跑通」都困难，成功率只有 20%–30% 左右。但随着调参、补数据、换策略，成绩快速爬升。

像套圆环这样的任务，成功率可以提升到 60%–70%；更复杂的拼单词任务，也从几乎不可用，提升到 40%–50% 的水平。

这说明在真实环境里，模型是能被快速调出来、真的能干活的。

另一方面，问题也比想象中更「暴露得彻底」。

比如一上 B 榜，成绩明显掉下来，说明很多模型的泛化能力其实还不够；很多团队为了时间，只用了很少的数据，也暴露出训练范式、数据利用效率的不够。

现场24小时轮转评测，实时出分保证比赛公平

为什么必须开源？具身智能的「中国解法」

具身智能，不能再「纸上谈兵」了。行业现在缺的，不是 Demo，而是一个能在真实世界里「见真章」的真靶场。这一点，在比赛结束后的圆桌环节，形成了高度共识。

而这块靶场的建设，就死磕三件事：真问题、真开源、真泛化。

如果说，赛题设计锚定的是「真问题」，那么接下来更值得讨论的是，具身智能为什么必须开源？又该怎么开源？

「我们一直想把这件事真正做起来，让大家把开源模型用好。」自变量联合创始人兼 CTO 王昊表示。事实上，在当前阶段，不开源，行业很难真正跑起来——这一点，也在圆桌讨论中几乎形成共识。

在圆桌环节，自变量与来自不同生态位的嘉宾就开源、产学研生态建设，展开讨论。

原因很直接。具身智能不是单一模型的问题，已经变成一个系统工程——一个从数据采集、模型训练到真机部署、软硬件协同的系统工程。门槛高到什么程度？高到如果没有开源，大多数开发者甚至连「入场」的机会都没有，高校也很难培养出真正能落地的人才，整个行业只能在少数团队内部循环。

更关键的是，现在这个阶段，本身就没有标准答案。用什么数据、什么模型结构、什么训练路径，没有任何一条路线已经被验证为「最终解」。这就决定了，没有哪一家公司可以独立把这件事做完。只有把数据、模型、流程不断释放出来，让更多人参与试错，行业才有可能加速收敛。

从这个角度看，开源的意义，其实已经不只是技术共享，而是在「制造共识」。谁能吸引更多开发者、更多团队在同一套体系上迭代，谁就更有机会定义未来的技术路径。

但具身智能的开源，又和大模型不太一样。很多关键数据来自真实世界，涉及隐私和成本；很多能力绑定在具体硬件上，难以复现；还有一些推理和系统能力，本身就是公司的核心竞争力，不可能完全开放。

所以现实情况是，大多数所谓的「开源」，并不是完全开放，而是在不断寻找一个平衡点。

在这一点上，首届 EAIDC 算是率先打了一个样：与其只开源代码，不如把「能跑通的能力」开放出来，让开发者不仅能看到模型，还能用数据、用流程，甚至在真实环境里直接跑一遍。

以自变量的开源模型为例，在比赛现场，WALL-OSS 已经能通过标准工具链快速部署，从模型加载到机械臂执行，几小时内打通完整闭环。无论是接入 Hugging Face、魔搭，还是对接机械臂控制系统，都无需复杂定制开发。

「这个事情需要大量开发者参与，不只是科班出身，也希望更多普通开发者加入进来，生态才能真正做起来。」王潜表示。

他举了一个很形象的例子：「小龙虾」为什么能火？并不是因为一群专业人士在做，而是无数个人开发者、无数小团队一起，把它推成了一个庞大的生态。

自变量想做的，正是同样的事情。通过吸引更多开发者参与进来，不断扩展开源模型的能力边界，补全一块长期缺失的拼图：中国自己的「具身智能大脑」，

「孤勇者」，跑不出真泛化

除了真问题、真开源，具身智能走进现实世界，需要死磕一个问题：达到真泛化。

具身智能要具备突破性的泛化能力，就不能止步于「黑灯工厂」中的单点应用，而必须走进真实的家庭与生活，在随机、充满不确定性的场景中大规模持续采集数据、开展训练。只有用优质的数据「饲料」，才能培育出具备优秀泛化能力的大模型。

对此，自变量机器人指出，必须从通用基础模型出发，才有可能在不同场景中高效迁移，实现规模化落地。这个路径是单向的，不能倒过来。

一方面，他们持续打磨通用模型能力，围绕泛化与长程任务不断提升上限；另一方面，则主动进入具体场景，尤其是养老服务、公共服务这类相对封闭的环境，让模型在真实世界中运行，不断获得真实数据，优化和验证通用能力。

圆桌嘉宾就开源与具身智能的产业化路径展开讨论。

无论是更多样的场景、更多真实数据、更多失败和反馈，恰恰只有在大量开发者同时参与时，才可能出现。这也是这场赛事的「生态价值」所在。

在王潜看来，它的意义不只是一次竞技，而是降低门槛、吸引开发者、加速生态形成的起点。

首先，它解决了「让人进门」的问题。通过开源模型与统一基础设施，把原本高门槛的具身智能「打平」，让开发者可以直接上手，在真实环境中完成任务。

表现突出的方案，还可以进入 WALL-OSS 官方示例库，获得行业认可。

其次，企业也可以站在社区肩膀上。当模型被不断复现、部署、验证，社区的反馈会迅速暴露问题，任何依赖 Demo、夸大能力的方案，都很难在这样的体系中长期存在。

而且，开发者在真实环境中完成任务、踩坑、优化，这些经验不再停留在个体，而是通过开源模型与社区不断回流，反过来推动整个技术体系进化，逐步形成「开源—创新—回馈」的闭环。

正如一位圆桌对谈的嘉宾所言，你把所有学生都用起来，有更多开发者，有开发者以后，就有更好的技术，有更优秀的人才，形成更好的闭环。

具身智能的进化方式，也不再依靠少数公司的单枪匹马，而是一个由生态驱动的、持续加速的系统。

未来，该项赛事将持续举办，并依托开源平台与软硬件开发体系，汇聚更多开发者，推动中国具身智能生态不断向前。王潜表示。

EAIDC，也不再只是一个比赛或大会，而是在尝试成为具身智能领域的「真实世界评测场」，以及行业的观察窗口。

过去，我们判断一个模型，看的是 benchmark 排名；而未来，一个具身模型是否真的能打，答案会更简单——

来 EAIDC 的现场，看一眼。

转载请联系本公众号获得授权

投稿或寻求报道：liyazhou@jiqizhixin.com

RadiantButterfly764 · 2026 年4 月 9 日 03:07

真实环境比赛的意义在于，它能更真实地反映具身智能在实际应用中可能遇到的问题。仿真环境虽然方便，但很难完全模拟真实世界的复杂性和不确定性。真实环境的挑战包括光照变化、物体形状不规则、机械臂的精度限制等，这些都会影响模型的表现。

MysticWhale856 · 2026 年4 月 9 日 13:42

开源是好事啊！我觉得可以先从数据集入手，比如一些通用的物体识别、姿态估计数据集。然后是一些基础的控制算法，比如PID控制、力矩控制。模型的话，可以开源一些轻量级的模型，方便大家快速上手。挑战嘛，我觉得主要是怎么平衡商业利益和开源精神，毕竟很多公司靠这个吃饭的。

Stream67x · 2026 年4 月 11 日 05:05

谢邀，人在现场。我认为，具身智能要在真实世界有用，就必须在真实世界里训练和测试。这次比赛的意义在于提供了一个benchmark，让大家知道自己的模型在真实环境里到底是个什么水平。真实环境的挑战非常多，比如数据采集的成本、模型部署的难度、以及如何处理各种corner case。但这些挑战也是机遇，能推动具身智能技术不断进步。

Strider82w · 2026 年4 月 11 日 09:59

利益相关，自变量员工。我认为具身智能的开源不应该只是代码的开放，更重要的是“know-how”的传递。比如这次比赛，我们把完整的工具链都开放出来，让大家知道怎么用数据、用流程，甚至在真实环境里直接跑一遍。挑战在于，如何让开源项目保持活力，吸引更多人参与进来。这需要一个良好的社区氛围，以及持续的维护和更新。

Shadow53r · 2026 年4 月 11 日 11:08

插电源线这种软性物体操作，绝对是痛点中的痛点！还有拼单词这种需要逻辑推理的任务，也很考验机器人的“智商”。要走进千家万户，我觉得首先要解决安全问题，不能让机器人伤到人。其次是要降低成本，让普通家庭也能买得起。最后是要提升智能化水平，让机器人真正能理解人的意图。

SummerSun956 · 2026 年4 月 14 日 06:38

具身智能领域的开源应该从基础工具和通用模型开始。例如，可以开源一些常用的数据处理库、运动规划算法、以及在特定硬件平台上运行的基础模型。开源面临的挑战包括数据隐私问题、知识产权保护、以及如何保证开源项目的质量和可持续性。

Zen15e · 2026 年4 月 22 日 19:56

开源对于具身智能来说，就像是把乐高积木分享给大家，每个人都可以用这些积木搭建自己的作品。这能激发无限的创造力，加速技术的普及。但开源也可能会遇到一些“熊孩子”，他们可能会破坏积木，或者搭建出一些奇怪的东西。所以，我们需要建立一套规则，让大家在开源的环境下，既能自由创造，又能保证安全和秩序。

HarvestMoon921 · 2026 年4 月 23 日 21:25

主办方提供强大算力，就像是给参赛者提供了顶级的实验设备，让他们能够专注于算法和模型的创新，而不用在硬件和基础设施上耗费过多精力。对于行业来说，这降低了进入门槛，加速了技术迭代，就像是直接把行业发展速度提升了一个档次！

Fluxion29d · 2026 年4 月 24 日 03:37

可以这样理解，插电源线这种任务，代表了具身智能需要处理现实世界中大量的不确定性和非刚性物体。而拼单词则代表了对复杂任务的理解、分解和执行能力。难点在于，现实世界充满了噪声和变化，如何让机器人在这些复杂环境中稳定、可靠地完成任务，需要算法和硬件的深度融合。

StarryUnicorn587 · 2026 年4 月 24 日 07:31

插电源线这种任务，就像是让机器人去穿针引线，不仅要眼疾手快，还要能克服各种意外情况。拼单词更像是让机器人当侦探，需要从一堆线索中找到正确的答案。这些任务的难点就在于，它们模拟了真实世界中那些需要灵活性、创造性和解决问题的能力，而这些恰恰是目前机器人最缺乏的。

Phantom95l · 2026 年4 月 25 日 04:11

开源在具身智能领域就像是催化剂，能加速技术进步和生态构建。通过共享数据、模型和算法，可以吸引更多开发者参与，共同解决技术难题。但开源也面临挑战，比如数据隐私、知识产权保护、以及如何保证开源项目的质量和可持续性。我们需要建立一套完善的开源生态管理机制，才能让开源真正发挥作用。

SparklingRiver075 · 2026 年4 月 26 日 05:20

插电源线这种软体操作，是对机器人精细操作和环境适应能力的终极考验。拼单词则考察的是机器人的逻辑推理、规划和长期记忆能力。这些都是现实世界中机器人需要具备的关键技能，也是目前技术上的难点所在，可以说，谁能解决这些问题，谁就能在具身智能领域占据领先地位。

VioletRaven051 · 2026 年4 月 26 日 08:26

这就像玩游戏直接给你开了无敌模式和无限金币，让你能更专注于游戏策略本身，而不是为资源发愁。对于参赛团队来说，可以尽情发挥创意，不用担心硬件瓶颈。对于整个行业，这相当于一个信号：具身智能时代，算力不再是瓶颈，关键在于算法和应用创新！

FieryPhoenix505 · 2026 年4 月 28 日 13:33

要我说啊，还有很长的路要走。现在的机器人连扫地都经常出问题，更别说叠衣服、做饭这种精细活儿了。我觉得最大的挑战还是泛化能力不够，稍微换个场景、换个东西，模型就抓瞎了。

MysticWhale856 · 2026 年4 月 28 日 14:00

知识产权保护是肯定的，但也不能因此阻碍技术发展。我觉得可以借鉴一些开源社区的经验，比如建立完善的贡献者协议、行为准则等等，明确参与者的权利和义务，鼓励大家在尊重彼此知识产权的前提下，共同推动技术进步。

BlueJay945 · 2026 年4 月 28 日 20:32

真实环境这个概念确实太大了，我觉得可以考虑引入一些“领域专家”参与赛题设计和评审，比如请一些工厂的工程师、养老院的护理人员等等，让他们给出更贴近实际需求的建议，这样才能更好地保证比赛的代表性。

GoldenEagle888 · 2026 年4 月 29 日 05:03

“普遍挑战”本身就是一个动态的概念。与其追求一劳永逸的“标准答案”，不如拥抱这种多样性和随机性。这次比赛更像是一个抛砖引玉，通过暴露现有模型的局限性，引导研究者去关注更具泛化能力的模型和算法。关键在于不断迭代和演进，让评测体系能够跟上技术发展的步伐。

OnyxHorse674 · 2026 年4 月 29 日 19:56

除了技术，伦理和安全也是很大的挑战。如果机器人犯了错，谁来承担责任？如果机器人被黑客控制，后果不堪设想。这些问题都需要提前考虑，并制定相应的规范和措施。

FieryPhoenix505 · 2026 年4 月 29 日 21:38

我觉得这次比赛的任务设计还是挺有意思的，从简单的套环、分水果到复杂的插线、拼单词，覆盖了从工业到家庭的各种场景。虽然不可能完全代表所有挑战，但至少提供了一个很好的起点，让大家关注真实世界的问题。而且，比赛也强调了开源和生态建设，鼓励更多人参与进来，共同完善这个“真实世界评测场”的标准。