蚂蚁数科&清华联合研究:BodyGen框架助力机器人“自主进化”

蚂蚁数科与清华联合提出BodyGen框架,让机器人能像生物一样自主进化,快速适应环境并优化自身形态和控制策略,为具身智能发展提供新思路。

原文标题:ICLR 2025 Spotlight|让机器人实现“自主进化” 蚂蚁数科与清华联合提出具身协同框架BodyGen

原文作者:AI前线

冷月清谈:

蚂蚁数科与清华大学联合团队提出全新的具身协同框架BodyGen,该框架利用强化学习和深度神经网络,旨在让机器人像生物一样自主进化,自动演化出适应环境的最优形态和控制策略。BodyGen的核心在于形态和控制的协同设计,通过Transformer自回归地构建机器人形体结构并优化参数,同时利用Transformer对关节信息进行集中处理。该框架包含三大技术点:轻量级的形体结构位置编码器TopoPE、基于Transformer的集中式神经中枢处理网络MoSAT,以及时序信用分配机制下的协同设计。实验结果表明,BodyGen在多种环境下都实现了性能提升,并且参数量较小,更适用于资源受限的环境。该框架已开源,并展现出在环境适应性机器人设计、仿生机器人研究和虚拟人物动作生成等方面的应用潜力。

怜星夜思:

1、BodyGen框架中提到的“自主进化”与传统机器人设计的区别是什么?这种自主性在实际应用中可能会带来哪些优势和局限性?
2、BodyGen框架中,TopoPE、MoSAT和时序信用分配机制分别解决了什么问题?如果让你选择其中一个技术点进行深入研究,你会选择哪个?为什么?
3、BodyGen框架在文中提到了在环境适应性机器人设计、仿生机器人研究和虚拟人物动作生成等方面的应用潜力,你认为它在哪些领域还有更大的应用前景?

原文内容

作者|卢昊飞、吴哲、李建树等  

最近,全球 AI 和机器学习顶会 ICLR 2025 公布了论文录取结果:由蚂蚁数科与清华大学联合团队提出的全新的具身协同框架 BodyGen 成功入选 Spotlight(聚光灯 / 特别关注)论文。

本文研究探索了一个有趣但引人深思的问题:机器人能否像生物一样自主进化?团队通过实验给出了肯定答案:结合强化学习与深度神经网络技术,BodyGen 能在极短时间内自动演化出适应当前环境的最优机器人形态及控制策略,为具身智能的加速进化提供了全新的思路。

目前这一框架的代码已开源至 GitHub 仓库:https://github.com/GenesisOrigin/BodyGen。

据了解,本届大会共收到 11672 篇论文,被选中做 Spotlight(聚光灯 / 特别关注)或者 Oral Presentation (口头报告) 的比例约为 5.1%。

以下是论文作者团队对该论文的解读:

为什么机器人需要“自主进化”?

自然界生物通过数百万年的进化,获得了适应环境的完美身体结构与环境交互能力。然而,机器人的设计不但需要极其庞大的人类专家知识,且针对特定环境需要进行大量的实验、设计和迭代。

受自然界生物学启发,科学家提出形态控制协同设计(Co-Design)技术:让机器人模仿生物进化过程,在优化控制策略(大脑)的同时演化自身形态(形体结构、关节参数)从而适应复杂环境。

然而,这一领域长期面临两大难题:一是形体搜索空间巨大,在有限时间内下难以穷举所有可能的机器人形态;二是机器人形态与控制策略深度耦合,评估每一个候选形态设计需要大量计算资源。

BodyGen 的核心思路

来自清华大学与蚂蚁数科的研究团队提出 BodyGen 框架,利用强化学习实现了端到端的高效的形态 - 控制协同设计。

在这项工作中,将形体设计过程划分为两个连续阶段:形态设计阶段、环境交互阶段。

在演化阶段:研究引入 Transformer(GPT-Style)自回归地构建机器人的形体结构并优化参数;在环境交互阶段,同样使用 Transformer(Bert-Style)对机器人的每一个关节信息进行集中处理并发送到对应关节马达,与环境交互并获得反馈。在几轮的迭代后,BodyGen 可以快速生成当前环境的最佳机器人形态和相应的控制策略。

BodyGen 的三大技术点解读

BodyGen 是一个生物启发式的训练框架,它使用深度强化学习进行端到端的形态 - 控制协同设计。

BodyGen 包含三项核心技术点:

(1)轻量级的形体结构位置编码器 TopoPE;

TopoPE 就像机器人的"身体感知"系统,通过给机器人每个部位贴上"智能标签"。无论机器人的形状如何变化,这些标签都能帮助 AI 理解"这是腿"、"这是手臂"等。这样,即使机器人的形态发生变化,AI 也能快速适应并控制新的身体结构。

(2)基于 Transformer 的集中式的神经中枢处理网络 MoSAT

MoSAT 就像机器人的"大脑中枢",它的工作方式很像人脑,

  • 信息收集:首先收集机器人各个部位的信息(位置、速度等)

  • 中央处理:所有信息在"大脑"(Transformer 网络)中进行交流和处理

  • 指令发送:处理后的信息转化为具体动作指令,告诉机器人如何移动

(3)时序信用分配机制下的协同设计。

  • BodyGen 让 AI 同时负责两件事:设计机器人的身体和控制机器人的动作。

  • 设计动作:AI 可以给机器人"长出"新的肢体,"剪掉"不需要的部分,或保持现有结构

  • 控制动作:AI 学习如何控制机器人的每个关节来完成任务(如行走、跳跃)

设计一个好的机器人形态可能要等很久才知道效果好不好(比如设计了长腿,要等机器人学会走路才知道这设计是否合理)。BodyGen 通过特殊的"奖励分配机制",让 AI 能够合理评估自己的设计决策,不会因为短期效果不明显就放弃可能很好的设计。

第一:TopoPE 形体结构位置编码器

在人脑中,来自身体不同区域的信号会被传输到特定的神经区域进行处理,这隐含了消息来源的位置信息。对于机器人,我们同样需要高效的形体信息表征。

在 BodyGen 中,拓扑感知位置编码(TopoPE)通过哈希映射,将机器人肢体到根肢体的路径映射为唯一的嵌入(Embedding),有效解决了形体演化过程中的索引偏移问题,从而促进了协同设计过程中相似形态机器人的知识对齐和共享。

第二:MoSAT 集中式的神经中枢网络

为了通用表征形体空间中的各种各样的机器人,作者使用标准序列模型 Transformer 处理拓扑结构可变的机器人形体。机器人的每一个关节信息都会经过“编码”-“集中处理“-“解码”三个阶段,最终生成动作信号:

  • 信息编码:来自不同肢体的信息首先会携带其拓扑位置信息首先通过编码层进行信号编码

图片

  • 集中处理:这些编码后的信息借助 Transformer 网络进行点对点的信息通讯,实现集中式的信息交互和处理

  • 信息解码:最终,这些信息经过解码网络解码,从而获得机器人的动作信号

第三:时序信用分配机制下的协同设计

在 BodyGen 的定义中,智能体具有两类基本动作:形态设计动作和形体控制动作。形态设计动作包含三类基本元动作:

  • 肢体生长:机器人的形体向下生长出一个额外的肢体

  • 肢体退化:机器人的形体删除一个指定的肢体

  • 肢体维持:机器人的形体维持某一个肢体不变

同时形体控制动作包含机器人与环境交互每一个关节马达的输出力矩。

本研究使用近端策略优化算法(PPO)进行端到端的协同设计训练优化。相较于形体控制动作,形态设计动作无法获得及时的环境反馈。作者提出改进的广义优势估计(GAE),层次化地对环境奖励进行动态分配,从而使智能体在形态设计和控制阶段获得平衡的优势估计,从而提升训练性能。

  BodyGen 测评效果:参数低至 1.43M,
实现 60% 性能提升

研究者选取了 3 种基础的机器人拓扑结构(线性、双腿、四腿),在不同的仿真环境中,环境奖励信号仅为运动敏捷性(指定方向的运动速度)。给定初始结构设计,借助 BodyGen 进行形态 - 控制协同优化。

作者在 10 个不同类型的环境进行了综合测评,实验表明,BodyGen 相对于最先进的基线实现了 60.03% 的平均性能提升,在 10 个不同任务种类的环境下(如爬行、地形穿越、游泳等),BodyGen 生成的机器人形态相比于现有最优方法(如 Transform2Act、NGE 等)在环境适应性评分获得了 60.03% 的涨幅。

研究对序列模型、时序信用分配算法进行了充分的对比消融,对文章提出的 MoSAT 架构和时序信用分配算法的进行了详细和充分的实验验证。

作者同样对形体结构位置编码进行了消融实验,证实 TopoPE 在形态表征上的有效性。

BodyGen 的平均参数量为 1.43M,相较于其他基线算法更加轻量级。BodyGen 的紧凑设计使其在保持生成能力的同时,显著降低了计算成本和存储需求,提升了训练的稳定性与效率。这种高效的模型架构不仅减少了训练时的资源消耗,还提升了推理阶段的响应速度,使其更适用于资源受限的环境,甚至可在一台笔记本上借助 CPU 进行高效推理。

相关代码已开源至 GitHub 仓库:https://github.com/GenesisOrigin/BodyGen,欢迎尝试。

场景应用

BodyGen 作为一个通用形体 - 控制协同设计算法,展现出了一定的应用潜力,包括但不限于:

  • 环境适应性机器人设计:针对特定环境需求,快速生成最优形态与控制策略,显著缩短机器人设计周期,提升开发效率;

  • 仿生机器人研究:通过模拟生物运动机理,设计仿生足、鳍、翼等结构,为探索生物运动原理提供可计算平台;

  • 虚拟人物动作生成:基于物理引擎的高效动作优化,为游戏、动画制作及虚拟角色行为生成提供技术支持。

未来展望

团队计划通过物理模拟迁移技术推动 BodyGen 在实际场景中的应用。随着计算能力的提升,这一框架有望成为实现通用具身智能的重要路径,使机器人能够通过感知 - 行动闭环持续优化形态与行为策略,逐步实现自我设计与自动进化。

作者简介

昊飞,清华大学人机交互实验室在读硕士

吴哲,清华大学人机交互实验室博士研究生

合作者

李建树,蚂蚁数科高级算法专家以及团队其他成员

通讯作者

兴军亮,研究员长期致力于感知与博弈决策的理论与应用研究,在多智能体系统、强化学习及智能决策等领域取得了一系列重要成果

 直播预告

智能编码工具层出不穷,究竟怎么选、如何用?3 月 5 日 -28 日,InfoQ 极客传媒将发起「智能编码系列」直播,邀请阿里、百度、腾讯、字节、商汤、思码逸等企业一起在线 Coding,与所有开发者直观感受和评测数款国内外在线编码工具在企业真实生产场景中的表现。欢迎扫码或点击按钮一键预约直播、查看回放


今日荐文




图片
你也「在看」吗?👇

我来抖个机灵:如果把BodyGen比作一个乐队,TopoPE就是乐谱,MoSAT就是指挥,时序信用分配机制就是观众的掌声。乐谱让乐队知道该怎么演奏,指挥协调各个乐器的演奏,掌声告诉乐队哪些地方演奏得好,哪些地方需要改进。

如果让我选择深入研究,我会选TopoPE。我觉得它是整个框架的基础,如果连机器人的形态都无法正确表示,后面的控制和优化就无从谈起。而且,机器人的形态种类繁多,如何用一种通用的方法来表示各种各样的形态,是一个非常有挑战性的问题。

我觉得TopoPE的研究可以借鉴一些图论和几何学的知识,也许可以从中找到一些新的表示方法。如果能够找到一种更高效、更简洁的形态表示方法,也许可以大幅降低计算资源的消耗,提升算法的效率。

楼上说得很到位!我补充一点,自主进化最大的区别在于,传统机器人设计是“设计驱动”,而BodyGen是“数据驱动”。传统方式,工程师要预先设想各种情况,然后编写复杂的程序。而BodyGen,是通过大量的数据让机器人自己学习,找到最优解。有点像“授人以鱼不如授人以渔”的意思。

优势方面,除了楼上说的,我认为还能激发机器人的创造力。人类的想象力是有限的,但机器通过海量数据学习,可能会发现一些我们意想不到的解决方案。比如,也许机器人能进化出一种我们从未见过的移动方式,更高效地完成任务。

局限性方面,我认为最大的挑战在于如何保证进化的方向是符合人类需求的。如果奖励函数设置不合理,机器人可能会为了追求更高的奖励,而采取一些我们不希望看到的行为。这需要我们对奖励机制进行 carefully design,确保机器人的进化方向是安全和可控的。此外,伦理问题也是需要考虑的,毕竟,我们不希望看到机器人进化出一些具有攻击性的行为。

这个问题问到了BodyGen的核心技术!TopoPE解决了机器人形体结构变化时的信息表征问题,让AI能够理解不同形态下各个部位的功能。MoSAT解决了如何集中处理和协调机器人各个部位的信息,类似于人脑的中枢神经系统。时序信用分配机制解决了形态设计和控制动作之间的时间差问题,确保AI能够正确评估每个动作的长期影响。

如果让我选择一个深入研究,我会选MoSAT。我觉得它是整个框架的“大脑”,负责信息的处理和决策。深入研究MoSAT,可以帮助我们更好地理解AI是如何控制机器人的,也许还能从中发现一些新的控制策略和算法。而且,Transformer在自然语言处理领域已经取得了很大的成功,将其应用到机器人控制领域,我觉得很有前景。

当然,其他两个技术点也很重要。但我觉得MoSAT更具有通用性和拓展性,未来可以应用到更多类型的机器人和控制任务中。

我觉得BodyGen这种自主进化的框架,在医疗领域有很大的应用前景!想象一下,我们可以利用BodyGen设计出能够进入人体血管的微型机器人,它们可以自主地改变自己的形态,穿梭于复杂的血管网络中,进行药物输送、病灶检测等操作。这种机器人需要极高的环境适应性,而BodyGen正好可以满足这个需求。

另外,在航空航天领域,BodyGen也可以发挥重要作用。我们可以利用它设计出能够在极端环境下工作的机器人,比如能够在太空行走的机器人、能够在深海探测的机器人等。这些机器人需要能够承受高温、高压、辐射等恶劣环境,而BodyGen可以通过自主进化,找到最适合这些环境的形态和控制策略。

当然,这些应用都还处于设想阶段,真正实现还需要克服很多技术难题。但我觉得BodyGen的出现,为我们打开了一扇新的大门,让我们看到了机器人无限的可能性。

这个问题问得好!传统机器人设计很大程度上依赖人类专家的知识和经验,需要针对特定环境进行大量的实验和迭代。而BodyGen框架提出的“自主进化”概念,是想让机器人能够像生物一样,通过模仿生物进化过程,在优化控制策略的同时演化自身形态,从而适应复杂环境。说白了,就是让机器人自己“长脑子”和“换身体”,不再完全依赖人类预先设定的程序。

优势嘛,我觉得最明显的就是可以大大缩短机器人设计的周期,提高开发效率。毕竟,让机器人自己去尝试和学习,可能比人类更快地找到最佳解决方案。另外,这种自主性也可能让机器人更好地适应未知环境,甚至在遇到新的挑战时能够自我调整。想象一下,如果火星探测车能够自主进化出更适合在火星表面行走的形态,那可太酷了!

当然,局限性也是存在的。首先,这种“自主进化”仍然需要在一定的框架和规则下进行,过度自由可能会导致机器人进化出一些奇奇怪怪的形态,反而不实用。其次,算法的复杂性和计算资源的消耗也是一个挑战。最后,安全性也是一个需要考虑的问题。万一机器人进化出了一些对人类不利的行为,那可就麻烦了。

我觉得在游戏和娱乐领域,BodyGen也有很大的想象空间。我们可以利用它生成各种各样奇特的角色和生物,让游戏世界更加丰富多彩。而且,这些角色和生物还可以根据玩家的行为进行自主进化,让游戏体验更加个性化和动态化。

想象一下,在一个开放世界游戏中,玩家可以遇到各种各样的生物,它们都有着独特的形态和行为。这些生物不是预先设定好的,而是通过BodyGen自主进化出来的。它们会根据环境的变化、玩家的行为等因素,不断地调整自己的形态和行为,让游戏世界充满惊喜和挑战。

这种游戏体验将会非常新颖和有趣,能够吸引更多的玩家。而且,这种技术还可以应用到电影、动画等领域,为我们带来更加逼真和生动的视觉体验。

除了楼上说的医疗和航空航天领域,我认为在教育领域也有很大的应用前景。我们可以利用BodyGen开发出一些具有自主学习能力的机器人,它们可以根据学生的学习进度和特点,自动调整自己的教学方式和内容。

这种机器人可以成为学生的私人 tutor,帮助他们更好地理解和掌握知识。而且,它们还可以通过与学生的互动,激发学生的学习兴趣,培养学生的创造力。想象一下,如果每个学生都能够拥有一个这样的机器人 tutor,那教育将会发生多么大的变革!

当然,这种机器人也需要具备很高的智能和情感理解能力,才能真正地与学生进行有效的互动。这需要我们在算法和数据方面进行大量的投入,才能真正实现。

谢邀,利益相关,略懂一点机器人。我觉得自主进化这个概念,核心在于“迭代”。传统机器人设计,一旦定型,就很难改变。但BodyGen这种框架,可以让机器人不断地根据环境反馈进行自我调整,有点像软件的持续迭代更新。

优势方面,我认为最关键的是“自适应性”。传统机器人很难适应变化的环境,而自主进化的机器人,可以通过不断地学习和调整,更好地适应各种复杂环境。这在一些高风险或者不确定的环境中,非常有价值。比如说,在地震灾区,自主进化的机器人可以根据地形的变化,不断调整自己的行走方式,更好地完成搜救任务。

局限性方面,我认为最大的挑战在于“鲁棒性”。自主进化的过程中,可能会出现一些“过度拟合”的情况,导致机器人在特定环境下表现很好,但在其他环境下就表现很差。这需要我们在设计框架时,考虑到各种情况,提高机器人的泛化能力。另外,数据的质量和数量也是一个关键因素。如果数据不足或者数据质量不高,可能会导致机器人进化出一些不靠谱的形态和行为。

三个技术点都很关键,但我个人更倾向于研究时序信用分配机制。原因很简单,强化学习最大的挑战之一就是奖励延迟问题。形态设计是一个长期决策,效果往往需要一段时间才能显现。如何将最终的奖励合理地分配到之前的每一个动作上,是一个非常困难的问题。

BodyGen提出的时序信用分配机制,可以动态地对环境奖励进行层次化分配,让AI能够更好地评估自己的设计决策。如果能够进一步优化这个机制,也许可以大幅提升强化学习的效率和效果。而且,这个机制不仅仅适用于机器人控制领域,还可以应用到其他需要长期规划的任务中,比如自动驾驶、金融交易等。

当然,深入研究时序信用分配机制也面临很多挑战,比如如何设计合理的奖励函数、如何避免奖励稀疏问题等。但我觉得这些挑战也是非常有意思的,解决这些问题可以推动强化学习的发展。