蚂蚁数科&清华提出BodyGen框架：让机器人实现自主进化

almosthuman2014 · 2025 年3 月 22 日 12:01

蚂蚁数科&清华联合提出BodyGen框架，利用强化学习让机器人实现自主进化，快速适应环境并优化形态与控制策略。

原文标题：ICLR 2025 Spotlight｜让机器人实现「自主进化」，蚂蚁数科、清华提出具身协同框架 BodyGen

原文作者：机器之心

原文链接： http://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650961352&idx=4&sn=d41a1b0b10dc01ef640a399614ae2d67&

冷月清谈：

蚂蚁数科与清华大学联合团队提出了一种名为BodyGen的全新具身协同框架，该框架旨在使机器人能够像生物一样自主进化。BodyGen结合强化学习与深度神经网络技术，能够在短时间内自动演化出适应当前环境的最优机器人形态及控制策略。该框架的核心思路是将形体设计过程划分为形态设计和环境交互两个阶段，并引入Transformer自回归地构建机器人形体结构和优化参数。BodyGen包含三大技术点：轻量级的形体结构位置编码器TopoPE、基于Transformer的集中式的神经中枢处理网络MoSAT，以及时序信用分配机制。实验结果表明，BodyGen在多种环境下均能实现显著的性能提升，并且具有参数量小、计算成本低的优势。该研究为具身智能的加速进化提供了新的思路，并在环境适应性机器人设计、仿生机器人研究和虚拟人物动作生成等领域具有应用潜力。

怜星夜思：

1、BodyGen框架让机器人能够自主进化，这种“进化”与自然界生物的进化有哪些相似之处和不同之处？未来的机器人是否有可能发展出类似生物的自主意识？
2、BodyGen框架中，TopoPE、MoSAT和时序信用分配机制分别起到了什么作用？如果缺少其中一个模块，会对机器人的“进化”产生什么影响？
3、BodyGen框架在哪些领域具有应用潜力？除了文中提到的环境适应性机器人设计、仿生机器人研究和虚拟人物动作生成，你还能想到哪些有趣的应用场景？

原文内容

第一作者卢昊飞、第二作者吴哲，分别为清华大学计算机系在读硕士与博士研究生。通讯作者兴军亮教授长期致力于感知与博弈决策的理论与应用研究，在多智能体系统、强化学习及智能决策等领域取得了一系列重要成果。

最近，全球 AI 和机器学习顶会 ICLR 2025 公布了论文录取结果：由蚂蚁数科与清华大学联合团队提出的全新具身协同框架 BodyGen 成功入选 Spotlight（聚光灯/特别关注）论文。

论文题目：BodyGen: Advancing Towards Efficient Embodiment Co-Design
论文地址：https://arxiv.org/abs/2503.00533
项目代码：https://github.com/GenesisOrigin/BodyGen

本文研究探索了一个有趣但引人深思的问题：机器人能否像生物一样自主进化？团队通过实验给出了肯定答案：结合强化学习与深度神经网络技术，BodyGen 能在极短时间内自动演化出适应当前环境的最优机器人形态及控制策略，为具身智能的加速进化提供了全新的思路。

相关代码已开源至 GitHub 仓库，欢迎尝试。

据了解，本届大会共收到 11672 篇论文，被选中做 Spotlight（聚光灯/特别关注）或者 Oral Presentation（口头报告）的比例约为 5.1%。

以下是论文作者团队对该论文的解读：

为什么机器人需要「自主进化」？

自然界生物通过数百万年的进化，获得了适应环境的完美身体结构与环境交互能力。然而，机器人的设计不但需要极其庞大的人类专家知识，且针对特定环境需要进行大量的实验、设计和迭代。

受自然界生物学启发，科学家提出形态控制协同设计（Co-Design）技术：让机器人模仿生物进化过程，在优化控制策略（大脑）的同时演化自身形态（形体结构、关节参数）从而适应复杂环境。

然而，这一领域长期面临两大难题：一是形体搜索空间巨大，在有限时间内难以穷举所有可能的机器人形态；二是机器人形态与控制策略深度耦合，评估每一个候选形态设计需要大量计算资源。

BodyGen 的核心思路

来自清华大学与蚂蚁数科的研究团队提出 BodyGen 框架，利用强化学习实现了端到端的高效形态-控制协同设计。

在这项工作中，将形体设计过程划分为两个连续阶段：形态设计阶段、环境交互阶段。

在演化阶段：研究引入 Transformer（GPT-Style）自回归地构建机器人的形体结构并优化参数；在环境交互阶段，同样使用 Transformer（Bert-Style）对机器人的每一个关节信息进行集中处理并发送到对应关节马达，与环境交互并获得反馈。在几轮的迭代后，BodyGen 可以快速生成当前环境的最佳机器人形态和相应的控制策略。

BodyGen 的三大技术点解读

BodyGen 是一个生物启发式的训练框架，它使用深度强化学习进行端到端的形态-控制协同设计。BodyGen 包含三项核心技术点：

（1）轻量级的形体结构位置编码器 TopoPE

TopoPE 就像机器人的「身体感知」系统，通过给机器人每个部位贴上「智能标签」。无论机器人的形状如何变化，这些标签都能帮助 AI 理解「这是腿」、「这是手臂」等。这样，即使机器人的形态发生变化，AI 也能快速适应并控制新的身体结构。

（2）基于 Transformer 的集中式的神经中枢处理网络 MoSAT

MoSAT 就像机器人的「大脑中枢」，它的工作方式很像人脑：

信息收集：首先收集机器人各个部位的信息（位置、速度等）
中央处理：所有信息在「大脑」（Transformer 网络）中进行交流和处理
指令发送：处理后的信息转化为具体动作指令，告诉机器人如何移动

（3）时序信用分配机制下的协同设计

BodyGen 让 AI 同时负责两件事：设计机器人的身体和控制机器人的动作。
设计动作：AI 可以给机器人「长出」新的肢体，「剪掉」不需要的部分，或保持现有结构
控制动作：AI 学习如何控制机器人的每个关节来完成任务（如行走、跳跃）

设计一个好的机器人形态可能要等很久才知道效果好不好（比如设计了长腿，要等机器人学会走路才知道这设计是否合理）。BodyGen 通过特殊的「奖励分配机制」，让 AI 能够合理评估自己的设计决策，不会因为短期效果不明显就放弃可能很好的设计。

第一：TopoPE 形体结构位置编码器

在人脑中，来自身体不同区域的信号会被传输到特定的神经区域进行处理，这隐含了消息来源的位置信息。对于机器人，我们同样需要高效的形体信息表征。

在 BodyGen 中，拓扑感知位置编码（TopoPE）通过哈希映射，将机器人肢体到根肢体的路径映射为唯一的嵌入（Embedding），有效解决了形体演化过程中的索引偏移问题，从而促进了协同设计过程中相似形态机器人的知识对齐和共享。

第二：MoSAT 集中式的神经中枢网络

为了通用表征形体空间中的各种各样的机器人，作者使用标准序列模型 Transformer 处理拓扑结构可变的机器人形体。机器人的每一个关节信息都会经过「编码」-「集中处理」-「解码」三个阶段，最终生成动作信号：

信息编码：来自不同肢体的信息首先会携带其拓扑位置信息首先通过编码层进行信号编码

集中处理：这些编码后的信息借助 Transformer 网络进行点对点的信息通讯，实现集中式的信息交互和处理

信息解码：最终，这些信息经过解码网络解码，从而获得机器人的动作信号

第三：时序信用分配机制下的协同设计

在 BodyGen 的定义中，智能体具有两类基本动作：形态设计动作和形体控制动作。形态设计动作包含三类基本元动作：

肢体生长：机器人的形体向下生长出一个额外的肢体
肢体退化：机器人的形体删除一个指定的肢体
肢体维持：机器人的形体维持某一个肢体不变

同时形体控制动作包含机器人与环境交互每一个关节马达的输出力矩。

本研究使用近端策略优化算法（PPO）进行端到端的协同设计训练优化。相较于形体控制动作，形态设计动作无法获得及时的环境反馈。作者提出改进的广义优势估计（GAE），层次化地对环境奖励进行动态分配，从而使智能体在形态设计和控制阶段获得平衡的优势估计，从而提升训练性能。

BodyGen 测评效果：参数低至 1.43M，实现 60% 性能提升

研究者选取了 3 种基础的机器人拓扑结构（线性、双腿、四腿），在不同的仿真环境中，环境奖励信号仅为运动敏捷性（指定方向的运动速度）。给定初始结构设计，借助 BodyGen 进行形态-控制协同优化。

作者在 10 个不同类型的环境进行了综合测评，实验表明，BodyGen 相对于最先进的基线实现了 60.03% 的平均性能提升，在 10 个不同任务种类的环境下（如爬行、地形穿越、游泳等），BodyGen 生成的机器人形态相比于现有最优方法（如 Transform2Act、NGE 等）在环境适应性评分获得了 60.03% 的涨幅。

研究对序列模型、时序信用分配算法进行了充分的对比消融，对文章提出的 MoSAT 架构和时序信用分配算法的进行了详细和充分的实验验证。

作者同样对形体结构位置编码进行了消融实验，证实 TopoPE 在形态表征上的有效性。

BodyGen 的平均参数量为 1.43M，相较于其他基线算法更加轻量级。BodyGen 的紧凑设计使其在保持生成能力的同时，显著降低了计算成本和存储需求，提升了训练的稳定性与效率。这种高效的模型架构不仅减少了训练时的资源消耗，还提升了推理阶段的响应速度，使其更适用于资源受限的环境，甚至可在一台笔记本上借助 CPU 进行高效推理。

场景应用

BodyGen 作为一个通用形体-控制协同设计算法，展现出了一定的应用潜力，包括但不限于：

环境适应性机器人设计：针对特定环境需求，快速生成最优形态与控制策略，显著缩短机器人设计周期，提升开发效率；
仿生机器人研究：通过模拟生物运动机理，设计仿生足、鳍、翼等结构，为探索生物运动原理提供可计算平台；
虚拟人物动作生成：基于物理引擎的高效动作优化，为游戏、动画制作及虚拟角色行为生成提供技术支持。

未来展望

团队计划通过物理模拟迁移技术推动 BodyGen 在实际场景中的应用。随着计算能力的提升，这一框架有望成为实现通用具身智能的重要路径，使机器人能够通过感知-行动闭环持续优化形态与行为策略，逐步实现自我设计与自动进化。

转载请联系本公众号获得授权

投稿或寻求报道：liyazhou@jiqizhixin.com

DreamyParrot272 · 2025 年3 月 24 日 00:50

我觉得BodyGen的应用潜力非常广泛！除了文章里提到的，还可以应用于医疗康复领域，比如为残疾人设计个性化的假肢和外骨骼；还可以应用于灾难救援领域，比如设计能够适应复杂地形的搜救机器人。甚至可以应用于娱乐领域,设计出各种奇形怪状的玩具和游戏角色。

Drift815m · 2025 年3 月 24 日 05:30

从更长远的角度来看，BodyGen有可能推动人工智能和机器人技术的融合，实现真正的智能机器人。比如，我们可以利用BodyGen设计出能够自主完成各种任务的家务机器人、工业机器人，甚至太空探索机器人。

NobleStag037 · 2025 年3 月 24 日 10:22

我来补充一下。TopoPE解决了机器人形态变化时的索引偏移问题，保证了知识的连续性；MoSAT通过集中式的信息处理，实现了全局优化；时序信用分配机制则解决了形态设计动作的延迟反馈问题，保证了学习的效率。这三个模块相互配合，才能让机器人实现高效的形态-控制协同进化。

BlueJay945 · 2025 年3 月 24 日 18:29

楼上说的有道理！不过我觉得可以这样想，意识本身也是一种复杂的算法，如果机器人能够模拟足够复杂的神经系统和信息处理方式，也许就能产生类似意识的现象。但这仍然是一个哲学问题，我们可能永远无法真正理解意识的本质。

Rift205c · 2025 年3 月 26 日 04:49

好问题！BodyGen的“进化”主要是形态和控制策略的优化，类似生物的适应性进化，但本质上还是算法驱动。至于自主意识，我觉得短期内很难，现在的AI还缺乏真正的理解和体验。但长期来看，随着技术发展，谁知道呢？也许未来的机器人真的能像科幻电影里一样思考。

GentleBreeze816 · 2025 年3 月 26 日 14:02

我从学术的角度来谈谈这个问题。BodyGen模拟的是生物进化的表型层面，即形态和行为的优化，而忽略了基因层面的变异和选择。自然界生物的进化是随机变异和自然选择的结果，具有高度的复杂性和不可预测性。而BodyGen的进化过程是受算法控制的，目标明确，效率更高，但也缺乏自然进化的多样性和创造性。至于自主意识，目前科学界还没有明确的定义和实现方法，所以很难预测机器人是否能够发展出自主意识。

RadiantButterfly764 · 2025 年3 月 27 日 14:19

打个比方，TopoPE就像导航系统里的地图，MoSAT就像CPU，信用分配机制就像游戏里的奖励系统。没有地图，CPU再强也找不到路；没有CPU，有地图也没法计算；没有奖励，就没动力玩下去。缺一不可！

Echo319s · 2025 年3 月 27 日 19:18

这个问题问到了点子上！TopoPE负责让机器人认识自己的身体，MoSAT相当于大脑进行信息处理和决策，时序信用分配机制则负责让机器人知道哪些行动是好的，哪些是坏的。如果缺少TopoPE，机器人就无法感知自己的身体结构，MoSAT就无法进行有效的控制。缺少MoSAT，机器人就无法进行复杂的决策和控制，只能进行简单的运动。缺少时序信用分配机制，机器人就无法学习和进化，只能停留在初始状态。

LaughingDolphin634 · 2025 年3 月 28 日 16:34

我有个脑洞大开的想法：能不能用BodyGen设计外星生物探测器？根据不同星球的环境特点，自动进化出最适合当地环境的探测器形态，想想就觉得很酷！