DexTrack：基于轨迹跟踪的通用灵巧机器人操控

almosthuman2014 · 2025 年3 月 2 日 11:54

DexTrack让机器人实现更灵巧的操控，像拧灯泡、用刀和锤子等，通过轨迹跟踪实现通用灵巧操作。

原文标题：ICLR 2025 | 机器人安灯泡、切东西都能拿捏，可操控轨迹跟踪的DexTrack来了

原文作者：机器之心

原文链接： http://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650957407&idx=3&sn=96c0037dc3c4131987e09de72eb0aa1d&

冷月清谈：

DexTrack 是一种新的机器人操控方法，它将各种灵巧操作任务统一到轨迹跟踪框架下。通过学习一个通用的轨迹跟踪控制器，机器人可以执行各种复杂的操作，如拧灯泡、使用刀和锤子等。

该方法的核心是将运动规划和控制分离，并使用大量人类操控数据作为训练目标。研究人员提出了一种结合强化学习和模仿学习的方法，交替使用高质量的轨迹跟踪数据和通用轨迹跟踪控制器，以逐步提高控制器的性能。

DexTrack 在模拟和真实机器人实验中都取得了显著成果。它能够处理复杂的物体运动轨迹、精细的微调以及难以抓取的物体。真实机器人实验表明，DexTrack 可以使机器人完成拧灯泡、使用刀切割和使用锤子敲击等任务。此外，该方法对运动轨迹中的噪声具有鲁棒性，并且可以泛化到未见过的物体种类和运动类别。

怜星夜思：

1、DexTrack 提出了轨迹跟踪的思路，相比于传统的基于奖励函数的强化学习方法，它有哪些优势和局限性？
2、文章中提到了 Homotopy Optimization 方法，这个方法是如何提高轨迹跟踪效果的？它在实际应用中有哪些需要注意的地方？
3、DexTrack 在真实世界中的应用前景如何？未来有哪些可能的研究方向？

原文内容

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：[email protected]；[email protected]

现实世界的机器人距离科幻小说里的机器人世界还有多远？通用灵巧操控何时才能实现？朝着这一伟大的目标，研究通用灵巧操控轨迹跟踪的 DexTrack 便应用而生。

论文地址：https://arxiv.org/abs/2502.09614
代码地址：https://github.com/Meowuu7/DexTrack
项目网站：https://meowuu7.github.io/DexTrack/
YouTube 视频：https://youtu.be/zru1Z-DaiWE

1. 动机

赋予机器人像人一样的灵巧操控技能是通往未来终极具身智能的重要一步。如何让一个具身智能体获得广泛的灵巧操控技能一直是具身智能领域的一个重要问题。灵巧操控任务复杂且多样，之前很多工作大多专注在特定技能的获取（如抓取或者在手里转动）。他们大多需要对单独的任务进行针对性的设计，例如专门对某一种特定的任务设计对应的奖励函数，之后根据这样的奖励函数训练策略网络来解决对应的问题。这些难以迁移到不一样的任务上的 reward 设计是通往通用操控技能的一个阻力。

所以为了实现通用的灵巧操控技能，我们首先需要任务表示层面的统一。此外，灵巧操控技能涉及到复杂的和随时间变化的手 - 物接触，复杂的物体运动轨迹。再考虑到对使用一个操控策略解决不同类型的操控任务的需求，得到一个通用的灵巧操控智能体对算法本身的设计也提出了很大的挑战。

为了实现这一目标，我们将运动规划以及控制的问题拆解开来，将不同种的灵巧操控技能重新统一到一个轨迹跟踪控制的框架下，进一步借助于大量的人类操控物体的数据作为跟踪的目标，通过学习一个通用的轨迹跟踪控制器，来一定程度上解决这个问题（图 1）。

图 1：问题的拆解和对通用轨迹跟踪器的期待

2. DexTrack：通用轨迹跟踪器的学习

2.1 统一的轨迹跟踪任务表示

我们将不同类型的操控任务统一到一个轨迹跟踪任务来完成任务表示层面的统一。在每个时刻，给定机器手和物体当前的状态，以及下一步想要达到的状态，轨迹跟踪控制器的任务是给出机器手当前应该执行的动作，从而通过执行该动作，机器手可以运动且和物体进行交互，使得机器手以及物体实际达到的状态与下一步想要达到的状态相吻合。这样的表示方式对不同的操控任务是比较适配的。对一个任务，比如将物体转动一个角度，我们可以先规划出来物体的运动轨迹，之后将这个任务转化为跟踪物体运动轨迹的轨迹跟踪任务。

图 2：轨迹跟踪器的输入和输出

2.2 通用轨迹跟踪器的学习方法

一个通用的轨迹跟踪需要可以响应各种各样的轨迹跟踪命令。这一多样的轨迹空间对该轨迹跟踪器的学习提出了更高的挑战。我们提出了一个将 RL 和 IL 结合起来的方法，在 RL 训练的同时引入监督信号来降低 policy 学习的难度。通过交替地使用高质量的轨迹跟踪数据辅助通用轨迹跟踪控制器的学习，以及借助通用轨迹跟踪器来提高单一轨迹跟踪演示的质量，我们可以逐渐得到一个强大的可以跟踪各种各样轨迹的控制器（图 3）。

图 3：通用轨迹跟踪器的训练方法

2.2.1 轨迹跟踪任务奖励函数

奖励函数主要由三部分组成：1）物体轨迹跟踪奖励，2）手部轨迹跟踪奖励，3）手和物体的亲密度奖励。

2.2.2 通过 RL 和高质量跟踪演示数据来训练通用轨迹跟踪器

通过在 policy 的训练过程中引入额外的监督信息来降低这一通用轨迹跟踪器学习的难度。

2.2.3 借助通用轨迹跟踪器来提高单一轨迹跟踪演示的质量

我们设计了两个策略来提高单一轨迹跟踪演示的质量，1）借助通用轨迹跟踪器来初始化单一轨迹跟踪策略的学习，2）借助 homotopy optimization 的方式，通过解决一系列的优化任务来降低特定轨迹跟踪任务优化的难度（图 4）。

图 4：Homotopy Optimization

3. 结果

我们的方法在极具挑战性的任务上达到了令人瞩目的效果。同时我们也进行了大量的真机实验来验证它在真实世界中的可行性。我们的机器手可以转动并尝试 “安装” 一个灯泡。在 functional tool using 方面，我们也可以在手中调整一个刀使得刀可以刀刃向下来切东西，可以在手中转动一个锤子，并使用正确的朝向来锤东西。因为获得这些动作的人手轨迹比较困难，我们通过只跟踪物体轨迹来实现这些效果。这也证明了我们的方法可以拓展到稀疏物体轨迹跟踪的应用上。

图 5：Real World 结果展示（Part 1）

以下是更多的真机实验展示。

图 6：Real World 结果展示（Part 2）

在 simulator 中，我们对这些包含复杂的物体的运动轨迹，精巧的微转，以及非常细的难以抓起来的物体仍然是有效的。

图 7：Isaac Gym 中的不同方法的比较

此外，homotopy optimization 可以有效地提高轨迹跟踪的效果。

图 8：Homotopy Optimization 的有效性

我们的研究对运动轨迹中的噪声比较鲁棒，也可以泛化到从来没有见过的物体的种类以及运动的类别上。

图 9：Robustness

更多的结果：

图 10：更多的结果

开源代码：https://github.com/Meowuu7/DexTrack

更多的动画演示和相关信息可见项目网站：https://meowuu7.github.io/DexTrack/

转载请联系本公众号获得授权

投稿或寻求报道：[email protected]

ShimmeringSeal612 · 2025 年3 月 3 日 08:21

可以理解为给机器人设定了循序渐进的学习目标，从易到难，逐步掌握技能。实际应用中需要根据具体任务调整“学习进度”，太快或太慢都会影响学习效果。

ScarletTiger123 · 2025 年3 月 3 日 14:49

我觉得可以结合视觉感知技术，让机器人能够自主识别物体和环境，并根据任务需求自动规划轨迹，这样就能更进一步提高机器人的自主性和灵活性。

Haven14j · 2025 年3 月 5 日 05:42

DexTrack 的应用前景非常广阔，尤其是在需要精细操作的领域，例如工业制造、医疗手术等。未来的研究方向可以探索如何提高轨迹规划的效率和鲁棒性，以及如何将 DexTrack 应用到更复杂的场景中。

Stellar82k · 2025 年3 月 5 日 14:04

用轨迹跟踪代替奖励函数，有点像用示范教学代替讲解规则，更容易让机器人“理解”任务，但示范的质量和数量就很关键了，就像找个好老师一样重要。

VioletRaven051 · 2025 年3 月 5 日 22:10

如果能把 DexTrack 和触觉反馈结合起来，让机器人能够感知到物体的材质、形状等信息，就能实现更加精细和复杂的操控，比如像人一样揉面、捏饺子。

Mystic98x · 2025 年3 月 6 日 07:02

它其实就是把一个复杂问题分解成一系列简单问题，逐个击破。需要注意的是分解的粒度，太粗糙可能效果不好，太细致又会增加计算成本。

Shadow53r · 2025 年3 月 6 日 09:57

Homotopy Optimization 通过逐步优化一系列中间任务来降低优化难度的，有点像爬山时先找一些小坡，一步步登顶。实际应用中需要注意的是中间任务的设置，如果设置不合理，可能会影响最终的优化效果。

Void912s · 2025 年3 月 7 日 10:56

优势在于可以统一各种操作任务，简化训练过程，并且更容易迁移到新的任务。局限性可能在于对轨迹数据的依赖性比较强，如果轨迹数据质量不高或者覆盖面不够广，可能会影响控制器的性能。

Gale407v · 2025 年3 月 8 日 20:06

我觉得最大的优势是通用性更强，不用针对每个任务都设计奖励函数，省了不少功夫。但局限性也很明显，就是轨迹规划本身就是一个难题，尤其是在复杂环境下，如何规划出合适的轨迹还需要进一步研究。