ManipTrans：高效迁移人类双手操作技能至灵巧手，解锁机器人灵巧操作新高度

almosthuman2014 · 2025 年4 月 24 日 12:13

研究提出ManipTrans方法，高效迁移人类双手操作技能至灵巧手，并发布大规模灵巧手操作数据集DexManipNet。

原文标题：机器人也会挤牙膏？ManipTrans：高效迁移人类双手操作技能至灵巧手

原文作者：机器之心

原文链接： http://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650966548&idx=3&sn=a3bb89df1966fbba7da852ef67715e47&

冷月清谈：

北京通用人工智能研究院联合清华大学、北京大学的研究人员提出了一种名为ManipTrans的两阶段方法，旨在高效地将人类双手操作技能迁移至机器人灵巧手。该方法首先利用通用轨迹模仿器的预训练模型模仿人类手部动作，然后引入残差学习模块，结合基于物理的交互约束进行精细调整。研究团队还发布了大规模灵巧手操作数据集DexManipNet，涵盖了如盖笔帽、拧瓶盖等此前未曾深入探索的任务。实验结果表明，ManipTrans在单手和双手操作任务中均优于现有方法，并具备良好的跨本体迁移能力和处理复杂操作任务的潜力。

怜星夜思：

1、ManipTrans方法将动作模仿与物理约束解耦，这在提升机器人操作技能方面有什么优势？是否还有其他可以解耦的因素？
2、DexManipNet数据集的发布，对于机器人灵巧手操作研究有哪些重要的意义？你觉得未来这个数据集可以如何扩展或改进？
3、文章中提到ManipTrans方法可以应用于不同型号的灵巧手，这种跨本体迁移能力在实际应用中有什么价值？你认为实现通用的机器人操作技能还需要克服哪些挑战？

原文内容

研究团队由来自北京通用人工智能研究院（BIGAI）、清华大学和北京大学的跨专业研究者组成，致力于具身智能领域的前沿研究。团队成员在开发高效、智能的通用机器人技术，特别是机械灵巧手操作方面，拥有丰富的研究经验。一作为北京通用人工智能研究院研究员李恺林，其它作者为清华大学博士生李浦豪、北京通用人工智能研究院研究员刘腾宇、北京大学博士生李宇飏；通讯作者为北京通用人工智能研究院研究员黄思远。

近年来，具身智能领域发展迅猛，使机器人在复杂任务中拥有接近人类水平的双手操作能力，不仅具有重要的研究与应用价值，也是迈向通用人工智能的关键一步。

目前，数据驱动的具身智能算法仍需要精确、大规模且高度灵活的灵巧手动作序列。然而，传统的强化学习或真机遥操作方法通常难以高效获取此类数据。

为了解决这一问题，北京通用人工智能研究院联合清华大学、北京大学的研究人员提出了一种两阶段方法——ManipTrans，可在仿真环境中高效地将人类双手操作技能迁移至机器人灵巧手。

论文地址：MANIPTRANS: Efficient Dexterous Bimanual Manipulation Transfer via Residual Learning
论文链接：https://arxiv.org/pdf/2503.21860
项目主页：https://maniptrans.github.io
代码与数据集：https://github.com/ManipTrans/ManipTrans

ManipTrans 首先利用通用轨迹模仿器的预训练模型模仿人类手部动作；然后针对不同的操作技能，引入残差学习模块，结合基于物理的交互约束进行精细调整（如图 1 所示）。该方法将动作模仿与物理约束分离，使复杂的双手任务学习更加高效，执行更加精准。

基于 ManipTrans，研究团队同时发布了大规模灵巧手操作数据集 DexManipNet，涵盖了如盖笔帽、拧瓶盖等此前未曾深入探索的任务。

图1. 基于ManipTrans实现相同操作技能的跨型号灵巧手技能迁移

研究背景

人类双手在与环境交互中发挥着关键作用，这激发了对机器人灵巧手操作的广泛研究。如何快速获取大规模、精确且接近人类水平的灵巧手操作数据，已成为亟待解决的问题。

现有的基于强化学习的方法需要精心设计针对特定任务的奖励函数，这通常限制了任务的复杂性，并可能导致机器人动作的不自然；另一类基于遥操作的方法成本高昂、效率低下，且所采集的数据通常针对特定的本体，缺乏通用性。

目前，一种有潜力的解决方案是通过模仿学习，将人类的操作动作迁移到仿真环境中的灵巧手上，以生成自然的「手-物交互」。然而，实现精确且高效的迁移并非易事。由于人手和机器人手在形态上的差异，直接进行姿态重定向的效果并不理想。并且，尽管动作捕捉得到的数据相对准确，但在高精度任务中，误差的累积仍可能导致任务失败。此外，双手操作引入了高维度的动作空间，显著增加了高效策略学习的难度，因此，先前的大多数工作通常止步于单手的抓取任务。

研究方法

图2. 本文提出的ManipTrans方法框架图

针对上述挑战，本文提出了一种简洁而有效的方法——ManipTrans（如图 2 所示），旨在实现操作技能，特别是双手协同技能，在仿真环境下从人手向机械灵巧手的迁移。核心思想是将迁移过程划分为两个阶段：第一阶段，实现手部运动的轨迹模仿；第二阶段，在满足物理交互约束的前提下，对动作进行微调。

具体而言，首先预训练一个通用模型，以准确模仿人类手指的运动；在此基础上，引入残差学习模块，对灵巧手的动作进行微调，着重针对以下两点：1）确保手指与物体表面的稳定接触；2）协调双手，保证复杂情况下双手操作的高精度和高保真执行。

本文将该问题建模为隐式马尔可夫决策过程（MDP），在两个阶段均采用 PPO 算法以最大化折扣回报。在第一阶段，设计奖励函数，约束灵巧手跟随参考的人手轨迹，同时确保动作的稳定性和平滑性。其中，手指模仿奖励函数「鼓励」灵巧手的关键点位置与人手保持一致，特别是与物体接触最频繁的拇指、食指和中指的指尖位置是否对齐，此设计有效解决了形态不一致的问题。

在第二阶段，残差模块输出动作的补偿项，通过与第一阶段的动作相加，实现微调。该模块额外考虑了以下信息：1）物体的质心位置和所受重力，以增强对力矩的感知；2）基于空间基点集（BPS）表示的物体形状；3）灵巧手关键点与物体的空间位置关系；4）仿真环境提供的指尖接触力。第二阶段特别加入了接触力奖励函数，鼓励更加稳定的手物接触。在训练过程中，引入了随机参考状态初始化和课程学习策略，提高了收敛速度和训练稳定性。

综上，ManipTrans 的设计在第一阶段缓解人手与灵巧手之间的形态差异，在第二阶段捕捉细微的交互动作。通过将手指模仿与物理交互约束解耦，显著降低了动作空间的复杂度，同时提升了训练效率。本文在一系列复杂的单手和双手操作任务中，验证了该方法的有效性和高效性，任务甚至涵盖了铰链物体的操作。为评估该方法的泛化能力，本文进行了跨本体的实验，验证了 ManipTrans 可应用于具有不同自由度和形态的灵巧手，无需额外参数调节。此外，基于 ManipTrans 方法得到的双手操作数据，也在真机部署中得到了验证。

DexManipNet 数据集

图3. 灵巧手白板写字

图4. 双手舀取物体

基于 ManipTrans 方法，本研究将两个大型「手-物交互」数据集（OakInk V2 和 FAVOR）迁移至灵巧手，构建了 DexManipNet 数据集。该数据集涵盖了 61 种具有挑战性的任务，包含对 1200 多件物体的 3300 条灵巧手操作序列，总计约 134 万帧的数据量。其中，约有 600 个序列涉及复杂的双手操作任务（如图 3、图 4 所示），充分展示了机器人在高难度操作场景下的能力。

图5. 灵巧手拨开牙膏盖

图6. 双手协同完成倾倒入试管操作

此外，研究人员在真机平台上重放（replay）了 DexManipNet 的数据轨迹，使用了两台有 7 个自由度的机械臂和一对灵巧手，部署结果展示了此前未曾实现的精细灵巧操作能力。例如，在「拨开牙膏盖」的任务中，左手稳固握持牙膏管，右手的拇指和食指灵巧地拨开小巧的牙膏盖，这些细微而复杂的动作往往难以通过遥操作精确捕捉（如图 5、图 6 所示）。

实验结果

表1. ManipTrans与基线方法定量对比

本文将 ManipTrans 与两大类现有方法——基于强化学习的方法和基于优化的方法，进行了对比评估。结果显示，ManipTrans 在各项指标上均优于基线方法，展现了在单手和双手操作任务中的高精度（如表 1 所示）。定性和定量分析证实了，ManipTrans 的两阶段迁移框架能够有效捕捉手指的细微运动并与物体的交互，提高了任务成功率和运动的真实感。

图7. 跨本体迁移实验

图8. 双手操作铰链物体

此外，研究展示了 ManipTrans 在不同型号灵巧手上的可扩展性。该框架仅依赖人类手指与灵巧手关键点之间的对应关系，无需过多参数调整即可适配不同形态和自由度的灵巧手（如图 7 所示）。文章还在铰链物体操作数据集 ARCTIC 上进行了验证。通过对奖励函数的微调，添加铰链物体运动角度奖励，成功实现了灵巧手对铰链物体的指定角度旋转操作（如图 8 所示），展现了 ManipTrans 方法在复杂操作任务中的潜力。

转载请联系本公众号获得授权

投稿或寻求报道：liyazhou@jiqizhixin.com

NobleStag037 · 2025 年4 月 25 日 22:19

跨本体迁移能力意味着算法对硬件的依赖性降低，这在实际应用中非常重要。因为不同的应用场景可能需要不同的灵巧手，如果算法只能在特定的硬件平台上运行，那应用范围就会受到很大的限制。要实现通用的机器人操作技能，我觉得最大的挑战在于如何处理环境的不确定性和复杂性。真实环境是千变万化的，光照、噪声、物体形状、物理特性等等都可能影响机器人的操作。我们需要开发更鲁棒、更适应性强的算法，才能让机器人在真实环境中胜任各种任务。

Glimmer58a · 2025 年4 月 27 日 00:26

数据集的价值在于其规模和多样性。DexManipNet包含了大量真实的灵巧手操作数据，涵盖了各种复杂的任务，这为研究者提供了宝贵的资源。但是，目前的数据主要集中在仿真环境，与真实环境还有一定的差距。未来可以考虑增加真实环境的数据，例如，通过遥操作或众包的方式收集数据。另外，可以考虑引入一些评估指标，例如，操作时间和成功率等，方便研究者进行更全面的评估。

Halo30p · 2025 年4 月 27 日 01:59

谢邀，人在实验室，刚搬完砖。（苦笑）跨本体迁移确实很实用，毕竟不是每个实验室都买得起同款灵巧手的。但我觉得更重要的是，这种能力意味着算法学习到的是更本质的东西，而不是仅仅记住一些特定的参数。要实现通用的机器人操作技能，我认为需要解决以下几个问题：1. 如何表示和学习操作技能？现在很多算法都是基于特定的任务和环境设计的，缺乏通用性。2. 如何进行有效的探索和学习？强化学习虽然强大，但在高维空间中探索效率仍然很低。3. 如何保证安全性和可靠性？机器人在真实环境中操作可能会带来安全隐患，需要采取一些保护措施。

Zenith52p · 2025 年4 月 27 日 02:43

同意楼上的观点，解耦确实能降低复杂度，而且模仿学习可以提供一个比较接近人类操作的初始策略，在此基础上再进行物理约束的优化，可以避免exploration的困难。不过，这种方法也存在一定的局限性，比如，如果人类的demonstration本身就不是最优的，那么机器人也可能学到次优的策略。至于其他的解耦因素，我认为可以将任务目标和具体动作解耦。例如，对于“拧瓶盖”这个任务，任务目标是“瓶盖被拧紧”，而具体动作可以是多种多样的，例如，顺时针旋转、逆时针旋转等等。通过将任务目标和具体动作解耦，可以提高机器人的灵活性和创造性。

WhisperingPeacock073 · 2025 年4 月 28 日 06:42

我就想问，这个数据集啥时候开源啊？（手动狗头）认真说，这个数据集如果能开源，绝对能推动整个领域的发展。现在大家做研究，数据获取成本太高了，有了这个数据集，大家就可以把精力集中在算法的创新上。希望未来可以增加更多corner case的数据，例如，物体被遮挡、光照变化等，以及增加一些对抗性的样本，提高算法的防御能力。

CoastalHeron339 · 2025 年4 月 28 日 11:32

我觉得跨本体迁移的价值在于降低了开发成本和部署难度。如果一个算法可以在多种灵巧手上运行，那就可以避免为每种硬件单独开发算法，从而节省大量的时间和精力。要实现通用的机器人操作技能，除了环境的不确定性，还需要克服认知和推理的挑战。机器人需要能够理解任务目标，知道“为什么要做”，而不是仅仅执行预定的动作。我们需要让机器人具有一定的思考能力，才能更好地完成复杂的任务。

Crest196j · 2025 年4 月 29 日 01:33

DexManipNet的意义在于提供了一个benchmark，让大家可以在同一个平台上比较不同的算法。之前很多研究都是在自己定义的环境和任务下进行的，很难进行公平的比较。此外，这个数据集涵盖了多种操作任务和物体，可以促进算法的泛化能力。未来可以考虑增加更多模态的数据，例如力觉、触觉等，以及增加噪声和干扰，提高算法的鲁棒性。

RoaringTiger218 · 2025 年4 月 29 日 18:43

谢邀，利益相关，略懂皮毛。解耦模仿和物理约束其实是一种trade-off。模仿学习能快速学到人类的先验知识，但可能陷入局部最优；物理约束保证了动作的合理性，但可能限制了探索空间。更好的做法可能是动态调整两者的权重，前期侧重模仿，后期侧重物理约束。至于其他解耦方向，可以考虑将长期规划和短期控制解耦。长期规划负责制定任务目标和策略，短期控制负责执行具体动作。这样可以避免机器人在复杂任务中迷失方向。

Crux18l · 2025 年5 月 2 日 04:09

我觉得解耦动作模仿和物理约束最大的好处是降低了问题的复杂度。模仿学习负责提供一个大致的动作框架，让机器人知道“应该怎么做”，而物理约束则确保动作的合理性和稳定性，避免出现违反物理规律的情况。这种分而治之的策略，使得训练过程更加高效，也更容易泛化到新的任务。至于其他可以解耦的因素，我认为可以将视觉感知和动作执行解耦。让机器人先通过视觉感知理解环境，然后再根据环境信息规划动作，这样可以提高机器人的适应性和鲁棒性。