ManipTrans:高效迁移人类双手操作技能至灵巧手,解锁机器人灵巧操作新高度

研究提出ManipTrans方法,高效迁移人类双手操作技能至灵巧手,并发布大规模灵巧手操作数据集DexManipNet。

原文标题:机器人也会挤牙膏?ManipTrans:高效迁移人类双手操作技能至灵巧手

原文作者:机器之心

冷月清谈:

北京通用人工智能研究院联合清华大学、北京大学的研究人员提出了一种名为ManipTrans的两阶段方法,旨在高效地将人类双手操作技能迁移至机器人灵巧手。该方法首先利用通用轨迹模仿器的预训练模型模仿人类手部动作,然后引入残差学习模块,结合基于物理的交互约束进行精细调整。研究团队还发布了大规模灵巧手操作数据集DexManipNet,涵盖了如盖笔帽、拧瓶盖等此前未曾深入探索的任务。实验结果表明,ManipTrans在单手和双手操作任务中均优于现有方法,并具备良好的跨本体迁移能力和处理复杂操作任务的潜力。

怜星夜思:

1、ManipTrans方法将动作模仿与物理约束解耦,这在提升机器人操作技能方面有什么优势?是否还有其他可以解耦的因素?
2、DexManipNet数据集的发布,对于机器人灵巧手操作研究有哪些重要的意义?你觉得未来这个数据集可以如何扩展或改进?
3、文章中提到ManipTrans方法可以应用于不同型号的灵巧手,这种跨本体迁移能力在实际应用中有什么价值?你认为实现通用的机器人操作技能还需要克服哪些挑战?

原文内容


研究团队由来自北京通用人工智能研究院(BIGAI)、清华大学和北京大学的跨专业研究者组成,致力于具身智能领域的前沿研究。团队成员在开发高效、智能的通用机器人技术,特别是机械灵巧手操作方面,拥有丰富的研究经验。一作为北京通用人工智能研究院研究员李恺林,其它作者为清华大学博士生李浦豪、北京通用人工智能研究院研究员刘腾宇、北京大学博士生李宇飏;通讯作者为北京通用人工智能研究院研究员黄思远。


近年来,具身智能领域发展迅猛,使机器人在复杂任务中拥有接近人类水平的双手操作能力,不仅具有重要的研究与应用价值,也是迈向通用人工智能的关键一步。


目前,数据驱动的具身智能算法仍需要精确、大规模且高度灵活的灵巧手动作序列。然而,传统的强化学习或真机遥操作方法通常难以高效获取此类数据。


为了解决这一问题,北京通用人工智能研究院联合清华大学、北京大学的研究人员提出了一种两阶段方法——ManipTrans,可在仿真环境中高效地将人类双手操作技能迁移至机器人灵巧手。



  • 论文地址:MANIPTRANS: Efficient Dexterous Bimanual Manipulation Transfer via Residual Learning

  • 论文链接:https://arxiv.org/pdf/2503.21860

  • 项目主页:https://maniptrans.github.io

  • 代码与数据集:https://github.com/ManipTrans/ManipTrans


ManipTrans 首先利用通用轨迹模仿器的预训练模型模仿人类手部动作;然后针对不同的操作技能,引入残差学习模块,结合基于物理的交互约束进行精细调整(如图 1 所示)。该方法将动作模仿与物理约束分离,使复杂的双手任务学习更加高效,执行更加精准。


基于 ManipTrans,研究团队同时发布了大规模灵巧手操作数据集 DexManipNet,涵盖了如盖笔帽、拧瓶盖等此前未曾深入探索的任务。


图片

1. 基于ManipTrans实现相同操作技能的跨型号灵巧手技能迁移


研究背景


人类双手在与环境交互中发挥着关键作用,这激发了对机器人灵巧手操作的广泛研究。如何快速获取大规模、精确且接近人类水平的灵巧手操作数据,已成为亟待解决的问题。


现有的基于强化学习的方法需要精心设计针对特定任务的奖励函数,这通常限制了任务的复杂性,并可能导致机器人动作的不自然;另一类基于遥操作的方法成本高昂、效率低下,且所采集的数据通常针对特定的本体,缺乏通用性。


目前,一种有潜力的解决方案是通过模仿学习,将人类的操作动作迁移到仿真环境中的灵巧手上,以生成自然的「手-物交互」。然而,实现精确且高效的迁移并非易事。由于人手和机器人手在形态上的差异,直接进行姿态重定向的效果并不理想。并且,尽管动作捕捉得到的数据相对准确,但在高精度任务中,误差的累积仍可能导致任务失败。此外,双手操作引入了高维度的动作空间,显著增加了高效策略学习的难度,因此,先前的大多数工作通常止步于单手的抓取任务。


研究方法


2. 本文提出的ManipTrans方法框架图


针对上述挑战,本文提出了一种简洁而有效的方法——ManipTrans(如图 2 所示),旨在实现操作技能,特别是双手协同技能,在仿真环境下从人手向机械灵巧手的迁移。核心思想是将迁移过程划分为两个阶段:第一阶段,实现手部运动的轨迹模仿;第二阶段,在满足物理交互约束的前提下,对动作进行微调。


具体而言,首先预训练一个通用模型,以准确模仿人类手指的运动;在此基础上,引入残差学习模块,对灵巧手的动作进行微调,着重针对以下两点:1)确保手指与物体表面的稳定接触;2)协调双手,保证复杂情况下双手操作的高精度和高保真执行。


本文将该问题建模为隐式马尔可夫决策过程(MDP),在两个阶段均采用 PPO 算法以最大化折扣回报。在第一阶段,设计奖励函数,约束灵巧手跟随参考的人手轨迹,同时确保动作的稳定性和平滑性。其中,手指模仿奖励函数「鼓励」灵巧手的关键点位置与人手保持一致,特别是与物体接触最频繁的拇指、食指和中指的指尖位置是否对齐,此设计有效解决了形态不一致的问题。


在第二阶段,残差模块输出动作的补偿项,通过与第一阶段的动作相加,实现微调。该模块额外考虑了以下信息:1)物体的质心位置和所受重力,以增强对力矩的感知;2)基于空间基点集(BPS)表示的物体形状;3)灵巧手关键点与物体的空间位置关系;4)仿真环境提供的指尖接触力。第二阶段特别加入了接触力奖励函数,鼓励更加稳定的手物接触。在训练过程中,引入了随机参考状态初始化和课程学习策略,提高了收敛速度和训练稳定性。


综上,ManipTrans 的设计在第一阶段缓解人手与灵巧手之间的形态差异,在第二阶段捕捉细微的交互动作。通过将手指模仿与物理交互约束解耦,显著降低了动作空间的复杂度,同时提升了训练效率。本文在一系列复杂的单手和双手操作任务中,验证了该方法的有效性和高效性,任务甚至涵盖了铰链物体的操作。为评估该方法的泛化能力,本文进行了跨本体的实验,验证了 ManipTrans 可应用于具有不同自由度和形态的灵巧手,无需额外参数调节。此外,基于 ManipTrans 方法得到的双手操作数据,也在真机部署中得到了验证。


DexManipNet 数据集


图片

3灵巧手白板写字


图片

4双手舀取物体


基于 ManipTrans 方法,本研究将两个大型「手-物交互」数据集(OakInk V2 和 FAVOR)迁移至灵巧手,构建了 DexManipNet 数据集。该数据集涵盖了 61 种具有挑战性的任务,包含对 1200 多件物体的 3300 条灵巧手操作序列,总计约 134 万帧的数据量。其中,约有 600 个序列涉及复杂的双手操作任务(如图 3、图 4 所示),充分展示了机器人在高难度操作场景下的能力。


图片

5灵巧手拨开牙膏盖


图片

6双手协同完成倾倒入试管操作


此外,研究人员在真机平台上重放(replay)了 DexManipNet 的数据轨迹,使用了两台有 7 个自由度的机械臂和一对灵巧手,部署结果展示了此前未曾实现的精细灵巧操作能力。例如,在「拨开牙膏盖」的任务中,左手稳固握持牙膏管,右手的拇指和食指灵巧地拨开小巧的牙膏盖,这些细微而复杂的动作往往难以通过遥操作精确捕捉(如图 5、图 6 所示)。


实验结果


1. ManipTrans基线方法定量对比


本文将 ManipTrans 与两大类现有方法——基于强化学习的方法和基于优化的方法,进行了对比评估。结果显示,ManipTrans 在各项指标上均优于基线方法,展现了在单手和双手操作任务中的高精度(如表 1 所示)。定性和定量分析证实了,ManipTrans 的两阶段迁移框架能够有效捕捉手指的细微运动并与物体的交互,提高了任务成功率和运动的真实感。


7跨本体迁移实验


8双手操作铰链物体

此外,研究展示了 ManipTrans 在不同型号灵巧手上的可扩展性。该框架仅依赖人类手指与灵巧手关键点之间的对应关系,无需过多参数调整即可适配不同形态和自由度的灵巧手(如图 7 所示)。文章还在铰链物体操作数据集 ARCTIC 上进行了验证。通过对奖励函数的微调,添加铰链物体运动角度奖励,成功实现了灵巧手对铰链物体的指定角度旋转操作(如图 8 所示),展现了 ManipTrans 方法在复杂操作任务中的潜力。


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

跨本体迁移能力意味着算法对硬件的依赖性降低,这在实际应用中非常重要。因为不同的应用场景可能需要不同的灵巧手,如果算法只能在特定的硬件平台上运行,那应用范围就会受到很大的限制。要实现通用的机器人操作技能,我觉得最大的挑战在于如何处理环境的不确定性和复杂性。真实环境是千变万化的,光照、噪声、物体形状、物理特性等等都可能影响机器人的操作。我们需要开发更鲁棒、更适应性强的算法,才能让机器人在真实环境中胜任各种任务。

数据集的价值在于其规模和多样性。DexManipNet包含了大量真实的灵巧手操作数据,涵盖了各种复杂的任务,这为研究者提供了宝贵的资源。但是,目前的数据主要集中在仿真环境,与真实环境还有一定的差距。未来可以考虑增加真实环境的数据,例如,通过遥操作或众包的方式收集数据。另外,可以考虑引入一些评估指标,例如,操作时间和成功率等,方便研究者进行更全面的评估。

谢邀,人在实验室,刚搬完砖。(苦笑)跨本体迁移确实很实用,毕竟不是每个实验室都买得起同款灵巧手的。但我觉得更重要的是,这种能力意味着算法学习到的是更本质的东西,而不是仅仅记住一些特定的参数。要实现通用的机器人操作技能,我认为需要解决以下几个问题:1. 如何表示和学习操作技能?现在很多算法都是基于特定的任务和环境设计的,缺乏通用性。2. 如何进行有效的探索和学习?强化学习虽然强大,但在高维空间中探索效率仍然很低。3. 如何保证安全性和可靠性?机器人在真实环境中操作可能会带来安全隐患,需要采取一些保护措施。

同意楼上的观点,解耦确实能降低复杂度,而且模仿学习可以提供一个比较接近人类操作的初始策略,在此基础上再进行物理约束的优化,可以避免exploration的困难。不过,这种方法也存在一定的局限性,比如,如果人类的demonstration本身就不是最优的,那么机器人也可能学到次优的策略。至于其他的解耦因素,我认为可以将任务目标和具体动作解耦。例如,对于“拧瓶盖”这个任务,任务目标是“瓶盖被拧紧”,而具体动作可以是多种多样的,例如,顺时针旋转、逆时针旋转等等。通过将任务目标和具体动作解耦,可以提高机器人的灵活性和创造性。

我就想问,这个数据集啥时候开源啊?(手动狗头)认真说,这个数据集如果能开源,绝对能推动整个领域的发展。现在大家做研究,数据获取成本太高了,有了这个数据集,大家就可以把精力集中在算法的创新上。希望未来可以增加更多corner case的数据,例如,物体被遮挡、光照变化等,以及增加一些对抗性的样本,提高算法的防御能力。

我觉得跨本体迁移的价值在于降低了开发成本和部署难度。如果一个算法可以在多种灵巧手上运行,那就可以避免为每种硬件单独开发算法,从而节省大量的时间和精力。要实现通用的机器人操作技能,除了环境的不确定性,还需要克服认知和推理的挑战。机器人需要能够理解任务目标,知道“为什么要做”,而不是仅仅执行预定的动作。我们需要让机器人具有一定的思考能力,才能更好地完成复杂的任务。

DexManipNet的意义在于提供了一个benchmark,让大家可以在同一个平台上比较不同的算法。之前很多研究都是在自己定义的环境和任务下进行的,很难进行公平的比较。此外,这个数据集涵盖了多种操作任务和物体,可以促进算法的泛化能力。未来可以考虑增加更多模态的数据,例如力觉、触觉等,以及增加噪声和干扰,提高算法的鲁棒性。

谢邀,利益相关,略懂皮毛。解耦模仿和物理约束其实是一种trade-off。模仿学习能快速学到人类的先验知识,但可能陷入局部最优;物理约束保证了动作的合理性,但可能限制了探索空间。更好的做法可能是动态调整两者的权重,前期侧重模仿,后期侧重物理约束。至于其他解耦方向,可以考虑将长期规划和短期控制解耦。长期规划负责制定任务目标和策略,短期控制负责执行具体动作。这样可以避免机器人在复杂任务中迷失方向。

我觉得解耦动作模仿和物理约束最大的好处是降低了问题的复杂度。模仿学习负责提供一个大致的动作框架,让机器人知道“应该怎么做”,而物理约束则确保动作的合理性和稳定性,避免出现违反物理规律的情况。这种分而治之的策略,使得训练过程更加高效,也更容易泛化到新的任务。至于其他可以解耦的因素,我认为可以将视觉感知和动作执行解耦。让机器人先通过视觉感知理解环境,然后再根据环境信息规划动作,这样可以提高机器人的适应性和鲁棒性。