DexSinGrasp:基于强化学习的灵巧手杂乱环境物体分离与抓取统一策略

新加坡国立大学提出DexSinGrasp,一种基于强化学习的统一策略,提升灵巧手在杂乱环境中分离和抓取物体的效率与成功率。

原文标题:面对杂乱场景,灵巧手也能从容应对!NUS邵林团队发布DexSinGrasp基于强化学习实现物体分离与抓取统一策略

原文作者:机器之心

冷月清谈:

新加坡国立大学邵林团队提出了 DexSinGrasp,一种基于强化学习的统一策略,旨在解决灵巧手在杂乱环境中高效分离和抓取物体的问题。该方法将物体分离与抓取任务整合,通过统一的强化学习框架,使灵巧手能够自适应调整策略,提高抓取成功率和效率。主要贡献包括:提出统一强化学习策略,实现灵巧手在杂乱环境中对物体的有效分离和抓取;融入杂乱环境课程学习以提升不同场景下的策略性能,并通过策略蒸馏获得适用于实际部署的视觉抓取策略;设计一系列不同难度与排列的杂乱抓取任务,通过大量实验验证了该方法的高效性与有效性。该方法通过分段式奖励函数,整合“分离障碍”和“抓取目标”,实现连续的动作决策。同时,引入课程学习机制,从简单到复杂逐步训练,提高策略的稳定性和泛化性能。并通过教师—学生策略蒸馏,将仿真环境中学到的策略迁移到真实场景,实现高效的杂乱环境物体分离与抓取。

怜星夜思:

1、DexSinGrasp 的策略蒸馏方案是如何平衡仿真环境的理想条件与真实世界的复杂性的?在实际应用中,这种平衡可能会遇到哪些挑战?
2、在物流,生产或者日常场景中,如果目标物体被完全遮挡,该方案如何改进才能实现抓取?
3、文中的“杂乱环境课程学习”机制,从简单到复杂的训练方式,对提升策略的泛化性能起到了关键作用。那么,在实际应用中,如何设计更有效的课程,以适应不同场景和任务的需求?

原文内容


本文的作者均来自新加坡国立大学 LinS Lab。本文的共同第一作者为新加坡国立大学实习生许立昕和博士生刘子轩,主要研究方向为机器人学习和灵巧操纵,其余作者分别为硕士生桂哲玮、实习生郭京翔、江泽宇以及博士生徐志轩、高崇凯。本文的通讯作者为新加坡国立大学助理教授邵林。


在物流仓库、生产线或家庭场景中,机器人常常需要在大量杂乱摆放的物体中高效地抓取目标。


在这些场景中,如果使用机械夹爪,由于其自由度有限、灵活性不足,需要多次对场景进行操作;而高自由度的灵巧手虽然具有潜在优势,但因控制复杂和训练难度大,在密集遮挡与复杂排列场景下往往表现不佳。


现有方法常采用先分离、后抓取的策略,存在策略切换不够灵活,执行效率低下的问题。


为解决这一挑战,来自新加坡国立大学的邵林团队提出了 DexSinGrasp——一种基于强化学习的统一策略,通过整合物体分离与抓取任务,令灵巧手在杂乱环境中能够自适应调整分离与抓取策略,显著提高抓取成功率和操作效率。该项研究已投稿至 IROS 2025。



  • 论文标题:DexSinGrasp: Learning a Unified Policy for Dexterous Object Singulation and Grasping in Cluttered Environments
  • 论文链接:https://arxiv.org/abs/2504.04516
  • 项目主页:https://nus-lins-lab.github.io/dexsingweb/
  • 代码链接:https://github.com/davidlxu/DexSinGrasp

为了让机器人在多变杂乱环中高效分离物体并抓取目标,DexSinGrasp 提出了「统一策略」的设计。该方法通过强化学习构建了一体化的策略框架,实现了「分离—抓取」动作的无缝衔接。该项研究的主要贡献有:


  • 统一强化学习策略:提出一种统一的强化学习策略,实现灵巧手在杂乱环境中对物体的有效分离和抓取。

  • 课程学习与策略蒸馏:融入杂乱环境课程学习以提升不同场景下的策略性能,并通过策略蒸馏获得适用于实际部署的视觉抓取策略。

  • 多难度抓取任务设计:设计一系列不同难度与排列的杂乱抓取任务,通过大量实验验证所提方法的高效性与有效性。


方法

统一强化学习策略

DexSinGrasp 的核心在于构建一个统一的策略框架,引入分离奖励项,将「分离障碍」、「抓取目标」整合为一个连续的动作决策过程,充分利用了分离与抓取融合的优势,避免传统多阶段方法中各模块间效率低下和动作衔接不畅的问题。为此,我们设计了一个分段式奖励函数,其关键组成包括:



  • 接近奖励:奖励项图片引导手掌和手指在初始阶段向目标物体靠近,从而确保机器人迅速定位目标。

  • 抬升与目标对齐奖励:在目标接触后,奖励项图片鼓励机器人将物体抬升至预设位置,实现准确对齐。

  • 分离奖励:通过奖励项图片,使机器人在抓取过程中主动推动、滑动或轻推周围障碍物,从而为抓取创造足够空间。

奖励函数依据手掌与手指到目标物体的距离图片来自动转换,从「接近」阶段逐步过渡到「抓取」阶段,使整个过程更加平滑和高效。该统一策略不仅提升了训练样本的利用效率,还使机器人能根据实时场景动态选择微调指尖、轻推障碍或直接抓取,从而在杂乱环境下实现稳定的抓取操作。


杂乱环境课程学习

在高度杂乱的场景中直接训练机器人往往容易陷入局部最优,导致成功率低下。为此,我们引入了「杂乱环境课程学习」的机制,具体包括:


  • 任务分级设计:从最简单的单目标抓取任务开始,逐步引入障碍物。我们设计了不同难度的任务,例如:

    • 密集排列任务:用 D-4、D-6、D-8 表示,不同数字代表环境中障碍物数量的递增;

    • 随机排列任务:用 R-4、R-6、R-8 表示,以验证策略在非规则分布场景下的泛化能力。

  • 循序渐进训练:先在障碍物较少且排列较规则的环境中训练出初步策略,然后逐步过渡到障碍物数量更多、排列更随机的复杂场景。这样的训练策略能显著提高策略的稳定性和泛化性能,确保机器人在极端密集的环境下也能有效分离并抓取目标。


教师—学生策略蒸馏

在仿真环境中,我们能够利用精确的物体位置、力反馈等特权信息训练出高性能的教师策略。但在真实场景中,这些信息难以获取,为此我们设计了教师—学生策略蒸馏方案:


  • 教师策略:利用仿真中丰富的特权信息训练出性能优异的策略,能够精细地控制物体的分离和抓取动作。

  • 数据采集与行为克隆:通过教师策略生成大量示范数据(包括视觉观测、点云数据以及动作指令),并采用行为克隆的方法训练出只依赖摄像头采集的点云和机器人自感知数据的学生策略。这样,在真实环境中,机器人无需额外传感器信息也能保持高成功率,完成从仿真到实机的平滑迁移。

实验结果

为了测试 DexSinGrasp 策略在分离抓取时的有效性和泛化性,以及杂乱环境课程学习的有效性,设计了三组实验进行测试,并与两种基线比较。


基线 1 仅训练了一个抓取策略,没有鼓励对周围物体进行分离。基线 2 将分离和抓取策略分开且分阶段进行。


评价指标为抓取成功率(SR)和平均步数(AS)。抓取成功率越高,说明策略的有效性越高,平均步数越少,说明策略的效率越高。


实验 1

对教师策略和学生策略在不同数量障碍的紧密排列进行测试,证明了 DexSinGrasp 的有效性和高效率。图示是教师策略在密集摆放模式下障碍物数量为 4、6、8 时的仿真演示。


图片

实验 2

对教师策略和学生策略在不同数量障碍的随机排列进行测试,结果证明了 DexSinGrasp 在随机物体摆放下也可以实现成功分离抓取,对不同的场景有一定泛化性。图示是教师策略在随机摆放模式下障碍物数量为 4、6、8 时的仿真演示。


图片

实验 3

对杂乱环境课程学习的方式进行测试。我们尝试了无课程学习、先随机排列再紧密排列的课程学习,以及先紧密排列再随机排列的课程学习的训练模式。



我们发现,无课程学习训练的各个策略中,随机排列的任务表现不佳;先随机排列再紧密排列的课程学习获得的各个策略中,紧密排列的任务表现不佳;而先紧密排列再随机排列的课程学习在不同的任务上均取得了不错的成功率,证实了所提出的课程学习机制在不同场景下的有效性。


此外,研究团队还在实机平台上进行了验证。使用 uFactory xArm6 搭载 LEAP 手,并配备两台 Realsense RGB-D 摄像头以进行实时点云数据融合与滤波处理。图示为实机实验中对密集与随机摆放的 4、6、8 个物体场景下成功分离与抓取的演示。实验表明,经过教师—学生策略蒸馏后的视觉策略在实际操作中也能有效完成杂乱环境的有效分离与抓取。


图片
图片


总结

研究团队所提出的 DexSinGrasp 是一种基于强化学习的统一框架,通过整合物体分离与抓取任务,实现了灵巧手在杂乱环境中的高效操作。


该方法突破以往直接抓取或多阶段分割的策略,利用推移、滑动等动作在抓取过程中直接调整障碍物布局,结合环境复杂度递进式的杂乱环境课程学习与教师—学生策略蒸馏技术,有效提升视觉策略的泛化能力与仿真到现实的迁移效果。


实验表明,该方法在多种测试场景中展现出优于传统方法的抓取成功率和操作效率。未来研究将拓展至动态复杂场景下的多形态物体操作,增强抗干扰能力,进一步提高系统在非结构化环境中的泛化性与适应性。


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

如果目标物体被完全遮挡,DexSinGrasp可能需要结合其他技术进行改进:

* 多模态感知: 融合视觉、触觉、听觉等多种传感器信息,利用触觉感知物体的形状和位置,或者通过声音判断物体是否被遮挡。
* 主动感知: 通过调整视角、移动其他物体等方式,主动探索环境,解除遮挡。
* 预测与推理: 基于已知的场景信息和物体之间的关系,预测被遮挡物体的位置和形状。
* 经验学习: 通过学习大量的遮挡场景,使机器人能够识别常见的遮挡模式,并采取相应的策略。

课程学习这东西,有点像人类的教学,得讲究方法。我觉得可以从以下几个方面入手:

1. 难度分级: 就像小学、初中、高中一样,把任务难度分成不同的等级,让机器人一步一个脚印地学习。
2. 知识点覆盖: 确保课程覆盖所有重要的知识点,不能有遗漏。
3. 反馈机制: 及时给机器人反馈,告诉它哪里做得好,哪里需要改进。
4. 个性化定制: 不同的机器人有不同的学习能力和特点,可以根据它们的具体情况定制课程。

完全遮挡就比较难了,感觉得让机器人学会“盲摸”,或者用其他传感器(比如红外、超声波)来“透视”一下。要不就得靠大力出奇迹,先随便抓一个,把挡路的挪开再说。不过这样感觉有点暴力,效率可能不高。更好的方法可能是结合场景的先验知识,比如知道下面大概率是什么东西,然后根据经验来抓。

策略蒸馏这块,感觉像是给AI配了个“老司机”师傅,先在仿真环境里让“老司机”策略学个精通,然后让“徒弟”策略模仿学习,但“徒弟”只能看到摄像头和机器人自身的数据。 这样一来,虽然“徒弟”没法像“老司机”那样“开挂”看全图,但也能学个八九不离十。不过现实环境更复杂,光靠模仿可能还不够,得让AI自己多“跑跑路”,积累经验才行。最大的挑战可能是现实中的各种干扰因素太多,比如光线变化、物体表面的反光等等,这些都会影响AI的判断。

策略蒸馏说白了就是知识迁移,把仿真环境中学到的经验迁移到真实环境。理想情况是仿真环境无限接近真实环境,但实际上总有差距。为了弥补这个差距,研究者通常会采用一些技术,比如增加仿真环境的随机性,或者在真实环境中进行微调。但即使这样,也难以完全消除差距。实际应用中,挑战可能包括:

1. 传感器噪声: 真实环境中的传感器数据往往包含噪声,影响策略的准确性。
2. 环境变化: 真实环境是动态变化的,而仿真环境往往是静态的,这会导致策略的适应性下降。
3. 模型偏差: 仿真模型与真实世界的物理模型存在偏差,这会导致策略在真实环境中的性能下降。

课程设计感觉是个精细活,得根据具体场景来。得先分析清楚这个场景里有哪些“坑”,哪些是AI容易翻车的点。然后,由简入难,循序渐进地增加难度。比如,一开始只放几个简单的障碍物,让AI练练手,熟练了再增加障碍物的数量、种类和摆放方式。还可以加入一些“奖励机制”,鼓励AI去探索新的策略。总之,课程设计要灵活,不能太死板,得根据AI的学习情况不断调整。

这种情况就比较考验机器人的“智慧”了。我的想法是,可以考虑以下几个方面:

1. 加入触觉反馈: 让机器人用灵巧手去“摸”,通过触摸感知物体的形状和位置。
2. 利用先验知识: 如果知道场景中物体的种类和大致摆放位置,可以根据这些信息进行推理。
3. 主动移除遮挡: 让机器人尝试移动周围的物体,看看能不能把目标物体“解放”出来。
4. 多步规划: 把抓取任务分解成多个步骤,每一步都根据当前情况进行调整。

DexSinGrasp的策略蒸馏方案通过在仿真环境中使用特权信息训练教师策略,然后利用行为克隆将知识转移到仅依赖视觉信息的学生策略。这样做的核心在于将复杂的环境信息提炼成学生策略可以学习的有效行为模式。然而,这种平衡面临的挑战包括:

* 信息损失: 策略蒸馏过程中,学生策略可能会丢失教师策略利用的某些细微但重要的信息,导致性能下降。
* 泛化能力: 仿真环境与真实环境的差异可能导致学生策略在真实场景中的泛化能力不足。
* 鲁棒性: 真实世界的噪声和不确定性可能对学生策略的鲁棒性提出更高要求。
* 计算成本: 训练教师策略和进行策略蒸馏可能需要大量的计算资源。

设计更有效的课程以适应不同场景和任务的需求,可以考虑以下几个方面:

* 任务分解: 将复杂的任务分解为一系列 simpler 的子任务,并按照难度递增的顺序进行学习。
* 环境多样性: 在每个学习阶段引入多样化的环境,以提高策略的泛化能力。
* 自适应课程: 根据机器人的学习进度动态调整课程难度,确保机器人始终处于最佳学习状态。
* 领域知识: 结合领域知识设计课程,例如,在物流场景中,可以模拟常见的货物堆叠方式和搬运流程。
* 对抗学习: 引入对抗学习机制,让机器人与一个不断变化的“对手”进行博弈,从而提高策略的鲁棒性。