RAPID Hand:一款开源、高自由度、感知集成的新型灵巧手平台

RAPID Hand开源,高自由度灵巧手平台,集多模态感知与紧凑设计,突破通用机器人数据采集瓶颈,助力自主操作。

原文标题:NeurIPS 25 | 中大&UC Merced等开源RAPID Hand,重新定义多指灵巧手数据采集

原文作者:机器之心

冷月清谈:

NeurIPS 25最新研究中,中山大学等团队联合推出了RAPID Hand,这是一个开源的高自由度灵巧手平台,旨在解决通用机器人灵巧操作能力面临的硬件瓶颈。现有机器人平台往往受限于双指夹爪,或多指平台在多模态感知同步与稳定性上存在问题,导致高质量数据采集困难。RAPID Hand通过软硬件协同设计,提供了一套紧凑、经济且能够稳定高效采集数据的多指灵巧手系统。

该平台在硬件层面采用了20自由度的类人结构,并优化了电机布局与多指节驱动方案,将手指厚度控制在20毫米内,实现了高效且独立的指节控制。此外,它还创新性地提出了硬件级的全手感知同步框架,能够稳定集成腕部视觉、指尖触觉和本体感觉等多种传感信息,实现了高精度的时序对齐和空间对齐。在软件方面,RAPID Hand开发了高自由度遥操作接口,以高效采集接触丰富的操作任务演示数据。

实验结果表明,在手内操作任务中,基于RAPID Hand训练的策略在表现和稳定性上均优于现有方法。这一平台不仅在手部结构设计和多模态感知集成方面优于LEAP、Allegro等现有灵巧手,更具备低成本和高可获得性的优势,为通用机器人灵巧操作的研究提供了坚实高效的支撑。

怜星夜思:

1、文章里提到RAPID Hand的重点是“低成本”和“高可获得性”,你觉得这对机器人研究和未来的普及会有什么实际影响?会不会有一天,像现在的树莓派一样,出一个大家都能买得起、玩得转的灵巧手套件?
2、文章里把多模态感知(腕部视觉、指尖触觉、本体感觉)的同步和稳定性说得特别重要。除去技术实现难度,你觉得在机器人学习“手感”这事儿上,这些感知信息到底扮演了多重要的角色?有没有可能偷个懒,只用视觉或者用非接触式感知来代替大部分触觉?
3、RAPID Hand的设计是“类人结构”,这在机器人模仿人类操作方面是优势还是限制?人类的手掌有独特的灵活性和适应性,机器人灵巧手在模仿人类时,是应该完全复刻还是在特定任务上进行优化设计?

原文内容


在最近的一篇 NeurIPS 25 中稿论文中,来自中山大学、加州大学 Merced 分校、中科院自动化研究所、诚橙动力的研究者联合提出了一个全新开源的高自由度灵巧手平台 — RAPID Hand (Robust, Affordable, Perception-Integrated, Dexterous Hand)。



  • 论文标题:RAPID Hand: A Robust, Affordable, Perception-Integrated, Dexterous Manipulation Platform for Generalist Robot Autonomy

  • 论文地址:https://www.arxiv.org/abs/2506.07490

  • 项目主页:https://rapid-hand.github.io/

  • Github 地址:https://github.com/SYSU-RoboticsLab/RAPID-Hand


研究背景


灵巧操作能力是通用机器人实现多任务泛化的核心能力之一。无论是日常的家庭整理、物品归置,还是辅助类服务任务,若缺乏灵巧的操作能力,机器人便难以真正完成复杂交互。


近年来,随着多模态大模型(VLMs)在机器人控制中的逐步应用,研究者们开始将高质量的操作演示与预训练模型结合,用于具身推理与通用操作策略学习,在模型架构和数据构造策略上取得了初步进展。


图片


图片


图片

图 1 遥操作手内物体平动对比: Allegro(上) 容易掉落,LEAP(中) 几乎无明显运动,而 RAPID(下) 实现了更自然的指间横向移动。


然而,硬件瓶颈仍是机器人「动手」的关键障碍。首先,受限于末端执行器的可获得性,大多数平台仍依赖于双指夹爪,难以完成手内操作、工具使用等细粒度操作任务。其次,当前多指硬件平台在强调机械结构性能的同时,常常忽略感知系统的同步性与稳定性,导致数据丢帧、感知不同步等问题普遍存在。例如已有研究 [1] 显示,多模态传感器集成时常伴随 4.4% 的掉帧率与高达 15–100ms 的模态延迟。这些问题直接限制了操作技能的多样性,也阻碍了高质量、可复现的真实演示数据的采集。


图 2 RAPID Hand 具有 20 自由度(DoF)的类人结构,集成了腕部视觉、指尖触觉和本体感觉等多模态感知能力,支持毫秒级的时空同步与精准的空间对齐,并提供高自由度的遥操作接口,旨在以低成本、高质量的数据,助力通用机器人灵巧操作的研究。


研究动机:多指操作能否稳定、高效采集?


高质量的真实机器人演示数据对于训练通用操作策略至关重要,但要实现稳定可靠的数据采集,仍缺乏一套紧凑、经济且具备高自由度的多指灵巧手系统。


挑战主要来自两个方面:一是驱动与传动结构的复杂性。电机布局不仅要兼顾低成本和高输出力,还需在指尖灵活性、结构紧凑性与类人关节运动学之间取得平衡,否则极易导致结构臃肿或不自然的关节运动;二是多模态感知在运动过程中容易出现断连与丢包,传感器间的延迟差异与不同步问题也会影响感知数据的一致性与完整性。


基于此,研究者们提出一个关键问题:能否构建一个软硬件高度集成、结构清晰的灵巧手操作平台,为稳定、高质量的数据采集提供可靠支撑?本研究正是围绕这一挑战展开,研究者们从硬件与软件两个层面协同设计,构建了 RAPID Hand 平台,力求在感知集成、结构设计与控制接口之间形成一致、稳定的闭环支持。


图 3 手指尺寸与运动学对比:对 RAPID、LEAP 和 Allegro 三种灵巧手的手指尺寸和运动学特性比较。


手部本体设计


在硬件结构方面,RAPID Hand 采用紧凑的 20 自由度手部本体设计,并引入统一的多指节驱动与传动方案。通过对电机布局的系统优化(如图 4 所示),手指厚度被控制在 20 毫米,兼顾结构紧凑与驱动性能。具体而言,该方案在远端关节(DIP 与 PIP)采用直接驱动,近端关节(MCP)则引入并联机构,实现高效、独立的多指节控制。


图 4 RAPID Hand 所采用的统一多指节驱动方案。除拇指外,各手指的 DIP 和 PIP 关节,以及拇指的 DIP 和 MCP 关节,均由安装于指节的电机直接驱动;而除拇指外各手指的 MCP 关节与拇指的 CMC 关节则通过并联机构驱动,从而实现全手 20 自由度的独立控制。


此外,研究者们提出了一种硬件级的全手感知同步框架,可稳定集成腕部视觉、指尖触觉与本体感觉三类传感信息,实现高精度的时序对齐(如图 5 所示)。


图 5 硬件级全手感知集成框架示意图。展示了视觉、触觉和本体感觉传感器的布局,以及电子元件与走线排布。


学习灵巧操作技能


在软件系统方面,研究者们开发了一套高自由度的遥操作接口,可高效采集多样化的接触丰富的操作任务演示。最终,RAPID Hand 被构建为软硬协同优化的平台:紧凑的 20 自由度手部结构、稳定的全手感知集成框架与高自由度遥操作接口三者协同设计,实现了从数据采集到策略部署的闭环链条,确保硬件耐用、感知稳定,并支持灵巧操作任务中高效、高质量的演示数据采集。



基于该灵巧操作平台,研究者们在三个具有挑战性的手内操作任务上训练一个扩散模型,以验证 RAPID Hand 的性能。在实验中,基于 RAPID Hand 训练的策略在操作表现与稳定性方面均优于已有方法。据我们所知,RAPID Hand 在手部结构设计与多模态感知集成两方面均优于现有代表性灵巧手(LEAP、 Allegro),同时具备低成本、高可获得性的优势。


图片


图片


图 6 手内平动与滚动任务对比。上中两图展示了 RAPID Hand 在无需加速播放的情况下自主完成物体的手内滚动和平移操作;下图为先前方法 [2] 的效果。与其固定机械臂末端、依赖桌面支撑等简化设置不同,RAPID Hand 在放宽这些限制条件下,仍实现了稳定的自主操作。


图片


图片

图 7 多指翻找任务对比。上图展示了 RAPID Hand 在无需加速播放的情况下自主完成类似人类翻找抽屉的多指翻找任务。相比之下,RAPID 所训练的策略在操作表现上显著优于同期仅依赖单指扫动并使用 ArUco 标记进行感知的方法 [3]。


[1] RoboPanoptes: The All-seeing Robot with Whole-body Dexterity. CoRL 2025.

[2] Tilde: Teleoperation for Dexterous In-Hand Manipulation Learning with a DeltaHand. RSS 2024.

[3] Retrieval Dexterity: Efficient object retrieval in clutter with a dexterous hand. ArXiv 2025.



© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

哈哈,机器人要是没“手感”那岂不是要变成“暴力狂”?想象一下,它拿个鸡蛋结果直接捏碎,倒杯水结果打翻…… 光靠看,它怎么知道这个东西有多重,手感如何?没触觉就跟没味觉一样,很多细微的变化都感受不到。我觉得指尖触觉就是机器人的“味蕾”,本体感觉就是它的“平衡感”,腕部视觉就是它的“眼睛”。三者缺一不可。要偷懒只用视觉?那只能做一些很粗糙的操作,想让它帮你做精细活儿比如泡茶、绣花,那简直是天方夜谭。甚至连拿个软趴趴的东西都可能搞砸。所以,「手感」这东西,对机器人来说太重要了,是它迈向智能操作的必经之路!

多模态感知在机器人学习“手感”中,我认为是决定其精细操作能力和鲁棒性的核心。单纯的视觉可以提供物体的位置、姿态信息,但缺乏与环境交互时的即时反馈。就好比你想拿起一个玻璃杯,光用眼睛看是不知道它有多滑、表面温度如何的,只有手触碰到的时候,才能感知到这些细节。指尖触觉提供了压力、摩擦、纹理等精细信息,本体感觉告知了手指关节的精确位置和受力状态。这些信息的融合,才能让机器人构建出对物体特性的完整感知模型,从而决定用多大的力、以何种姿态去抓取、移动。如果想“偷懒”只用视觉或非接触式感知,在某些简单任务上或许可以,但对于文中提到的“手内平动”、“手内滚动”这类需要精细力控和防滑的操作,触觉信息几乎是不可替代的。缺少触觉,机器人就像戴着厚手套的人类,操作会变得笨拙且缺乏精细度。

“类人结构”简直是机器人走向“人形”的关键一步啊!你想想,要是机器人手长得奇形怪状,我们怎么教它拿筷子、开门?模仿人类是最好的学习方式,这样它才能更好地融入我们的生活,帮我们做各种各样的事情。当然,如果它只是用来流水线上搬砖,那也许一个大夹子就够了。但要是想让它帮我挠痒痒,那必须得是“类人手”才行!我觉得应该先完全复刻,把基础功能学好,然后再根据具体任务进行微调,比如给它加上个小吸盘或者小钩子什么的,谁知道呢,说不定以后机器人能用手玩魔方比我快多了!

类人结构在机器人模仿学习和泛化能力方面具有显著优势。人类的手部经过亿万年的进化,其灵活性和适应性使其能应对各种复杂环境和任务,从拿起微小的物体到挥舞工具。当机器人拥有类人结构时,可以更直接地利用人类示教数据,从而加速策略学习,并在各种未知或半结构化环境中表现出更好的泛化能力。然而,这并非没有代价。类人结构意味着更高的自由度,这会带来更复杂的控制问题和更高的硬件成本。在某些工业应用中,追求极致的效率和精度,一个三指或二指的专用夹具可能远比20自由度的类人手更经济、更可靠、维护成本更低。我的观点是,对于通用型机器人和研究领域,类人结构无疑是更优选择,因为它能够拓宽机器人能力的边界。但对于具体的、高度特化的工业任务,进行优化设计,甚至牺牲部分“类人”特性,可能更为实用。这不是一个二选一的问题,而是根据应用场景权衡的结果。

我觉得这简直是未来智能家居的福音啊!如果灵巧手真的能做到大家都能买得起,那是不是意味着以后家里的机器人都可以自己动手做饭、洗衣、叠衣服了?甚至可以像组装电脑一样,自己DIY你的机器人助手,给它装上一个灵巧手,让它帮你解决各种生活小麻烦。想象一下,以后是不是会有“灵巧手DIY大赛”,看看谁的机器人手最能干?哈哈哈,我的梦想是机器人能帮我剥小龙虾!

“低成本”和“高可获得性”确实是决定一个技术能否从实验室走向大众的关键。目前的高端机器人灵巧手往往价格不菲,动辄数十万甚至上百万,这直接限制了其研究和应用的广度。RAPID Hand的出现,有望填补中低端市场的空白,让更多初创公司和个人开发者能够接入。至于会不会出现像“树莓派”那样的普及型套件,我认为是有潜力的,但前提是其易用性和可靠性要达到一定水平。毕竟,“能用”和“好用”之间还有距离,如果还需要非常专业的知识才能驾驭,那普及起来还是有难度。不过,这是一个非常积极的信号,离“家家有机器人管家”的未来又近了一步!

关于RAPID Hand的“类人结构”:从仿生学的角度看,这确实是一大优势。类人结构使得机器人能够更容易地理解和模仿人类的演示数据,直接复用人类的操作策略和直觉。这对于通用机器人学习复杂交互任务非常有利,毕竟很多日常生活中的操作都是为人类手部设计的。然而,它也可能成为一种限制。人类手部的某些关节(比如腕关节)在特定工业任务中可能显得过于灵活,反而增加了控制的复杂性。在特定任务上,例如高精度重复抓取或拧紧螺丝,一个专用的、优化过的夹爪可能比“类人手”效率更高、精度更好。所以,我认为理想的趋势是:通用机器人可以采用类人灵巧手作为基础平台来学习和理解世界,但在特定需要极致性能的场景,可以通过模块化设计,快速换装专用末端执行器。不是完全复刻,而是抓住精髓,并保留针对特定任务的优化空间。

针对机器人学习“手感”的重要性,我们可以从以下几个维度来理解。首先,多模态感知提供的是冗余且互补的信息流,这对于在动态不确定环境中执行任务至关重要。举个例子,仅仅通过视觉可能无法精确判断一个物体是否在手中滑动,但触觉可以及时感知到剪切力或压力变化,从而触发修正动作。其次,本体感知提供了机器人自身状态的关键数据,对于闭环控制和姿态估计是基础。如果缺少这些关键感知信息,机器人学习的策略将更容易出现欠拟合,在遇到稍微不同的物体或环境时,性能会大幅下降。完全依赖非接触式感知来替代触觉在理论上可能,比如通过高精度激光雷达或毫米波雷达重建物体几何和材质属性,但目前的技术瓶颈在于如何在毫秒级时间内实时获取并处理这些超高维度数据,以及如何将这些信息转化为与精细力控相关的物理量,这在计算量和实时性上都面临巨大挑战。所以,触觉目前仍是不可或缺的,至少在可以预见的未来是如此。

关于RAPID Hand的低成本和高可获得性:从学术角度看,这绝对能大大降低研究门槛,让更多实验室和高校有机会接触并研究高自由度灵巧手操作,不再是少数顶尖机构的“专属玩具”。这会加速整个领域的迭代和创新,模块化、标准化的设计甚至可能催生出一个围绕RAPID Hand的生态系统,让不同团队能更方便地共享数据和算法,就像乐高积木一样。想想看,如果每个实验室都能负担得起这样的平台,那么数据量和实验多样性都会迎来爆发式增长!