人形机器人求婚新突破:清华团队HuMI系统助力机器人解锁全身操作

清华团队发布HuMI系统,让人形机器人摆脱对真机依赖,通过便携设备高效学习全身操作技能,求婚、拔剑出鞘都不在话下!

原文标题:情人节暴击!下跪求婚的可以是机器人了

原文作者:机器之心

冷月清谈:

清华叉院、上海期智研究院、千寻智能与上海交通大学联合团队提出了HuMI系统,旨在解决人形机器人数据采集难、效率低的问题。该系统通过便携式穿戴设备采集数据,操作员可以在各种环境中演示动作,无需依赖实体机器人。HuMI采用实时逆运动学预览,确保采集到的数据物理可行。算法上,系统采用分层控制策略,高层规划策略基于Diffusion Policy规划全身关键点轨迹,底层控制策略通过强化学习训练。实验表明,HuMI在Unitree G1人形机器人上成功实现了求婚、拔剑出鞘等多种复杂全身操作任务,并展现出良好的泛化能力和数据采集效率。

怜星夜思:

1、HuMI系统通过穿戴设备采集数据,无需实体机器人参与。这种方式除了降低成本和场地限制外,你认为还可能带来哪些潜在优势?
2、HuMI系统采用了分层控制策略,高层负责规划,底层负责控制。你觉得这种分层结构对于复杂机器人控制来说,还有哪些好处?
3、文章提到HuMI系统在未见过的场景和物体上仍能保持较高的任务成功率,这主要归功于数据采集规模和多样性。你认为在机器人学习中,数据规模和多样性哪个更重要?为什么?

原文内容


这个情人节,Unitree G1 人形机器人解锁了 “求婚” 新技能。


图片


在人类眼中充满仪式感的求婚动作,对于机器人来说其实是颇具难度的全身操作任务:既要维持重心稳定,又要保证手部动作的精准,这对机器人的全身协调能力提出了不小的考验。


这一浪漫场景的背后,是清华叉院、上海期智研究院、千寻智能与上海交通大学联合团队的最新研究成果 —— HuMI (Humanoid Manipulation Interface) ,一个集成了人形机器人便携式数据采集与多样化技能学习的通用框架:研究人员不再受困于繁琐的遥操作或昂贵的动捕环境,只需佩戴简单的追踪设备,就能高效教会人形机器人协调全身,完成复杂的操作任务 。



  • 论文标题:Humanoid Manipulation Interface: Humanoid Whole-Body Manipulation from Robot-Free Demonstrations

  • 论文链接:http://arxiv.org/abs/2602.06643

  • 项目主页:https://humanoid-manipulation-interface.github.io


教人形机器人学会全身操作,难在哪里?


尽管遥操作是目前获取数据的主流方案,但其采集效率低下,对操作员的经验要求也较高;同时,由于无法脱离实体机器人,采集场景往往局限于实验室内部,难以获取支撑泛化的多样性数据。


相比之下,虽然 UMI 的 “无真机” 数采方案在机械臂上大获成功,但直接迁移到人形机器人时却面临如下难题:


  • 演示信息缺失:仅记录手持夹爪部轨迹无法约束全身姿态,机器人不知道向下抓取时该 “弯腰” 还是 “下蹲”;

  • 人机构型差异:人与机器人的身体比例不同,简单的尺寸缩放会导致机器人与交互物体的空间错位;

  • 执行误差干扰:与机械臂的高精度不同,人形机器人的底层控制器往往存在较大的跟踪误差,导致高层策略规划的轨迹与实际执行脱节。



HuMI 系统的核心技术


针对人形机器人数据采集难、效率低的痛点,团队提出了 HuMI 系统。该系统通过硬件、交互与算法的协同设计,实现了低成本、高效率的人形机器人全身操作策略学习。


1. 硬件设计:便携式穿戴设备


采集数据时,操作员仅需手持两个带有鱼眼 GoPro 相机的 UMI 手柄,并在手柄上、腰部和双脚佩戴 5 个 HTC Ultimate VIVE 追踪器。有了这套便携的设备,无需将笨重的实体机器人搬运到现场,即可在楼道、大堂等各种环境中采集全身动作数据,极大降低了数据获取的门槛。


2. 数据采集:实时逆运动学预览


图片


为了解决人机身体构型差异导致的动作不可用问题,HuMI 提供了实时逆运动学(IK)预览。采集数据时,操作员可以通过屏幕观察虚拟机器人做出对应动作的效果。如果人的动作超出了机器人的物理极限,操作员能立刻发现并调整姿态,从而确保采集到的数据物理可行。此外,重定向后的全身数据也会进一步用于底层控制器的训练。


3. 算法架构:分层控制策略



HuMI 采用高低层协同的分层式控制架构,通过精心设计的接口层将规划与控制模块有机串联,共同完成复杂的全身操作任务:


  • 高层规划策略:基于 Diffusion Policy,利用手腕相机的视觉输入规划全身关键点轨迹;

  • 底层控制策略:通过强化学习训练。在训练阶段,HuMI 设计了自适应的手部跟踪奖励,并引入了变速增强训练,使机器人能同时兼顾全身的协调平衡与手部的精准操作。


实验表现:多维任务验证


团队在 Unitree G1 人形机器人上进行了多方面测试,从任务能力、泛化表现和采集效率三个维度验证了系统的有效性:


1. 任务能力:HuMI 成功实现了五项颇具挑战性的全身操作任务:求婚(单膝下跪)、拔剑出鞘、投掷玩具、上前清理桌面以及下蹲拾取,展现了双臂协同、高动态、长距离移动操作等多方面能力,且均达到了 75% 以上的成功率。实验证明,机器人能够流畅地完成大幅度重心转移和精细的手部动作,保持了极高的平衡稳定性和动作连贯性。



2. 泛化表现:凭借便携硬件随时随地采集数据的优势,HuMI 能够轻松覆盖各种真实场景,为策略的泛化性打下了坚实基础。在下蹲拾取这一任务上的实验结果显示,机器人在会议室、电梯间、走廊等未见过的场景,面对未见过的瓶状物体时,仍能保持 70% 的任务成功率。上述实验表明,得益于便携式设备带来的数据采集规模与多样性,策略在复杂环境下具有出色的泛化能力。


图片


3. 采集效率:与传统遥操作模式相比,HuMI 在数据收集效率上展现出显著优势。由于摆脱了对机器人真机的依赖,系统的数据采集吞吐量提升至传统方式的 3 倍 —— 以拔剑任务为例,仅需 15 分钟即可快速收集 60 条有效演示数据。此外,HuMI 还扩展了动作采集的边界:在遥操作中,若底层控制器不支持单膝下跪等高难度动作,操作员便无法进行数据采集;而 HuMI 则能够摆脱真机限制,先行采集这类复杂动作。



HuMI 的核心价值在于打破了数据采集对机器人实体的依赖。通过全新的数据采集方式,HuMI 大幅降低了人形机器人数据的获取门槛与成本,在显著提升学习效率的同时,也为开发更具泛化性的通用人形机器人技能提供了有力支持。


关于作者


该项目有三位共同一作:佴瑞乾,郑博远,赵俊铭。



佴瑞乾是清华大学交叉信息研究院的四年级博士生,导师为高阳教授。他的主要研究方向为具身智能,致力于通过大规模数据使机器人能够感知、推理和学习。佴瑞乾已在 ICLR, ICRA, AAAI, NeurIPS 等多个机器人学和机器学习顶会发表论文,研究项目涵盖人形机器人,VLA,四足机器人等多个方向。



郑博远是清华大学交叉信息研究院的一年级博士生,导师为高阳教授。他的主要研究方向为具身智能,目前专注于通过人形机器人的全身协同控制,实现复杂多样的移动操作任务。郑博远已在 CoRL、ICLR 等多个机器人学和机器学习顶会发表论文。



赵俊铭是清华大学交叉信息院(IIIS)的一年级博士生,导师为高阳教授。他的研究聚焦于具身智能,致力于赋予机器人更通用和鲁棒的操作能力。他重点关注机器人操作数据的高效扩展及人形机器人的移动操作。此前的工作包括高效泛化的插入装配模型,以及融合自适应推理的 VLA 模型等。



项目的通讯作者是清华大学交叉信息研究院助理教授、千寻智能联合创始人高阳,他主要研究计算机视觉与机器人学。此前,他在美国加州大学伯克利分校获得博士学位,师从 Trevor Darrell 教授。他还在加州伯克利大学与 Pieter Abbeel 等人合作完成了博士后工作。在此之前,高阳从清华大学计算机系毕业,与朱军教授在贝叶斯推理方面开展了研究工作。他在 2011-2012 年在谷歌研究院进行了自然语言处理相关的研究工作、2016 年在谷歌自动驾驶部门 Waymo 的相机感知团队工作,在 2018 年与 Vladlen Koltun 博士在英特尔研究院在端到端自动驾驶方面进行了研究工作。高阳在人工智能顶级会议 NeurIPS,ICML,CVPR,ECCV,ICLR 等发表过多篇学术论文,谷歌学术引用量超过 5000 次。

© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com


加速是肯定的,成本降下来,研究的门槛就降低了,更多人参与进来才能有更多突破。不过,除了数据采集,人形机器人的硬件成本、算法的泛用性、以及能源供给都是制约因素。尤其是能源,现在的电池技术续航还是个大问题,总不能让机器人干一会儿就趴窝吧。

影响深远啊!原来数据采集受限于场地和真机,成本高不说,还很难收集到多样化的数据。现在好了,哪里都能采集数据,成本降低,数据量和数据质量都能上去,绝对能加速人形机器人的发展!

我觉得这个技术最大的亮点是降低了数据采集的门槛。以前,训练机器人需要昂贵的设备和专业的场地,现在一套便携设备就能搞定。这就像是把实验室搬到了户外,让机器人学习的场景更加多样化。这意味着,未来我们可以让人形机器人学习各种各样的技能,比如模仿厨师做饭、模仿建筑工人砌墙,甚至模仿艺术家进行创作,让它们真正融入到我们的生活。

从学术角度分析,HuMI系统的数据采集方式,更容易获取泛化性强的数据集,为后续算法的训练和模型的鲁棒性提供了保障。摆脱了对特定环境的依赖,数据多样性会提高,进而提升机器人的适应能力。这对于研究通用人形机器人,非常有价值。

我理解 Diffusion Policy 擅长处理连续状态空间和高维数据,可以生成平滑的轨迹,适合作为高层规划器。而强化学习可以通过试错学习,优化底层控制策略,使其更好地适应机器人自身的物理特性和环境。两者结合,可以优势互补,提高机器人控制的鲁棒性和适应性。从控制理论的角度来看,这是一种典型的分层控制架构,将复杂问题分解为多个子问题,降低了控制难度。

其实就是个套路,现在搞机器人,好像不加点深度学习、强化学习都不好意思发论文。Diffusion Policy 感觉就是个噱头,真正起作用的估计还是那些传统的控制算法。不过,能把这些东西整合起来,也算有点创新吧。

优势很明显啊,便携性大大提高,摆脱了实验室的限制,可以随时随地采集数据,这对于提高数据的多样性和泛化性非常有帮助。而且成本应该也更低吧。局限性的话,感觉精度可能不如动捕,但考虑到人形机器人本身的精度问题,也许影响没那么大?

从学术角度来看,HuMI系统最大的价值在于解决了数据 scarcity 的问题。之前的数据集往往biased towards实验室环境,泛化性不足。现在有了更多样化的数据,可以训练出更鲁棒、更具有适应性的模型。但也需要注意,数据质量也需要同步提升,否则可能会引入新的问题。

从控制理论的角度来看,这种分层架构其实是一种典型的 hierarchical reinforcement learning。高层策略负责探索状态空间,底层策略负责执行具体动作。Diffusion Policy的应用,为高层策略提供了更强大的生成能力。如果考虑其他方案,可以尝试model-based reinforcement learning,通过学习环境动力学模型来提高策略的效率和泛化性。不过,这需要更精确的物理模型,对计算资源的要求也更高。

除了IK预览,我觉得还可以研究一下基于物理引擎的模拟训练。在虚拟环境中,我们可以模拟各种体型和结构的机器人,让它们通过强化学习自主探索最优的运动方式。这样训练出来的模型,再迁移到真实机器人上,应该能更好地解决人机差异问题。

Q3:HuMI 系统在泛化性方面表现出色,能够在未见过的场景中完成任务。未来,如何进一步提升人形机器人在复杂、动态环境下的泛化能力?可以从哪些方面入手?

我觉得可以考虑以下几个方面:

1. 更好的环境理解能力:当前的机器人对环境的感知还比较有限,主要依赖于视觉信息。但是,真实世界是复杂的,光靠视觉是不够的。未来的机器人需要能够综合利用各种传感器(比如激光雷达、毫米波雷达、声音传感器等等)的信息,更全面、更准确地理解环境。
2. 更强的推理能力:机器人需要能够根据环境信息进行推理,预测未来的发展趋势。比如,机器人需要能够预测行人的运动轨迹,从而避免碰撞。这需要机器人具备一定的常识知识和逻辑推理能力。
3. 更灵活的控制策略:当前的机器人控制策略大多是预先设定的,难以适应环境的变化。未来的机器人需要能够根据环境的变化,实时调整控制策略,从而更好地完成任务。这需要机器人具备一定的自主学习能力和决策能力。
4. 更安全的交互方式:机器人需要更加安全地与人类进行交互,毕竟科幻电影里机器人暴走的场景,还是让人心有余悸。

总的来说,未来的机器人需要更加智能、更加自主、更加安全。只有这样,才能真正在复杂、动态的环境下发挥作用。

Q1:HuMI系统通过便携设备采集数据,降低了数据获取门槛,但这种方式采集的数据与真实机器人操作的数据相比,会有哪些差异?这些差异会如何影响机器人的最终表现?

差异还是挺明显的,主要有这么几个方面:

1. 环境感知差异: 穿戴设备依赖视觉和运动捕捉,可能对光照、遮挡等因素更敏感。真实机器人有更丰富的传感器(比如力传感器),能更准确地感知环境。
2. 物理交互模拟: 虚拟环境难以完全模拟真实世界的物理特性,比如摩擦力、碰撞等。这可能导致机器人在虚拟环境中训练好的动作,在真实环境中表现不佳。
3. 人机同步精度: 穿戴设备和机器人之间的同步可能存在延迟或误差,影响动作的精确性。

这些差异可能会导致:

* 泛化能力下降: 机器人在模拟环境中训练的策略,可能难以适应真实世界的变化。
* 鲁棒性降低: 机器人更容易受到环境干扰,出现动作失败。
* 精度不足: 机器人难以完成需要高精度操作的任务。

为了解决这些问题,可以考虑以下方法:

* 增加数据增强: 在模拟数据中引入更多噪声和变化,提高模型的鲁棒性。
* 使用域适应技术: 减少模拟数据和真实数据之间的差距。
* 结合真实数据进行微调: 使用少量真实数据对模型进行微调,提高模型的精度和泛化能力。

分层控制策略就像一个团队,高层负责制定战略目标,底层负责执行具体动作。高层根据视觉输入规划关键点轨迹,相当于告诉机器人“往哪里走,做什么”,底层则控制关节电机,保证机器人按照规划的轨迹运动,相当于“怎么走,怎么做”。这种分工合作能有效降低控制难度,提高机器人的稳定性和适应性。就像一个经验丰富的司机,知道目的地(高层规划),也懂得如何操作方向盘油门(底层控制)。

我理解的分层控制就像是搭积木,高层是设计图纸,底层是积木块。设计图纸告诉你最终要搭成什么样子,积木块告诉你有哪些零件可以用。这样就可以灵活组合,完成各种复杂的造型了。人形机器人的动作那么复杂,肯定需要这种分层结构才能搞定。

从控制理论的角度来看,分层控制是一种典型的模块化设计思路。高层规划主要解决全局优化问题,例如路径规划、任务分配等,而底层控制则侧重于局部优化,如关节轨迹跟踪、力矩控制等。通过接口层将两者连接起来,可以有效解耦不同层级的控制问题,降低系统复杂性,提高鲁棒性。此外,这种结构也便于进行模块化升级和维护,例如,可以针对不同的任务更换高层规划算法,而无需修改底层控制代码。

这个问题提得很好!确实,HuMI框架依赖视觉输入,极端光照或者复杂环境肯定会影响视觉识别,进而影响机器人的稳定性和精度。我觉得可以从以下几个方面入手解决:

1. 增强视觉系统的鲁棒性:采用更先进的图像处理算法,比如图像增强、去噪等,提高视觉系统在各种光照条件下的适应能力。也可以考虑多传感器融合,比如激光雷达、红外传感器等,弥补视觉信息的不足。

2. 优化控制策略:在分层控制中,可以引入自适应控制或鲁棒控制算法,根据环境变化动态调整控制参数,提高系统的抗干扰能力。比如,环境光照变暗时,可以适当降低机器人的运动速度,增加稳定性。

3. 构建更逼真的仿真环境:通过仿真环境生成更多样化的数据,包括各种极端光照和复杂环境下的数据,用于训练Diffusion Policy和强化学习模型,提高策略的泛化能力。

4. 引入触觉反馈:在机器人手部增加触觉传感器,可以通过触觉感知物体和环境,辅助视觉系统,提高操作的精度和稳定性。

其实我觉得吧,与其死磕视觉,不如考虑一下“非视觉”方案。比如,在求婚机器人身上加装一个“惊喜盒子”,里面放着戒指,机器人只需要走到指定位置,打开盒子就行了。这样一来,光照再差也不怕,反正看不到也能完成任务。

当然,这有点“投机取巧”了,但很多时候,工程上的问题就是需要这种“曲线救国”的思路来解决嘛!

我理解分层控制就像软件工程里的模块化设计,把一个大问题分解成若干个小问题,每个模块负责解决一个小问题,然后通过接口把这些模块连接起来。这样做的好处是每个模块可以独立开发和测试,提高了开发效率和代码的可维护性。而且,如果某个模块出了问题,不会影响到整个系统的运行。

“无真机”数据采集的潜力是巨大的,但同时也存在挑战。虚拟环境毕竟是虚拟的,与真实世界存在差异。如何在虚拟环境中尽可能地还原真实世界的复杂性,避免机器人出现“模拟器效应”,是我们需要解决的问题。