HumanUP:让机器人自主起身,适应复杂地形

HumanUP框架让机器人自主起身并适应复杂地形,为人形机器人应用带来新突破。

原文标题:HumanUP:从机器人自主起身到contact-rich locomotion任务的讨论

原文作者:机器之心

冷月清谈:

伊利诺伊大学香槟分校的研究人员提出了一种名为HumanUP的两阶段强化学习框架,使人形机器人能够自主从各种姿态(如仰卧和俯卧)起身,并适应坡地、草地、雪地等复杂地形。

第一阶段训练过程不考虑平滑性或力矩限制等物理约束,旨在探索出有效的起身轨迹。第二阶段则在第一阶段的基础上进行优化,使轨迹更符合真实世界的物理规律,并增强其在不同初始姿态和地形下的鲁棒性,最终实现Sim2Real的迁移。

这项研究是第一个在现实世界中成功演示基于学习的机器人自主起身策略的工作,为未来人形机器人在复杂环境中的部署和应用提供了重要参考。研究人员将于北京时间2月28日晚8点进行线上分享,深入探讨HumanUP框架、人形机器人控制的挑战以及高接触运动的未来发展方向。

怜星夜思:

1、HumanUP框架的两个阶段是如何衔接的?第二阶段如何利用第一阶段的轨迹进行优化?
2、除了起身之外,HumanUP框架还能应用于哪些contact-rich locomotion任务?
3、Sim2Real的迁移过程中通常会遇到哪些挑战?HumanUP是如何解决这些挑战的?

原文内容

图片


在现实环境中,人形机器人易于摔倒,而依赖人工干预进行恢复严重限制了其自主性和部署能力。传统手工设计的起身控制器难以适应复杂地形和多变初始姿态。
为解决此问题,论文《Learning Getting-Up Policies for Real-World Humanoid Robots》中提出了一种基于强化学习的两阶段训练框架,实现机器人自主起身策略的学习与部署。
第一阶段着重探索有效的起身轨迹,不受平滑性或扭矩限制约束,而第二阶段则优化该轨迹,使其在不同初始姿态和地形上具备鲁棒性,并满足Sim2Real的控制要求。
实验结果表明,该框架成功让G1人形机器人在现实世界中从仰卧和俯卧姿态自主起身,且能适应多种复杂地形,如坡地、草地和雪地。这是首个在现实世界中成功展示基于学习的人形机器人起身策略的研究,为未来的具身智能人形机器人部署提供了重要借鉴。
为了更好的帮助大家了解这项工作,机器之心最新一期线上分享邀请到了论文作者何夏麟和董润沛,为大家进行深度剖析。

分享主题:从机器人自主起身到高接触运动
嘉宾介绍:
何夏麟是伊利诺伊大学香槟分校(UIUC)计算机科学专业一年级博士生,指导老师是Saurabh Gupta教授。目前,他的研究主要集中于足式机器人的通用控制算法与自主学习算法。此前,何夏麟本科毕业于上海交通大学ACM班,导师是张伟楠教授。同时,他是HumanUP、OmniH2O等项目的主导作者。


董润沛是伊利诺伊大学香槟分校(UIUC)计算机科学专业一年级博士生,指导老师是Saurabh Gupta教授。目前,他的研究主要集中于人形机器人的控制学习,旨在开发具有通用、可泛化和可扩展的人形机器人学习算法。之前,董润沛在西安交通大学和清华大学交叉信息研究院联合培养并获得了硕士学位,指导老师是姚期智教授。同时,他是HumanUP、DreamLLM等项目的主导作者。
分享摘要:本次分享涵盖三个方面:(1) 人形机器人控制的研究背景,探讨其在复杂环境中的挑战;(2) HumanUP——一种通用的两阶段Sim2Real强化学习策略,如何解决机器人自主起身问题并泛化到其他接触丰富任务;(3) Contact-rich locomotion的展望与讨论,分析该领域未来的研究方向和潜在应用。
相关链接:
  • 论文链接:https://arxiv.org/abs/2502.12152

  • 项目链接:https://humanoid-getup.github.io/

直播时间北京时间2月28日20:00-21:00
直播预约:
本次直播设有 QA 环节,欢迎大家加群一起来聊。

机器之心 · 机动组

机动组聚焦于学术研究、工程实践与产业应用,筛选前沿、专业、实用内容,不定期组织学术研讨、技术交流与实战分享等。欢迎所有 AI 领域技术从业者关注。

点击阅读原文,查看往期回顾。

“contact-rich locomotion” 我理解为需要高频率接触的任务,例如在崎岖不平的地面行走、攀爬,甚至是更精细的操作,比如抓取、搬运物体等,这些都对机器人的控制提出了更高的要求。HumanUP或许能提供一个不错的思路。

Sim2Real的最大挑战之一就是仿真环境和现实世界的差距,比如物理引擎的精度、传感器的噪声等等。HumanUP通过两阶段的训练框架,在第二阶段加入了真实世界的物理约束,应该能在一定程度上弥合这种差距。

现实世界中存在各种不确定性,例如地面的摩擦系数、外部扰动等等,这些在仿真环境中很难完全模拟。HumanUP的第二阶段训练应该会考虑这些因素,提高策略的鲁棒性。

我觉得可以应用于一些需要频繁与环境接触的任务,例如爬楼梯、翻越障碍物、在不平坦地面行走等等,这些任务都需要精确控制机器人与环境的接触力。

对于“Sim2Real的迁移过程中通常会遇到哪些挑战?HumanUP是如何解决这些挑战的?”这个问题,我认为除了仿真与现实的差距外,还有计算资源的限制、传感器的延迟等等,都需要考虑。HumanUP的具体解决方法,还需要仔细阅读论文。

如果能把HumanUP框架的泛化性做得更好,或许可以应用于各种不同的机器人形态,例如四足机器人、多足机器人,甚至是软体机器人,让它们也能在复杂环境中完成各种高难度动作。

衔接方式上,或许可以考虑将第一阶段学到的轨迹编码成某种形式的特征,作为第二阶段强化学习的输入,这样可以引导第二阶段的学习过程,加快收敛速度。至于优化方式,可以参考一些轨迹优化算法,比如iLQR、DDP等。

关于HumanUP框架的两个阶段衔接,我的理解是第一阶段主要探索可行的起身轨迹,不考虑太多物理限制,可以理解为“大胆尝试”。第二阶段则是在此基础上加上物理约束,进行精细化调整,让轨迹更符合实际情况,有点像“小心求证”。具体如何利用,论文中应该有更详细的描述,可以去看看。

我猜想第二阶段可能会把第一阶段的轨迹作为初始轨迹,然后在其周围进行局部搜索或者添加一些扰动,再结合强化学习算法进行优化,最终得到一个既满足物理约束又鲁棒性强的轨迹。当然,这只是我的猜测,具体实现方式可能更复杂。