人形机器人新突破:宇树机器人推出能学习各种极限动作的通用策略OmniXtreme

宇树机器人OmniXtreme解锁新技能:人形机器人学会连续翻转、霹雳舞。秘诀:流生成预训练+驱动感知残差强化学习,大幅提升动作成功率和鲁棒性。

原文标题:王兴兴署名,宇树机器人春晚之后又进化了:单个策略就能学习各种极限动作

原文作者:机器之心

冷月清谈:

北京通用人工智能研究院、宇树等机构提出OmniXtreme框架,让人形机器人能够执行连续翻转、极限平衡等复杂动作。该框架分两个阶段:首先,通过预训练一个基于流的生成控制策略,学习大量异构极限动作;然后,通过驱动感知残差强化学习进行后训练,解决仿真与现实的差距。研究团队在宇树G1人形机器人上进行了大量实验,OmniXtreme在各种极限动作中都表现出极高的成功率和鲁棒性,证明该方法打破了高动态控制的泛化壁垒,为人形机器人控制系统的能力进化提供了新的路径。

怜星夜思:

1、OmniXtreme框架中,预训练和后训练分别解决了什么问题?如果缺少其中一个阶段,会对最终的性能产生什么影响?
2、文章提到OmniXtreme在电机约束、功率安全等方面做了很多优化,这些优化对于人形机器人的实际应用有什么意义?
3、文章提到OmniXtreme采用了基于流的生成控制策略,这种策略相比传统的强化学习有什么优势?为什么能够打破模型规模的Scaling Law限制?

原文内容

图片
编辑|Panda


春晚上,《武 BOT》给人留下了深刻印象。表演中,人形机器人 G1 和 H2 在快速奔跑中完成了穿插变阵和武术动作,展现出了高动态、高协同的全自主集群控制技术。


图片


而现在,北京通用人工智能研究院(BIGAI)、宇树、上海交通大学和中国科技大学等机构的一项新研究在这个方向上更推进了一步,提出了 OmniXtreme第一个可以执行各种极限动作的通用策略,包括连续翻转、极限平衡,甚至可以通过快速接触切换进行霹雳舞。



这种能力的实现过程首先是预训练一个基于流的生成控制策略(flow-based generative control policy),然后针对复杂物理动力学进行「驱动感知残差强化学习」(actuation-aware residual RL)的后训练。其中后训练这一步对于成功实现真实世界的迁移至关重要。


该项目的通讯作者之一、BIGAI 研究科学家 Siyuan Huang 在 X 上表示:「我们花了一整年时间深入研究通用跟踪和极端物理行为之间的障碍。在测试了数十台 G1 机器人之后,我们最终找到了学习和物理执行能力方面的瓶颈。」



值得注意的是,宇树科技联创和 CEO 王兴兴也在这篇论文的作者名单中。论文一作为 Yunshen Wang 和 Shaohang Zhu。



  • 论文地址:https://arxiv.org/abs/2602.23843

  • 项目地址:https://extreme-humanoid.github.io

  • 代码地址:https://github.com/Perkins729/OmniXtreme


方法:打破高动态控制的泛化壁垒


在人形机器人的运动控制领域,研究人员长期面临一个被称为「泛化壁垒(generality barrier)」的困境。


当动作库的规模和多样性增加时,传统的统一强化学习策略往往会遭遇性能崩溃,这在高动态动作的物理部署中尤为明显。这种崩溃源于两个相互叠加的瓶颈:仿真环境中的学习瓶颈(多动作优化的梯度干扰)以及物理执行瓶颈(真实世界复杂的驱动约束)。


为了从根本上解决这一问题,该研究团队提出了 OmniXtreme 框架。该框架将动作技能的学习与物理驱动的微调进行了巧妙的解耦,分为「基于流的可扩展预训练」与「驱动感知的残差后训练」两个核心阶段。



阶段一:基于流的可扩展预训练


在第一阶段,研究团队的目标是赋予模型极高的表示容量,使其能够掌握大量异构的极限动作,同时避免传统多动作强化学习中常见的保守化平均倾向。


研究人员首先整合了 LAFAN1、AMASS、MimicKit 等多个高质量动作数据集,并将其重定向至宇树 G1 人形机器人上。


针对这些参考动作,团队利用 PPO 算法训练了一系列专家策略。随后,OmniXtreme 采用了基于数据集聚合 (DAgger) 的知识蒸馏技术,将这些专家策略的行为统一融合到一个基于流匹配的生成式策略中。



在数学表达上,基于流的模型通过优化以下目标函数来学习从纯噪声中恢复专家动作的过程 :


图片


在上述公式中,a_t 表示在流时间步 t 下,专家动作 a_{expert} 与随机噪声 ε 之间的插值动作。该目标函数使得模型能够学习到一个速度场 v_θ,从而在推理时通过正向欧拉积分生成高精度的连续控制动作。为了保证物理稳定性,团队在这一阶段仅引入了适度的噪声和域随机化,确保策略能够准确捕捉底层的物理动力学特征。


阶段二:驱动感知的后训练


预训练得到的流匹配策略虽然在仿真中表现出了惊人的跟踪精度,但现实世界中的电机非线性特性往往会导致这种高动态表现大打折扣。


为了实现平滑的「仿真到现实」迁移,团队冻结了预训练的基础策略,并在其之上训练了一个轻量级的 MLP 残差策略。该残差策略无需重新学习动作跟踪,主要负责输出修正动作以对抗真实的硬件约束。


为了让残差策略真正理解物理世界的残酷,团队在训练环境中引入了三个层面的深度建模:


1. 激进的域随机化


研究人员将初始姿态噪声、外力干扰幅度、角速度等常见域随机化参数的范围大幅提升了最高 50%。更为关键的是,他们将终止阈值放宽了 1.5 倍(例如将躯干方向误差容忍度从 0.8 弧度放宽至 1.2 弧度)。这种设计给予了残差策略充足的探索空间,使其能够学会在大偏差状态下进行极限挽救,极大地增强了系统的鲁棒性。


2. 功率安全驱动正则化


执行后空翻等高动态动作时,机器人会产生巨大的瞬态制动负载。常规的强化学习管线通常缺乏对此类负载的约束,从而极易在真实硬件上触发过流保护或热应力宕机。OmniXtreme 创新性地引入了针对机械功率的惩罚机制,其核心在于计算关节扭矩与角速度的乘积,即瞬时机械功率 P=τ・ω。


对于超出安全死区的高额负功率(再生制动),团队应用了严格的二次惩罚函数 :



在实际应用中,该惩罚项被重点施加于膝关节,因为膝关节在冲击与恢复阶段最容易承受破坏性的制动负载。


3. 驱动感知的扭矩与速度约束


单纯的扭矩截断往往会忽略由反电动势引起的与速度相关的物理限制。团队将真实的电机运行包络线直接集成到了仿真器中,定义了随关节速度幅值单调递减的容许扭矩函数。此外,系统还通过非线性摩擦项对执行器级别的内部损耗进行了建模 :


图片


该公式精确捕捉了从静摩擦到动摩擦的平滑过渡,并计算了与速度相关的耗散阻尼。


纯机载的实时部署


在硬件部署方面,OmniXtreme 展现出了极高的工程完成度。


整个推理管线(包括基于正向运动学的状态估计、流匹配基础策略以及残差策略)均使用 TensorRT 进行了深度优化。在宇树 G1 人形机器人的机载 NVIDIA Jetson Orin NX 平台上,系统实现了约 10 ms 的端到端推理延迟,完美支持 50 Hz 的高频闭环控制。


实验表现:全方位挑战极限测试


为了全面评估 OmniXtreme 的可扩展性与鲁棒性,研究团队不仅使用了标准的 LAFAN1 动作库,还精心挑选了约 60 个极具挑战性的动作,构建了 XtremeMotion 评估集。这些动作包含了极高的角速度、频繁的接触切换以及严苛的时序约束。


可扩展的高保真跟踪能力


在仿真环境中,OmniXtreme 与传统的「从头训练多动作强化学习」基线模型以及「专家到统一 MLP 蒸馏」基线模型进行了直接对比。数据表明,OmniXtreme 在所有指标上均实现了碾压。面对难度激增的 XtremeMotion 数据集,传统方法的跟踪误差显著增加,而 OmniXtreme 依旧维持了极低的运动学误差和极高的成功率。



在现实世界的宇树 G1 机器人上,团队选取了 XtremeMotion 中的 24 个不同高动态动作进行了 157 次物理测试。测试涵盖了后空翻、杂技、霹雳舞、武术等多个动作类别。



最终,OmniXtreme 斩获了 91.08% 的整体平均成功率。其中,后空翻类动作的成功率高达 96.36%,武术类动作达到 93.33%,霹雳舞类动作也保持在 86.36% 的高水平。这证明了仿真中的高保真度成功跨越了现实鸿沟。


下面展示了一些示例:


托马斯全旋、上旋、向前爬行和后空翻。


霹雳舞


武术


打破保真度与可扩展性的权衡


为了验证系统是否打破了泛化壁垒,团队设计了渐进式的压力测试。他们将训练动作集从 10 个逐步扩展到 20 个,最终扩展到 50 个,并使用固定的前 10 个动作进行统一评估。


实验结果揭示了显著的差异。随着动作多样性的增加,传统从头训练的强化学习基线模型出现了严重的性能衰退,其成功率从 100% 暴跌至 83.3%,最终滑落至 73.9%。



相比之下,OmniXtreme 展现出了惊人的韧性,在 50 个动作的庞大训练集下,其对核心动作的跟踪成功率依然坚挺在 93.3%。这彻底推翻了高保真度必定随着多样性增加而崩溃的固有认知。


模型规模的 Scaling Law


在人工智能的发展历程中,增加模型参数量往往能带来性能的飞跃,但这一规律在传统的运动控制领域似乎失效了。团队对比了不同参数规模(20M、50M、70M)的模型表现。



图表数据清晰地显示,传统的 MLP 策略在扩大参数量后很快就陷入了性能饱和,跟踪精度提升极其有限。


与之形成鲜明对比的是,基于流匹配的生成式策略完美契合了 Scaling Law。随着参数量向 70M 迈进,OmniXtreme 的跟踪精度与鲁棒性呈现出显著且稳定的线性增长。这说明生成式预训练为人形机器人控制系统提供了一条切实可行的能力进化路径。


现实世界执行力的深度消融


究竟是哪些机制赋予了机器人如此强大的物理稳健性?团队通过消融实验给出了答案。



对于具有强爆发力的翻腾动作(如后空翻),仅仅引入电机约束就足以保障稳定执行,因为这避免了底层硬件极限的瞬间崩溃。然而,对于包含高频接触转换的霹雳舞动作,系统必须同时依赖电机约束与激进的域随机化,才能在接触扰动中维持时序敏感的平衡。


最严苛的挑战来自于包含高速冲击缓冲的杂技落地动作。团队发现,如果没有功率安全正则化机制,即使模型在姿态上维持了平衡,也会因为电机瞬态制动导致过流或电池欠压而宣告失败。


图片


这充分说明,真实世界的极度敏捷必须建立在声、光、电、热等多维物理约束的精确建模之上。


参考链接

https://x.com/siyuanhuang95/status/2028506522633073132


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

“驱动感知的残差强化学习”就像是给机器人装了一个“纠错”系统,让它能够根据实际情况调整动作,避免因为电机性能限制或环境干扰而摔倒。如果没有这个机制,机器人可能在仿真环境中表现很好,但在真实世界中却动不动就趴窝。

这就像是把一台在实验室里跑得飞快的赛车,放到真实的赛道上。你需要考虑各种因素,比如路面状况、天气变化等等。OmniXtreme 团队通过各种工程手段,让机器人在真实世界中也能发挥出色的性能。

“泛化壁垒”指的是当机器人需要学习的动作种类越来越多时,传统的强化学习方法会遇到性能瓶颈,无法很好地适应各种不同的动作。OmniXtreme 框架通过预训练一个通用的动作生成策略,然后再针对特定环境进行微调,从而克服了这一问题,实现了更好的泛化能力。

预训练提取共性,后训练适配个性。预训练是在理想环境下学习通用的运动模式,而后训练则是在真实物理环境中进行精细调整,以适应机器人自身的硬件特性和环境的复杂性。这种解耦降低了训练难度,提升了模型的泛化能力和鲁棒性。

预训练阶段主要解决的是让机器人学会各种动作,就像给它一个巨大的动作库。后训练阶段则是在实际环境中微调这些动作,让机器人能够适应真实世界的各种限制,比如电机性能、地面摩擦等等。解耦的原因是,如果你试图一次性解决所有问题,训练过程会变得非常复杂和困难,容易导致性能下降。

Scaling Law?这不就是“大力才能出奇迹”的AI版吗?在图像识别、自然语言处理这些领域,模型越大效果越好,参数越多能力越强。但是,机器人这行,光靠“大力”还真不行!

你想啊,机器人要跑要跳,要和各种各样的环境互动,这可不是简单的软件问题。它涉及到物理、力学、控制等等,太多复杂的因素了!

所以,机器人领域的 Scaling Law 肯定和纯AI领域不一样。我觉得,机器人更需要的是“巧劲”,而不是“蛮力”。

举个例子,与其用一个超级大的模型来硬算,不如用一些巧妙的算法来提高效率。比如,可以模仿人类的运动方式,或者利用一些物理规律来简化计算。

总之,机器人这行,不能光靠砸钱堆参数,更要注重创新和技巧!

王兴兴亲自下场写论文,这事儿我站“支持”!说明咱们国内的机器人公司越来越重视技术了,不再是只会“组装”的作坊了!

你想啊,以前很多公司都是直接买国外的技术,然后稍微改改就卖,根本没有自己的核心竞争力。现在不一样了,宇树这种公司开始自己搞研发,甚至和大学一起搞,这才是真正的发展方向!

当然,这种“联姻”也有风险。最怕的就是学术界被“绑架”,为了迎合企业的需求而放弃了自由探索。还有就是利益分配的问题,万一研究成果火了,钱怎么分?

但是,我觉得只要大家本着“共同发展”的原则,这些问题都可以解决。毕竟,现在是“技术为王”的时代,只有不断创新,才能在激烈的竞争中生存下去!

功率安全驱动正则化这个点很赞!感觉之前很多研究都忽略了硬件的承受能力。平衡精确性和安全性确实是个难题,如果一味追求高精度,很容易把机器人搞坏。我觉得可以借鉴一下控制理论中的鲁棒控制思想,设计一个对扰动不敏感的控制器,这样即使动作不够完美,也能保证安全性。另外,是不是可以引入fault-tolerant control,让机器人在出现故障的时候也能安全地停止或者降级运行?

我认为“驱动感知的残差后训练”不仅仅依靠激进的参数随机化。虽然域随机化很重要,但更关键的是它模拟了真实世界中电机非线性特性以及各种物理约束,像是引入功率安全驱动正则化来避免硬件过载,还有考虑电机运行包络线和摩擦损耗,这些都让残差策略能够学习如何克服真实硬件的限制,从而实现更平滑的迁移。

10ms 延迟已经很快了,但别忘了这是在 NVIDIA Jetson Orin NX 平台上实现的。如果换一个算力差一些的平台,延迟肯定会增加。所以,未来的一个方向是开发更轻量级的算法,让机器人即使在算力有限的平台上也能流畅运行。这样才能真正实现人形机器人的普及。

动作库越大并不一定意味着性能越好。虽然 OmniXtreme 提高了可扩展性,但随着动作库的增加,训练数据的质量和多样性变得至关重要。如果动作库中包含大量冗余或者低质量的动作,反而可能降低模型的泛化能力。而且,更大的动作库也意味着更高的计算成本和存储需求。

除了人形机器人,我觉得在工业自动化领域也能大放异彩。比如,高精度装配、复杂环境下的物料搬运等等。而且,这项技术对于开发更逼真的游戏角色或者虚拟现实体验也有帮助,想想未来在游戏里也能流畅地做出各种极限动作,是不是有点小激动?

我觉得关键在于提升机器人的感知能力。现在的机器人主要依靠视觉和传感器获取信息,但这些信息往往是有限的。未来的机器人需要具备更强的环境感知能力,能够理解物体的材质、重量、摩擦力等物理属性,才能做出更智能的决策。

与其单纯追求“快”,不如考虑如何让机器人在延迟的情况下也能做出正确的决策。比如,可以设计一种“预测性控制”算法,让机器人能够预测未来的状态,并提前做出调整。当然,这需要更复杂的模型和算法,但也许是未来的发展方向。

实时性对于机器人控制至关重要,尤其是高动态控制,延迟直接影响稳定性和精度。除了软件优化,硬件上可以考虑使用更快速的传感器(例如更高帧率的摄像头)、更高性能的处理器,以及特制的实时操作系统。另外,采用分布式计算架构,将计算任务分散到多个处理器上,也能有效降低延迟。

我理解“驱动感知”的关键在于让机器人“知道”自己的局限性。除了文章里提到的电机约束,我觉得还可以加入对机器人关节磨损的建模。毕竟高强度运动对硬件损耗很大,如果能预测并补偿这种损耗,应该能提高长期运行的稳定性。另外,外部环境的风力扰动也值得考虑,尤其是在户外场景。

我觉的实时性就像是玩游戏时候的“延迟”,延迟越高,操作越不顺畅,机器人也是一样。除了提升硬件性能,我觉得降低数据传输的延迟也很重要。比如使用更高速的通信协议,或者采用无线传输技术。另外,控制算法的设计也要考虑到实时性,尽量选择计算复杂度低的算法。

说到激进的域随机化,我有个想法,能不能把机器人摔倒的各种姿势也加入训练集?感觉就像是给机器人上了个“保险”,让它在极端情况下也能“自救”。当然,这需要大量的模拟数据,而且要保证安全性。

其实我更好奇的是,这种预训练方式会不会学到一些“奇奇怪怪”的动作?毕竟是基于大量数据学习的,可能会有一些超出我们预期的行为。如果能把这些“意外发现”利用起来,说不定能创造出新的机器人舞蹈动作。