波士顿动力机器狗Spot速度提升3倍,强化学习功不可没

波士顿动力机器狗Spot速度提升3倍,达到时速18.7千米,强化学习助力突破电池供电限制,实现高效奔跑。

原文标题:3倍提速!现在你跑不过机器狗了,限制波士顿动力机器狗的竟然是电池功率?

原文作者:机器之心

冷月清谈:

波士顿动力机器狗Spot的速度提升了近3倍,达到时速18.7千米,接近小型犬的平均奔跑速度。Spot提速的关键在于强化学习的应用。研究人员发现限制Spot速度的并非马达性能,而是电池供电能力。通过强化学习,Spot在模拟环境中不断练习,找到了最高效的快速移动方式,并增加了一个四只脚同时离地的飞行阶段,实现了奔跑。强化学习还在UMV自行车机器人上得到应用,UMV在没有平衡陀螺仪的情况下,依靠AI保持平衡,并学会了跑酷动作。强化学习的关键在于发现新的行为,并在复杂条件下使其变得稳健可靠,突破控制的边界。

怜星夜思:

1、Spot的速度提升主要是因为强化学习的应用,而不是硬件的升级,这是否意味着强化学习在机器人领域比硬件升级更重要?
2、Spot奔跑的姿态与真实的狗完全不同,这是否意味着模仿生物的运动方式在机器人设计中并非最佳选择?
3、强化学习在机器人领域的应用前景如何?除了提升运动性能,还能在哪些方面发挥作用?

原文内容

机器之心报道
编辑:佳琪

Scaling Law 在触顶边界徘徊之时,强化学习为构建更强大的大模型开辟出了一条新范式。

在机器人领域,强化学习也带来了意外之喜。

这只上过好几次全网热搜的机器狗 Spot,想必大家都不陌生。

图片

在原来的文章中,无论 Spot 做了什么高难度动作,哪怕是边喷火边跳踢踏舞,后台总有留言,「为什么波士顿动力不把机器人的脚做成轮式的?」

这是因为 Spot 总是优雅地、小心翼翼地踏着小碎步,没办法大步行走,相较于脚踩风火轮的轮式机器狗,不仅速度跟不上,也更容易受到地形限制。

士别三日,当刮目相看。几个月不见,Spot 的「小步舞曲」已经成为过往,看看现在 Spot 大步流星的样子,迅速敏捷,你和它赛跑都追不上了:

图片

Spot 出厂时最快速度只有 1.6 米 / 秒。几周前与波士顿动力官宣合作的 RAI 研究所带来了最新突破,Spot 的跑步速度提升了近 3 倍,达到了时速 18.7 千米。

一只小型犬的平均奔跑速度大概是 20 千米 / 时,这两个数字已经很接近了。

在传统观念中,大家可能认为机器人的速度主要受限于马达性能。但当研究团队用强化学习对机器狗的电机和动力装置建模之后,发现了一个出人意料的事实。

图片

图片
在模拟环境中,可以并行训练几台 Spot 机器人(甚至几百台),以实现强大的现实世界性能。

「真正限制 Spot 速度的,竟然是电池供电能力!」RAI 研究所的机器人专家 Farbod Farshidian 说道,「这个发现让我们都很惊讶,因为之前都以为机器人的运动速度提不上去是在马达的功率或扭矩之类的问题。」

Spot 的电力系统相当复杂,仍有进一步优化的空间。Farshidian 指出,阻止他们将 Spot 的最高速度推过 5.2 米 / 秒的唯一原因是他们无法访问电池电压,无法将这些实际数据纳入他们的 RL 模型。

这意味着,如果能设计出更强劲的电池,Spot 的还能跑得更快。

有趣的是,当 Spot 以这个速度奔跑时,它的动作看起来和真实的狗完全不同。Farshidian 解释说:「这个奔跑姿态确实不像生物,但这很正常 ——Spot 的驱动器和关节结构都和真狗不一样,为什么要用生物的方式来跑呢?」

Spot 的执行器不同于肌肉,运动学特性也不同,适合狗快速奔跑的步态不一定适合机器狗。

Spot 提速的关键在于,研究人员在小跑步态的基础上,增加了一个四只脚同时离地的飞行阶段。小步和飞行衔接起来,从技术上就变成了奔跑。

图片
四脚离地的「飞行」阶段

Farshidian 说:「这个飞行阶段是必要的,因为机器人需要这段时间快速向前移动脚步来维持速度。」研究人员给机器人了「自主发现的空间」,因为这时,编程程序所要求的不是「奔跑」,而是去找到最高效的快速移动方式。

传统的机器人控制使用模型预测控制(MPC)方法,就像给机器人一本详细的「动作指南」。这种方法很可靠,但也很保守。

这由于要求计算机要在事件发生后立即响应,一旦没有在短时间内完成复杂的运动规划和控制,反映到机器人这里就是动作迟缓或出错了。

而强化学习则完全不同。它就像让机器人在「虚拟道场」中不断练习,找到最优的动作方案。一旦学会了,这些技能就能直接应用到现实中。

强化学习不仅能最大化机器人的性能,还能使其表现更加可靠。RAI 研究所一直在实验一款全新的机器人 —— 一辆名为 UMV 的自行车。它采用了与 Spot 高速奔跑时基本相同的强化学习 RL 流程,用于平衡和驾驶训练,并成功学会了跑酷动作。

图片

更值得注意的是,UMV 没有配备任何平衡陀螺仪,而是完全依靠 AI 来保持平衡的。

「强化学习的关键在于发现新的行为,并在那些难以建模的复杂条件下使其变得稳健和可靠。这正是强化学习真正大放异彩的地方。」RAI 研究所苏黎世办公室主任 Marco Hutter 表示,「一方面,强化学习帮助 UMV 在各种情况下保持稳定的驾驶能力;另一方面,它让我们理解机器人的动态,更好地实现一些新动作,比如跳上比它本身还高的桌子。」

虽然 UMV 已经能很熟练地做各种特技动作了,但对于它来说,完成一些看似简单的动作甚至更难,比如倒车。

不太会倒车

「UMV 倒车时很不稳定」,Hutter 解释说,「使用经典的模型预测控制(MPC)控制器很难做到这个动作,尤其是地形崎岖或有干扰的情况下。」

目前,RAI 研究所还在努力让 UMV 走出实验室,在复杂地形上来一场真正的自行车跑酷表演。

在「虚拟道场」中训练 UMV 如何下楼梯

RAI 研究所表示,重点不在于这个某个特定的硬件能做什么,而在于任何机器人通过 RL 和其他基于学习的方法能做什么。机器人的硬件在理论上可以实现比用经典控制算法更多的功能。关键的问题是如何理解这些硬件系统中的隐藏限制,不断突破控制的边界。


© THE END 
转载请联系本公众号获得授权
投稿或寻求报道:liyazhou@jiqizhixin.com

强化学习还可以用于机器人学习新技能。就像UMV学习跑酷一样,未来机器人可以通过强化学习掌握各种复杂操作,甚至可以像人类一样学习和进步。当然,我认为如果担心AI过快发展的话,还是需要添加一些限制条件。

强化学习确实展现了巨大潜力,但硬件依然是基础。没有强大的硬件,再好的算法也无用武之地。两者相辅相成,缺一不可。这次Spot的例子更像是发现了硬件的瓶颈,然后用强化学习来尽可能的突破这个瓶颈,我觉得更像是算法和硬件共同进步的例子。

硬件和软件都很重要,这个案例中,我觉得强化学习更像是一种在给定硬件条件下的优化方案。与其说是强化学习比硬件升级更重要,不如说是强化学习帮助我们更好地压榨了硬件的性能。

Spot 的例子说明,不一定非要模仿生物的运动方式。 找到适合自身硬件和控制算法的最优运动模式才是关键,就像虽然都是跑步,但每个人的跑步姿势都不一样,机器狗也一样。

我觉得更像是强化学习帮助我们更好地利用现有硬件。Spot的硬件一直很强,但之前的控制方法可能没有完全发挥出硬件的潜力。强化学习就像一个更懂硬件的教练,让Spot跑得更快。

强化学习的应用前景非常广阔,除了提升运动性能,还可以用于机器人自主导航、物体识别、人机交互等方面,让机器人更加智能化和自主化。

我觉得模仿生物的运动方式可以作为一种参考,但不能照搬。就像飞机的设计灵感来自于鸟类,但飞机的飞行原理和鸟类完全不同。机器人也一样,需要根据实际情况进行调整。

生物的运动方式经过了数百万年的进化,肯定有很多值得学习的地方。但机器人和生物的构造不同,强行模仿可能适得其反,就像让鱼学飞一样。应该根据机器人的自身特点,寻找最适合的运动方式。

我觉得强化学习可以帮助机器人更好地适应复杂环境。比如在灾难救援、深海探测等领域,强化学习可以让机器人自主学习应对各种突发情况,而无需人为干预,进一步的解放生产力。