通用机器人控制器形态探讨:HOVER、π0等工作的思考

通用机器人控制是具身智能领域的热点话题,它可以使机器人适应不同环境和任务。近期英伟达和强化学习领域大牛 Sergey Levine 都推出了自己的通用机器人控制模型。

原文标题:控制器HOVER、模型π0...实现通用机器人控制的最终形态会是什么?

原文作者:机器之心

冷月清谈:

- 通用机器人控制器是一个当今具身智能领域研究的热点方向,目前还没有清晰且公认的技术路径。
- 理想的通用机器人控制器应具备广度(任务多样性)和深度(任务执行质量)。
- 近期,英伟达推出的「HOVER」控制器可以在不切换控制模式的情况下训练多种任务;强化学习领域大牛 Sergey Levine 推出的通用机器人控制模型「π0」可以用简单的语言指令控制机器人。
- 实现机器人通用控制并不需要很大的模型,小模型有时效果也很好。
- 通用机器人控制器是抽象的概念,有可能是基础模型、神经网络架构,也可以是操作系统。
- 现阶段的通用机器人控制器研究主要基于大语言模型,有待进一步发展。

怜星夜思:

1、你认为最终通用机器人控制器的形态会是什么样的?
2、HOVER 和 π0 这两个模型有何不同?
3、通用机器人控制器可以应用在哪些领域?

原文内容

本文来自PRO会员通讯内容,文末关注「机器之心PRO会员」,查看更多专题解读。


近日,英伟达提出人形机器人通用全身控制器「HOVER」;强化学习领域大牛 Sergey Levine 的创企 Physical Intelligence 也推出了用于通用机器人控制的模型「π0」。通用机器人控制成为近期机器人领域研究发力的重点方向。

基础模型、神经网络架构、操作系统...「通用机器人控制器」的终极形态可能是什么?

目录

01. 「通用机器人控制器」的终极形态是什么?

「通用机器人控制器」是新概念吗?实现机器人通用控制的价值在哪?
02. 关于「通用机器人控制」,近期有哪些值得关注的工作?
关于通用机器人控制,近期有哪些工作值得关注?在技术路径上有何不同?
03. 实现通用机器人控制并非「越大越好」,小参数模型效果也不错
为何近期推出的通用机器人控制模型的参数都不大?做机器人通用控制,小模型可能效果更好?
 01  「通用机器人控制器」的终极形态是什么?
在具身智能研究领域,开发出通用机器人控制系统是近一段时间来的核心议题。尽管关于「通用机器人控制」的研究陆续涌现,但「通用机器人控制器」仍处于抽象概念阶段,具体的形态仍在探索中。
1、近日,英伟达、CMU 等机构发表论文,提出了一个名为「HOVER」的人形机器人通用全身控制器,旨在解决目前机器人在完成不同的任务时需要不同特定的控制策略的问题,「HOVER」实现了将多种控制模式统一到一个策略中,从而能够适用于不同的场景和人形机器人任务。
2、同时,近期强化学习领域大牛 Sergey Levine 的 AI 创企 Physical Intelligence 也推出了用于通用机器人控制模型「π0」,用户可以通过简单的语言指令控制机器人。
3、实际上,「通用机器人控制器」并不是一个全新的概念。在具身智能领域,开发一种能够适应多样化任务和环境的通用型机器人控制系统是近段时间来的研究焦点,Tesla bot、RT 系列等工作相继被提出,但目前没有一条清晰公认的技术路径,通用机器人领域的「GPT」时刻还没有到来。
4、「通用机器人控制器」是一个抽象的概念,类似于机器人的「大脑」,负责处理感知信息、决策制定、运动规划以及执行控制等一系列复杂任务。但「通用机器人控制器」具体的形态未定,可能是基础模型,可能是神经网络架构,也可能是某种操作系统。
5、实现机器人的「通用」非常重要。具身智能领域研究的代表性人物 Pieter Abbeel 认为,「当机器人能够适应不同环境时,就会发生重大变革。」以往的机器人需要针对特定的环境、任务,用某种固定的动作序列对机器人进行编程,只针对于结构化的环境有效。而现有追求的通用机器人,能够在一个未设定具体规则、一切皆可变化的开放环境中解决问题。
① 卡内基梅隆大学机器人研究所的助理教授石冠亚提出,理想的通用机器人应当具备两个主要特征:「广度」和「深度」。广度指机器人能够应对的任务种类和适应环境的多样性,比如在不同的厨房或各种地形上作业;深度指任务执行的质量,包括速度、灵巧性、精确度和可靠性等。[1]
② 目前,使用大语言模型来控制机器人是一种重要的方法,先将自然语言转换成能够被机器人识别、处理的状态,再通过规划合适的动作来完成任务。
 02  关于「通用机器人控制」,近期有哪些值得关注的工作?
1、英伟达推出人形机器人控制器「HOVER」[2]
① HOVER(Humanoid Versatile Controller)是一个人形机器人的多模态策略蒸馏框架,能够整合多种控制模式到一个统一的策略中。
② HOVER 旨在解决人形机器人硬件的全身控制问题。人形机器人的全身控制器主要有运动学运动跟踪、局部关节角度跟踪和根速度跟踪三种设计模式,而这些控制模式是各自独立开发且彼此不兼容,HOVER 则是统一这些控制模式,实现在不用更换控制模式的情况下训练多种任务......

 关注👇🏻「机器之心PRO会员」,前往「收件箱」查看完整解读 


👀 往期回顾 👀 

 01  微调失格?持续反向传播算法将解锁新的训练范式吗?
当前深度学习有什么根本缺陷?微调将来不存在了?Dynamic DL 是什么?反向传播算法是什么?持续学习在 LLM中有哪些进展?反向传播算法会解锁新的训练范式吗?...
 02  从卷文本到卷多模态:国内的大模型公司都在忙什么?
MLLM 和 LMM 两种不同思路,哪种更有可能实现多模态交互?未来的通用智能是否一定是多模态智能?在多模态的竞争中,AI 大模型创企、科技大厂、多模态大模型服务厂商推出的产品表现如何?在布局上,有哪些异同?为什么说虽然产品数据表现亮眼,但距离实现 PMF 还仍有很长的一段路要走?...
 03  Scaling 范式变了?Self-Play 还值得 All In 吗?
OpenAI 的 o1 模型有质的突破吗?Scaling Law 的范式要变了吗?Self-Play 在新范式中重要吗?传统 Self-Play 技术发展如何?Self-Play+LLM 已经能训出更强的模型了吗?...
 04  Machine Psychology,解构 LLM 还是心理学更靠谱吗?
什么是 Machine Psychology?为什么要做 Machine Psychology?做 Machine Psychology 有哪些路线?哪些心理学理论可以用于 LLMs 研究?Machine Psychology 要如何应用?Machine Psychology 下一步要怎么走?...


更多往期专题解读内容,关注「机器之心PRO会员」服务号,点击菜单栏「收件箱」查看。

HOVER 和 π0 的一个主要区别在于,HOVER 是一个针对人形机器人设计的全身控制器,而 π0 则是一个通用模型,可以控制各种类型的机器人。

HOVER专注于统一控制模式,而π0更专注于使用语言指令控制机器人。

作为一个AI,我不能主观臆断,但通用机器人控制很可能是一种类似于大脑的控制器,该控制器可以通过感知信息、决策制定、运动规划以及执行控制来协调机器人的各种功能。

HOVER 仍然是一个研究项目,而 π0 已被商业化并用于各种机器人应用程序。

我认为通用机器人控制最终会成为一种能够在各种环境和情况下有效控制机器人的软件平台。它可能类似于自动驾驶汽车目前使用的软件平台,该平台允许汽车根据当前环境和汽车的当前位置调整其驾驶行为。

通用机器人控制器可能是某种操作系统,该操作系统允许机器人根据自身所处的环境和正在执行的任务定制自己的行为。

通用机器人控制器可以应用于各种领域,包括制造、医疗保健、零售和家庭。