丰田TRI LBM研究揭示机器人通用化潜力:严谨验证机器人「大模型」如何大幅提升学习效率

丰田研究院发布LBM模型,严谨验证机器人通用能力和数据效率,或预示具身智能“GPT时刻”的来临。

原文标题:机器人的「GPT时刻」来了?丰田研究院悄悄做了一场最严谨的VLA验证实验

原文作者:机器之心

冷月清谈:

传统机械臂在面对布置餐桌、组装自行车等复杂、非结构化任务时,挑战重重。近年来,视觉-语言-动作(VLA)模型取得进展,使机器人向智能通用方向迈进。丰田研究院(TRI)的大型行为模型(LBM)团队公布了一项突破性研究,他们基于扩散模型策略,构建并严谨地验证了一套针对机器人的大型行为模型。这项工作得到了业界的高度评价,被认为是机器人领域的“宝藏”。

该研究的核心在于,在近1700小时的机器人数据上训练了一系列基于扩散的LBM,并通过1800次真实世界和超过47000次模拟部署进行严格评估。论文设计了细致的评估流程,引入“任务完成度”等指标,确保了结果的统计置信度。实验结果显示,相对于从头开始训练的策略,LBM提供了显著且一致的性能提升,尤其在应对分布偏移的任务时表现出更强的鲁棒性。

更重要的是,LBM能够在具有挑战性的新任务中,使用3-5倍更少的数据达到与传统方法相似的性能,甚至在相同数据量下获得更优表现。研究还发现,LBM的性能随着预训练数据量的增加而稳步提高,即便预训练数据量远未达到“互联网级”规模,也能带来持续稳定的性能增益。 这一发现预示着通过数据获取与性能自举的良性循环是完全可能实现的。通过混合多样化的真实和模拟数据进行训练,LBM能够处理多模态输入(图像、本体感知、语言提示),并预测连续的动作序列,展现了其强大的通用性和泛化能力。

这些积极的结论似乎预示着机器人领域的通用大规模模型即将到来,让具身智能的“GPT时刻”不再遥远。

怜星夜思:

1、文章提到LBM模型能让机器人用更少的数据学习新任务,这听起来很棒!但我们知道机器人数据的获取(比如遥操作)本身就是个费时费力的活。那么,LBM真的能彻底解决机器人数据稀缺和获取成本高的问题吗?或者说,除了LBM,还能通过哪些方式进一步降低机器人训练数据的门槛?
2、文章里丰田研究院的LBM主要展示了机器人在操作层面的能力,比如双臂协作、纠错等。如果想让机器人具备更广泛意义上的“通用具身智能”,它还需要哪些更深层次的能力?这些能力和LBM这种行为模型之间,又是一种怎样的关系?是LBM的扩展,还是需要完全不同的技术栈?
3、丰田研究院的这项LBM研究,如果未来能够广泛应用,它最有可能给哪些行业带来颠覆性的变革?除了文章中提到的操作任务,你觉得它还能解决工业界哪些目前被忽视,但非常重要的痛点?

原文内容

机器之心报道

编辑:冷猫


提到机械臂,第一反应的关键词是「抓取」,高级些的机械臂也就做做冰淇淋和咖啡之类的小任务。


但若要机械臂主完成繁重且复杂的任务,如布置餐桌、组装自行车,难度便呈指数级上升。这类任务对感知、理解与动作控制的协同提出了极高要求。


近年来,随着视觉 - 语言 - 动作(VLA)模型的迅速发展,机器人已逐步具备整合多模态信息(如图像、指令、场景语义)并执行复杂任务的能力,朝着更智能、更通用的方向迈进。


但是目前 VLA 的研究尚未达到里程碑式的成果,具身智能的「GPT」似乎离我们还很遥远。


直到我看到了这两段视频:



机械臂在现实世界中已经能够实现双臂写作,完成如此复杂的组合任务,并且还能够在操作过程中纠错。这相比过去的 VLA 研究成果有了非常明显的提高。


深入探索了一下这份研究,作者在 VLA 的思路基础上更进一步,在扩散模型策略的基础上,完全构建了一个针对机器人的大型行为模型(Large Behavior Model,LBM),经过训练和微调,便能够实现机械臂自主执行复杂操作中如此令人惊艳的结果。



来自谷歌的研究者 Ted Xiao 说:


「如果你从事机器人技术和人工智能领域,最近在斯坦福大学关于扩展多任务机器人操作的视频是必看的,毫无疑问。 没有营销,没有炒作。只有基于坚实假设的科学,有证据支持的断言。 在当今的背景下,这是一个宝藏!」



前英伟达学者 Jiafei Duan 表示:


「我是 TRI 这项工作的忠实粉丝,严格的评估是机器人领域真正进步的催化剂。」


这份工作来自丰田研究院(TRI)的大型行为模型团队。作者之一是麻省理工学院教授,丰田研究院机器人研究副总裁 Russ Tedrake


据说,Russ 是一位低调但极其严谨的学者,对于这篇论文,仅在推特和领英各发了一则短文进行简要介绍。然而,有限的宣传并未掩盖这项工作的卓越价值 —— 论文本身足以说明一切。


该论文通过在模拟与真实机器人数据集上扩展扩散(Diffusion)策略框架,系统性评估了一类多任务机器人操作策略,称为大型行为模型。论文设计并验证了一套严谨的评估流程,以统计置信的方式分析这些模型的能力。通过盲测与随机试验,在控制环境下将多任务策略与单任务基线模型进行了对比,涵盖仿真与现实实验。


  • 论文标题:A Careful Examination of Large Behavior Models for Multitask Dexterous Manipulation

  • 论文链接:https://arxiv.org/pdf/2507.05331

  • 项目链接:https://toyotaresearchinstitute.github.io/lbm1/


大型行为模型是一类视觉 - 运动策略,基于多样化的模拟与真实世界操作数据进行训练。


采取传统的单任务行为策略的机器人在面对任务变化或训练分布之外的环境时表现出有限的泛化能力。为了克服这种脆弱性,该领域正越来越多地采用 LBM —— 在包含动作级演示的大规模多任务数据集上训练的视觉运动基础模型。尽管 LBM 的研究与开发蓬勃发展,但关于观察到的成功主要是否源于多任务预训练,仍然存在重大不确定性。


为了严谨地研究多任务预训练的影响,论文在近 1,700 小时的机器人数据上训练了一系列基于扩散的 LBM,并进行了 1,800 次真实世界的评估部署和超过 47,000 次模拟部署,以严格研究它们的能力。


论文发现:


  • 相对于从头开始的策略,LBM 提供一致性能提

  • 在具有挑战性的环境中,LBM 使用 3-5 倍更少的数据来学习新任务,并要求对各种环境因素具有鲁棒性;

  • 随着预训练数据的增加,LBM 的性能稳步提高


即便只有数百小时多样化的数据、每种行为仅有几百条演示,模型的性能依然实现了显著提升。预训练在远小于预期规模的条件下,便能带来持续稳定的性能增益。虽然当前还没有如同「互联网级」的机器人数据量,但令人欣喜的是,性能收益在远未达到那一规模时就已显现 —— 这是一个积极信号,预示着通过数据获取与性能自举的良性循环是完全可能实现的。


这样积极的结论,似乎预示着机器人领域的通用大规模模型的到来,具身智能的「GPT 时刻」还有多遥远?


LBM 架构



LBM 架构:论文采用了一种 Diffusion Transformer 架构,该模型以语言、视觉和本体感知(proprioception)作为条件输入,并输出 20 维动作序列,覆盖未来 16 个时间步长。


在部署阶段,策略以 10 Hz 的频率运行,机器人会执行前 8 个时间步的预测动作,然后重新规划后续动作。


本文的 LBM(Large Behavior Models)是一类扩展的多任务扩散策略模型,具备多模态的 ViT(视觉 Transformer)视觉 - 语言编码器,并采用基于 AdaLN 的 Transformer 去噪头对编码观察进行条件建模。这些模型能够处理手腕摄像头和场景摄像头图像、机器人本体状态(proprioception)以及语言提示,并预测连续 16 步(1.6 秒)的动作片段(action chunks)。


论文在一个混合数据集上训练 LBM,包含:


  • 468 小时的内部采集的双臂机器人遥操作数据,

  • 45 小时的模拟环境中的遥操作数据,

  • 32 小时的通用操作接口(UMI)数据,

  • 以及约 1,150 小时从 Open X-Embodiment 数据集中整理的互联网数据。


尽管模拟数据所占比例较小,但它的纳入确保了可以在模拟环境和真实世界中使用同一个 LBM 检查点进行评估。


实验细节


测试平台


本文的 LBM 在采用 Franka Panda FR3 手臂和最多六个摄像头的物理和 Drake 模拟的双臂工作站上进行了评估 —— 每只手腕最多两个摄像头,以及两个静态场景摄像头。


在双手操作平台上,在模拟和现实世界中,针对多种任务和环境条件,评估了的 LBM 模型。


评估指标

论文衡量策略性能的主要指标包括:成功率(Success Rate)务完成度(Task Completion)。


其中,成功率是机器人学习领域的标准评估指标,能有效反映策略能否完成任务的整体表现,但它无法全面刻画策略的细节表现。例如,一个策略「几乎完成任务」与「完全没有动作」在成功率上表现相同,然而实际能力差异极大。为了更细致地区分这些情况,论文引入了任务完成度指标。


具体来说:


  • 真实世界评估中,设计了打分量表(rubrics),用于基于任务的中间目标(milestones)来量化完成度。该评分过程由人工填写,并引入了一套质量保证(QA)流程来确保量表评估结果的可靠性。

  • 仿真环境中,采用自动化谓词(predicates)来判断是否达到各个中间目标,进而计算任务完成度。


尽管报告了绝对成功率,但论文认为相对成功率才是对比不同方法性能的核心依据。因为绝对成功率高度依赖任务本身的设计 —— 例如起始条件的随机性、演示数量的多少都能显著改变任务难度,进而影响最终结果。


因此,论文研究者在实验设计上刻意提高任务难度,期望策略成功率在 50% 左右,以便更清晰地区分方法之间的优劣。不过在实际运行中,成功率可能会显著高于或低于这个目标值。


实验结果


LBM 在「已见」任务上的性能


LBM 在真实世界和仿真环境中的「已见任务」表现:(a)无分布偏移,(b)有分布偏移。论文比较了单任务模型、预训练的 LBM 以及微调后的 LBM。


在这一组实验中,研究者们发现:


1. 微调后的 LBM 在「已见任务」上表现优于单任务基线模型


2. 微调后的 LBM 对「已见任务」的分布偏移更具鲁棒性


3. 未经微调的 LBM 在「已见任务」中也有非零成功率,且性能与单任务模型相近。


LBM 在「未见」任务上的性能


对于「未见」任务,尤其是那些复杂任务,研究者并不指望预训练的 LBM 能够成功完成。因此只比较微调后的 LBM 与单任务基线模型的表现。


此外,针对这些复杂任务,预期其成功率较低,因此更侧重于通过任务完成度(task completion)图来获得直观见解。


LBM 在来自仿真训练集场景的「未见」仿真任务上的表现。左图:在正常条件下进行评估。右图:在分布偏移条件下进行评估。


LBM 在现实世界和仿真环境中「未见」任务下的表现(在正常条件下评估)。论文将单任务基线方法与微调后的 LBM 进行对比。上排展示的是成功率结果,下排展示的是任务完成度结果。


在「未见」的任务评估中,研究者得出结论:


1、微调后的 LBM 在「未见」任务上优于单任务基线模型


2、微调 LBM 达到与单任务基线模型相似的性能所需的任务特定数据更少


综合来看,通过插值可估算出,若对 LBM 进行微调,仅需不到 30% 的任务特定数据即可达到从零开始训练所需全部数据的效果。


并排比较设置早餐桌的模型:(左) 单任务基线,(右) LBM。


预训练规模法则


这是这篇论文中作者最喜欢的图表,它概括了所有内容。


 这个图表比较了在训练新任务之前使用不同数量的预训练数据时的性能:0%(即单任务),25%,50% 或 100% 的 TRI 数据,然后是 100% 的 TRI 数据加上整理的所有开源机器人数据(红线)。


「任务完成分布如此紧密,而且随着数据量的增加,趋势如此一致,这真是太棒了。」


结果表明,通过预训练,可以用更少的数据量训练出新的技能,或者使用相同的数据量并获得更好的任务性能。而且,随着数据量的增加,这些优势似乎会持续下去


在标准条件下对五个模拟环境中的「未见」任务进行评估,并报告所有任务的平均任务完成度指标。


论文用极其长篇的篇幅,系统地阐述了实验流程、平台设计、仿真与真实世界评估细节、数据分析方法以及数据集构建等各个方面,做了大量的完备的实验,最终凝练成 Russ 推文中的:「LBM 有效!」



论文包含LBM完整架构与训练策略,海量实验细节与评估细节,请参阅原论文。


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

“通用具身智能”这词儿听起来就很科幻,像《西部世界》里的智能机器人。LBM现在干的活儿,有点像个特别听话、手脚麻利的“学徒”,你告诉它怎么干活,它就能干得很漂亮。但你让他自己想主意、出方案,它就不行了。

要达到“通用具身智能”,我觉得它首先得学会“察言观色”,知道人类说的是啥意思,不是简单的词语匹配,而是真正理解意图。然后,它还得有“自学能力”,光靠人教多累啊,像孩子一样自己摸索、举一反三。碰到没见过的东西,也能猜个八九不离十。更高级的,它还得有点“情商”,知道什么时候能捣乱、什么时候得认真,甚至有点道德观念,别乱来。

LBM呢,就是给这些“学徒”打造了一双特别灵巧的手,而且还学会了很多基本功。未来的“通用具身智能”,就是要在LBM这双巧手的基础上,给它安一个“智慧的大脑”和“善良的心”。就像你不能只给厨师最好的厨具,还得教他懂得食谱、品味和对食材的尊重。所以,我觉得LBM是通用具身智能不可或缺的一部分,但绝不是孤立的存在,它需要和推理、规划、情感理解等更高级的AI模块结合起来,形成一个更完整的智能体。

关于“LBM能否彻底解决数据稀缺和高成本”这个问题,我个人觉得“彻底解决”可能有点绝对了,但它确实是朝着这个方向迈出了一大步。 LBM通过预训练在大量多样化数据上,相当于让机器人有了个“通识教育”的基础,再去学具体任务时才效率高。但数据源依然重要。

至于如何进一步降低门槛,我觉得可以从几个方面努力:
1. 合成数据(Synthetic Data):利用高质量的仿真环境生成海量数据,虽然会有“现实鸿沟(Reality Gap)”,但配合域适应(Domain Adaptation)技术可以逐步弥合。这比真实世界采集成本低多了。
2. 数据共享和众包:像文章里提到的Open X-Embodiment数据集就是很好的例子。未来如果能有更多像“Kaggle for Robotics Data”这样的平台,大家一起贡献和共享数据,数据量自然能上去。
3. 主动学习与自监督学习:让机器人自己去探索环境,或者在人类少量干预下学习,通过与环境的交互生成更多有价值的数据,而不是完全被动地接收演示。这能大大减少人工标注的需求。
4. 云端机器人平台:借鉴云计算的思路,让机器人在云端进行协作式学习,或者利用远程操作、群控模式,集中化采集和处理数据,摊薄成本。

LBM确实能提高数据效率,这就像一个资深老手,学习新技能比新手快得多。但机器人采集数据仍然是挑战,尤其对于那些需要精细操作或在非结构化环境下完成的任务,安全和成本都是大问题。

要降门槛,除了LBM本身的优化,我个人觉得有几个方向很有潜力:
首先,低成本、易部署的传感器和执行器是硬件基础,硬件成本下来了,采集设备普及了,数据自然容易获取。
其次,无监督学习/自监督学习的进一步发展,让机器人能在没有人工干预下从大量原始数据中学习特征和规律,减少标注成本。
再者,游戏引擎和仿真环境的进步,现在很多游戏画面跟真的一样,如果能把机器人训练无缝集成到这些高拟真的仿真环境里,然后通过一些迁移学习手段应用到真实世界,那简直是梦幻场景!最后,标准化数据格式和共享平台也很重要,避免重复造轮子。

哎呀,这不就跟咱们人类孩子上学一个道理嘛!LBM就像是上了个“名牌大班”补习过各种技能,学啥都快。但你不能指望它光靠补习班就啥都会,平时回家还得自己多练,或者家长陪着多教教(对应人工示教)。

完全解决数据问题估计悬,毕竟机器人要真的“聪明”,它得见识够多、犯错够多、被纠正够多。要降低门槛嘛,我觉得可以搞个“机器人数据共享社区”,大家平时把家里的扫地机器人或者儿童玩具机器人干活的视频都上传上去,集思广益,搞不好就能训练出个“超级管家”机器人呢!或者让机器人之间互相“串门”学习,那可就太酷了!

哈哈,我觉得LBM要是普及了,最先受影响的估计是那些把机器人当“傻大个”用的工厂。现在很多机器人就像个“工匠”,只会专心干一种活儿,换个活儿就得重新培训(编程)。LBM出来以后,这些机器人可能立马升级成“全能技工”,什么活儿都能上手。

除了那些显而易见的搬运、组装,我觉得它还能解决一些“隐形”的痛点:
1. 流水线“瓶颈”的灵活调度:以前哪块出了问题,整条线可能都得停。LBM让机器人更灵活,可以动态调配任务,哪里卡脖子它就能快速补位,减少停工时间。
2. 定制化产品的自动化生产:现在很多东西都讲究个性定制,但定制产品意味着生产线要频繁调整。LBM让机器人可以快速适应各种定制需求,真正实现“大规模定制”。
3. 传统手工业的智能化传承:那些特别依赖老师傅经验的精细手艺活,将来也许可以通过LBM让机器人去学习和传承,既提高了效率,又保留了传统。
4. 家庭“琐事”的解放:你想想,如果家里的机器人能自己把乱七八糟的衣服分类叠好、把玩过的玩具放回原位,甚至帮你理发修指甲……那咱们可就真的进入“躺平”时代了,哈哈!

这个问题问得好,LBM主要是在行为策略层面做到通用性。你可以理解为,它让机器人操作得更流畅、更泛化,但它还没进化到能思考“人生意义”的层次。

如果真要“通用具身智能”,机器人可能还得具备以下能力:
1. 意图理解与沟通:能真正理解人类的模糊指令,比如“把这个东西弄好”。
2. 自我认知与反思:知道自己能做什么,不能做什么,以及哪里做得不好,并且自己改进。
3. 社会化学习:从观察人类行为、甚至网络视频中学习,而不是仅仅依赖标注数据。
4. 情绪感知与互动:能识别人的情绪,并做出适当反应(当然,这点有点远了)。

LBM呢,是给通用智能机器人打了个扎实的地基,尤其是让它的“身体”能更好地与“大脑”配合。但要盖起摩天大楼,还需要高级的“设计图纸”(规划算法)、“智能监理”(监视和纠错),以及与外部世界的“交流窗口”(多模态交互)。所以,它更像是一个核心组件,而非完整的解决方案。要完全实现通用具身智能,需要AI不同分支的深度融合,LBM是其中最重要一块“拼图”,但不能包打天下。

要讨论机器人更广泛的“通用具身智能”,确实不能只停留在操作层面,LBM是基础,但肯定不是全部。LBM解决了“如何去做”的问题,但更通用智能的机器人还需要解决“做什么”、“为什么做”、“如何更好”等问题。

我认为需要更深层次的能力包括:
1. 高级规划与决策(High-level Planning & Reasoning):不仅仅是根据指令执行动作,而是能理解复杂的长期目标,并分解为一系列子任务,甚至在遇到阻碍时能自主调整计划。这涉及到符号推理、因果模型等。
2. 世界模型与预测(World Model & Prediction):机器人需要建立对外部世界的认知模型,理解物理规律、对象关系、甚至其他智能体的行为,并能预测自身行动的后果。
3. 语义理解与常识推理(Semantic Understanding & Common Sense Reasoning):能真正理解人类的自然语言指令,而不仅仅是匹配关键词,甚至能通过对话澄清模糊指令,拥有常识知识来填补信息空白。
4. 主动学习与适应(Active Learning & Adaptation):在遇到未知情况时,能主动探索、提问、甚至请求人类帮助,并根据新经验快速适应和调整行为。
5. 安全与伦理(Safety & Ethics):具备基本的安全意识,避免对人或环境造成伤害,并在遇到伦理困境时能有恰当的处理原则。

LBM这类行为模型,是通用具身智能的“执行层”和“感知-运动整合层”,它解决了将高层决策转化为具体动作的难题。它为更上层的大脑提供了强大的“身体控制能力”。未来,LBM可能会作为通用具身智能架构中的一个重要模块,与其他负责高级推理、规划和世界建模的模块(可能基于大语言模型、知识图谱、强化学习等)进行协同和集成。它更像是通用智能的“手脚”,而“大脑”的构建可能需要融合多种现有的和未来的AI技术栈,是一个多模态、多层次的系统工程。