RoboVLMs:化繁为简,解锁机器人VLA无限可能

RoboVLMs:一种简化的视觉语言动作模型,在模拟和真实机器人实验中均取得了显著成果,为机器人领域开启了新的可能性。

原文标题:全新模型RoboVLMs解锁VLA无限可能,真实机器人实验交出满分答卷

原文作者:机器之心

冷月清谈:

清华、字节跳动等机构的研究人员推出了一种全新的视觉语言动作模型RoboVLMs,该模型在简化设计的同时实现了性能的突破。研究人员通过一系列实验,探讨了VLA模型设计的关键问题,并提出了RoboVLMs的构建方法。

1. VLA的优势:实验表明,设计合理的VLA模型不仅能高效完成常见操作任务,还能在陌生场景中展现出强大的泛化能力。RoboVLMs在CALVIN和SimplerEnv等模拟任务中取得了领先的成绩,并在真实机器人实验中展现了优异的性能,例如在果蔬分类任务中能够精准识别并应对干扰。

2. VLA架构设计:研究人员对动作空间、历史信息、历史信息组织模块等方面进行了深入研究。实验结果显示,采用连续动作空间、添加多步历史信息和使用专门的历史信息组织模块能够有效提升模型的性能和泛化能力。基于KosMos基座模型并结合专门的历史信息组织模块的架构设计在CALVIN环境中实现了出色的泛化能力。

3. 基座模型选择:通过对比8种主流视觉语言模型,研究人员发现KosMos和Paligemma表现最佳,这主要得益于它们强大的视觉语言预训练能力。选择合适的基座模型对于VLA模型的性能提升至关重要。

4. 跨本体数据引入时机:实验表明,在预训练阶段引入跨本体数据,如Open-X Embodiment数据集,能够显著提升模型的鲁棒性和少样本场景下的表现。相比之下,将跨本体数据和微调数据混合训练效果则不明显。

RoboVLMs的出现验证了视觉语言动作模型的巨大潜力,未来研究方向包括更细化的设计优化、挑战更复杂的机器人任务以及提升多模态协作能力。

怜星夜思:

1、文章中提到RoboVLMs在真实机器人实验中取得了满分答卷,具体指的是哪些实验,以及“满分”的评判标准是什么?
2、文章强调了KosMos和Paligemma作为基座模型的优势,它们的主要区别是什么,为什么它们比其他VLM表现更好?
3、文中提到的跨本体数据对模型性能的提升有什么作用,有哪些典型的跨本体数据集?

原文内容

图片
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected][email protected]

本文作者来自清华大学、字节跳动、中科院自动化所、上海交通大学和新加坡国立大学。作者列表:李兴航、李沛言、刘明桓、王栋、刘济榕、康炳易、马骁、孔涛、张翰博和刘华平。第一作者李兴航是清华大学计算机系博士生。通讯作者是字节跳动机器人研究员孔涛,新加坡国立大学博士后张翰博和清华大学计算机系教授刘华平。

近年来,视觉语言基础模型(Vision Language Models, VLMs)大放异彩,在多模态理解和推理上展现出了超强能力。现在,更加酷炫的视觉语言动作模型(Vision-Language-Action Models, VLAs)来了!通过为 VLMs 加上动作预测模块,VLAs 不仅能 “看” 懂和 “说” 清,还能 “动” 起来,为机器人领域开启了新玩法!


虽然 VLAs 在各种任务和场景中表现抢眼,但大家在模型设计上却走了很多不同的路,比如用什么架构、怎么选数据、怎么调训练策略等等,这导致领域内对 “怎么做好一个 VLA” 还没有统一的答案。为了理清这些问题,我们通过一系列的实验,提出了一个全新模型 ——RoboVLMs


  • 论文标题:Towards Generalist Robot Policies: What Matters in Building Vision-Language-Action Models
  • 论文地址:https://arxiv.org/pdf/2412.14058


这个模型超级简单,但性能却相当硬核!它不仅在三个模拟任务中取得了高分,还在真实机器人实验中交出了满分答卷。这篇文章就是要带你一起看看,我们是如何用 RoboVLMs 解锁 VLA 的无限可能!

四大灵魂拷问:RoboVLMs 是怎么炼成的?

我们围绕四个关键问题,对 VLA 的设计展开了深度探索,下面就带你看看答案!

1. 为什么要用 VLA 模型?

简单说,通过实验,我们发现设计合理的 VLA 不仅能轻松搞定常见的操作任务,还能在陌生场景中稳稳发挥。

仿真任务中拿下顶尖成绩

在 CALVIN 和 SimplerEnv 环境里,RoboVLMs 取得了压倒性的胜利:

  • 任务成功率:表现稳定且超越主流模型。
  • 泛化能力:即使在陌生场景中,表现依然抗打!

图 1 SimplerEnv 仿真环境中的评测结果            

图 2 针对视觉语言预训练的消融实验结果
 

图片


图片


真实机器人实验也不输

在真实环境中,RoboVLMs 面对更复杂的挑战,仍然比其他模型表现更好。比如,在果蔬分类任务中,它不仅能精准识别,还能应对干扰环境,稳稳完成分类操作。无论是已知场景还是新任务,它都能轻松拿下。

图 3 真实环境下的评测结果

对于未见过的技能描述、背景、干扰物体和目标物体,RoboVLMs 均能很好的完成任务。

图片


2. 怎么设计一个靠谱的 VLA 架构?

这里面讲究可不少!比如:

  • 动作空间:用连续动作空间比离散的好很多。
  • 历史信息:加多步历史信息后,模型的操作更稳准狠。
  • 历史信息组织模块:一个专门的模块可以让模型更懂 “上下文”。

经过一系列实验,我们确认了这些设计选择是提升模型性能和泛化能力的关键。进一步的实验也表明,最优的设计来自于基于 KosMos 基座模型的架构,并且结合了专门的历史信息组织模块。这样的设计在 CALVIN 中实现了出色的泛化能力,在 zero-shot 设置下仅有轻微的性能下降,而其他设计形式的模型则出现了显著掉分。这一结论直接说明,架构设计的好坏对模型的泛化能力和效率至关重要


3. 选什么基座模型最合适?

我们对比了当前主流的 8 种视觉语言模型(VLM),结果发现 KosMosPaligemma 的表现遥遥领先,轻松碾压其他模型。无论是任务完成的精确度还是泛化能力,它们都展现出了压倒性的优势。究其原因,主要得益于它们经过了扎实且全面的视觉语言预训练,从而为模型提供了强大的先验知识和理解能力。

这一发现让我们更加确信:选对基座模型,就是让 VLA 模型起飞的关键一步!想要让模型在多模态任务中表现惊艳,一个经过深度预训练、具备强大视觉语言表征能力的 VLM 基座显然能提供无与伦比的助力。而一旦打好了这个基础,后续的设计和训练才能真正发挥最大潜力。


4. 跨本体数据什么时候加入最合适?

实验告诉我们一个黄金法则:在预训练阶段引入跨本体数据(如 Open-X Embodiment 数据集)可以显著提升模型的鲁棒性和少样本场景下的表现。反之,直接将跨本体数据和微调数据混合训练,效果就没那么显著了。这些结论为未来 VLA 模型的训练策略指明了方向。

具体实验中,我们在 WidowX+Bridge 和 Google Robot 两大环境下分别进行了不同训练策略的测试:

WidowX+Bridge 环境:

  • Bridge Finetune:直接在完整的 Bridge 数据集上微调(测试任务不包括在内)。
  • OXE Pre-Train:先用 OXE 数据集预训练模型。
  • Post-Train:用经过 OXE 预训练的模型再在 Bridge 数据集上微调。

Google Robot 环境:

  • RT-Partial Finetune:仅在特定的 RT 任务上微调。
  • RT Finetune:在完整的 RT 数据集上微调(包括测试任务)。
  • OXE Pre-Train:先用 OXE 数据集预训练模型。
  • Post-Train:在 OXE 预训练基础上用 RT 数据集进一步训练。

实验结果进一步验证了:在预训练阶段引入跨本体数据不仅能提升泛化能力,还能让模型在少样本和高复杂任务下表现更佳


展望未来:VLA 的进阶之路

虽然 RoboVLMs 已经很能打了,但接下来的发展空间更让人期待!未来可以探索:

  1. 更细化的设计优化:比如再打磨 VLM 内部结构、信息融合模块和训练目标,让它更高效。
  2. 挑战复杂任务:像 “做早餐” 这种长链条任务,也许是下一个突破点!
  3. 多模态协作能力:进一步让机器人 “看懂”、“听清”、“动得更聪明”。

RoboVLMs 的出现,验证了视觉语言动作模型的可能性,也让机器人更接近成为我们的全能助手。未来,它们或许不仅能理解语言和视觉,还能真正帮我们完成那些繁琐又复杂的任务。接下来会有更多惊喜等着我们!

© THE END 
转载请联系本公众号获得授权
投稿或寻求报道:[email protected]


它们比其他VLM表现更好,主要原因在于它们在预训练阶段使用了更丰富的多模态数据,并且采用了更先进的模型架构。这使得它们在理解视觉和语言信息、进行跨模态推理方面具有更强的能力。

“满分答卷”这个说法可能有点夸张了,学术论文里很少会用这种说法,更可能是媒体报道为了吸引眼球用的。文章里提到了真实机器人实验中的果蔬分类任务,但没给出具体的实验数据和“满分”的定义。估计得看原文或者补充材料才能知道具体的实验设置和评价指标。

Kosmos和Paligemma都是强大的多模态模型,但它们在架构和训练数据上有所不同。Kosmos使用了Transformer架构,并在更大规模的数据集上进行了训练,使其能够更好地理解视觉和语言信息之间的关系。Paligemma则更注重知识的整合,它将外部知识库融入到模型中,使其能够进行更复杂的推理。

跨本体数据就像给模型打了一针“强心剂”,让它能够更好地应对各种挑战。如果没有跨本体数据,模型就容易“水土不服”,在新环境或新任务中表现不佳。

有没有可能“满分”指的是相对其他模型的比较结果?也就是说,RoboVLMs在同样的实验条件下,比其他VLA模型的表现更好,达到了目前最佳的水平,所以说是“满分”?

我觉得“满分答卷”应该是指在特定测试集上达到了100%的准确率或者成功率。不过,真实机器人实验中要完全排除各种干扰因素很难,所以这个“满分”可能是在理想条件下或特定指标下达成的,具体情况还是得看论文的实验部分。

Open-X Embodiment就是一个典型的跨本体数据集,它包含了各种机器人操作任务的数据,可以用于训练VLA模型。此外,还有像RoboNet、REPLAB等数据集,也包含了丰富的机器人操作数据。

跨本体数据可以帮助模型学习更通用的表征,提高模型的泛化能力。例如,在机器人领域,跨本体数据可以包含不同类型的机器人、不同的环境、不同的任务等,这可以帮助模型更好地适应新的场景和任务。

可以这么理解,Kosmos就像一个博览群书的学者,它见多识广,能够理解各种视觉和语言信息;而Paligemma则像一个经验丰富的专家,它拥有丰富的专业知识,能够进行更深入的分析和推理。