灵初智能发布Psi R0.5:高效泛化的端到端VLA模型

灵初智能发布Psi R0.5 VLA模型,实现高效泛化抓取,数据利用率提升250倍,同时提升安全性。

原文标题:灵初智能发布端到端VLA模型Psi R0.5,仅需两小时数据实现物品、场景全面泛化

原文作者:机器之心

冷月清谈:

灵初智能最新发布的Psi R0.5端到端VLA模型,在复杂场景的泛化性、灵巧性、CoT、长程任务能力上均有显著提升。该模型基于强化学习的增强版分层架构,仅需少量数据即可完成泛化抓取训练,数据利用效率远超同类模型。

其中,DexGraspVLA是Psi R0.5的核心组成部分,它是一个融合视觉、语言和动作的层次化框架。高层规划由预训练的大型视觉语言模型(VLM)实现,理解指令并决定抓取策略;低层控制器则通过实时视觉反馈,闭环掌握目标物体。DexGraspVLA仅需约2小时的灵巧手抓取数据,即可泛化到上千种不同物体、位置、堆叠、灯光、背景下成功抓取,数据量仅为Figure的0.4%。

此外,灵初智能还发布了Retrieval Dexterity、ExDex和SafeVLA等模型,分别解决了堆叠场景中的物体检索、利用外部环境配合抓取以及VLA安全对齐等问题。Retrieval Dexterity通过强化学习在仿真环境中训练,实现高效的物体检索策略;ExDex利用环境特征进行非夹持式操作,解决物品超过机器人末端执行器最大开度时的抓取难题;SafeVLA则通过安全对齐,保障机器人在复杂场景中安全高效地执行任务。

怜星夜思:

1、Psi R0.5模型的低层控制器是如何实现闭环掌握目标物体的?具体使用了哪些技术?
2、相比其他VLA模型,Psi R0.5只需要少量数据就能实现泛化,这背后的原因是什么?
3、SafeVLA模型是如何保障机器人安全的?在实际应用中,SafeVLA的安全性如何评估?

原文内容

图片
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected][email protected]

近日,Figure 发布的端到端 VLA 具身大模型 Helix,采用分层架构同时实现高频控制和高泛化能力,引起了业内广泛关注。几乎同期,中国具身智能团队灵初智能发布了基于强化学习的增强版分层架构端到端 VLA 模型 Psi R0.5,这距离灵初智能团队去年底发布的 Psi R0 仅 2 个月

本次发布的新模型重大升级,对于复杂场景的泛化性灵巧性CoT长程任务能力上均有显著提升,同时完成泛化抓取训练所需的数据量仅需 Helix 数据量的 0.4%!在全球范围内实现了泛化灵巧操作与训练效率的双重领先。

此外,灵初智能团队连发四篇高质量论文,将团队在高效实现泛化抓取堆叠场景的物品检索利用外部环境配合抓取VLA 安全对齐方面的最新成果悉数公开,展现了中国团队在具身智能领域的强悍战斗力。
 
Psi R0.5 路径演进图

DexGraspVLA
仅需两小时灵巧手抓取数据
轻松实现物品、灯光、场景泛化
并实现真正 CoT

DexGraspVLA 是首个用于灵巧手通用抓取的 VLA(Vision-Language-Action)框架,通过少量的训练,即刻在多变环境下智能涌现灵巧操作能力,能够像人类一样快速、准确地拾取各种物品。

DexGraspVLA 是一个融合视觉,语言和动作的层次化框架:

  • High-level Planner:高层规划由预训练的大型视觉语言模型(VLM)实现,可理解多样化指令、自主决定抓取策略

  • Low-level Controller:低层扩散策略通过实时视觉反馈闭环掌握目标物体智能涌现出灵巧操作能力


整个框架的核心在于将多样化的图像输入数据通过现有的 Foundation Model 转换成 Domain-invariance 的表征,并端到端地训练下层控制模型。
 
DexGraspVLA 框架图

从实验结果看,灵初智能仅使用了约 2 小时的灵巧手抓取数据(2094 条轨迹 × 3.5 秒 / 条 ÷ 60 秒 / 分钟 ÷ 60 分钟 / 小时 ≈ 2 小时),泛化到上千种不同物体,位置,堆叠,灯光,背景下成功抓取,而这个数据量仅仅是 Figure 的 0.4%数据利用效率提高 250 倍

同时,DexGraspVLA 相比现有方案还具有几项优势:

  • 根据语言指令分辨出目标物体,处理堆叠场景下的目标物体的检索并抓取

  • 抓取速度快(所有视频无加速,同类工作中节拍较快),闭环姿态矫正与重抓取能力(ReGrasp)

  • 大脑具有 CoT 长程推理能力自主推理抓取顺序并将所有物体依次抓取


DexGraspVLA 可以快速抓取不同形状、大小、材质、软硬度物品

DexGraspVLA 展现出对光照变化背景干扰和物体姿态的强大鲁棒性和泛化性,让机器人的灵巧抓取达到人类级别。

DexGraspVLA 在极端变化的灯光、桌面下仍然保持鲁棒性

基于预训练的大模型:使用自然语言与人类交互,具有高智能的长程推理能力,能够自主理解人类话语并推理任务。因此可以一次设定多个抓取目标,通过 CoT 实现复杂流程下的自动分拣或清理。

DexGraspVLA 可以通过 Planner 自行推理决策完成长程任务,实现 CoT

DexGraspVLA 仍然会自动分析当前姿态偏差,通过细微调整腕关节和手部角度重新尝试抓取实现非常鲁棒且高效的抓取能力达到极强的泛化能力

DexGraspVLA 实现完全闭环控制、实时高频纠错


  • 网站:https://dexgraspvla.github.io/

  • 论文:https://arxiv.org/abs/2502.20900

  • 代码:https://github.com/Psi-Robot/DexGraspVLA


Retrieval Dexterity
堆叠场景中的高效物体检索策略

强化学习底层驱动,简单 reward 涌现复杂动作

在大多数实际场景中,物品往往以无规则、堆叠的方式摆放。传统方法要求机器人逐件搬开遮挡物,不仅耗时,还对机器人自身抓取能力提出了很高的要求。

为了解决这一难题,灵初智能开发了一套基于强化学习的物体检索策略 ——Retrieval Dexterity,解决了堆叠场景中物体检索识别效率低的问题。

Retrieval Dexterity 系统中未用真机数据,灵初团队没有采用真机数据进行训练而是直接在仿真环境中通过强化学习进行训练。通过在仿真环境中大规模生成复杂的堆叠场景,训练模型直至涌现出合适的检索操作,随后再将这些操作零样本迁移至现实机器人和复杂环境中。

Retrieval Dexterity 框架图

从杂乱堆叠物体中快速取出目标物体

在超过 10 种不同形状、大小的生活物品测试中,Retrieval Dexterity 展现出了优秀的性能,不仅能够高效完成训练过的物体的检索任务还能将检索能力泛化到未见过的新物体上

Retrieval Dexterity 可以快速在堆叠物品中找到并抓取目标物品

效率对比传统方法提升明显

与人为设定的动作相比,Retrieval Dexterity 在所有场景中平均减少了 38% 的操作步骤与模拟的 “将所有物体抓起来并放开” 相比,该方法更是平均减少了 90% 的步骤数量。这种效率提升主要得益于多指灵巧手能够直接与遮挡物进行交互,并随时移动它们,而不需要逐个移除。

相较于传统方法,灵初的 Retrieval Dexterity 的步骤更少,效率更高


  • 论文:https://arxiv.org/abs/2502.18423

  • 网站:https://changwinde.github.io/RetrDex/


ExDex:借力外部环境
抓取 “不可能” 物体

外部灵巧性解决物品超过机器人末端执行器的最大开度问题

当物体的底面尺寸超过机器人末端执行器的最大开度时,传统方法往往无法直接对物体进行抓取,这种情况在商场等商业场景尤为常见。为了解决这一难题,灵初智能推出了 ExDex—— 一种基于外部灵巧性(extrinsic dexterity)抓取的创新解决方案

ExDex 能够利用环境特征进行非夹持式操作,凭借多指灵巧手的灵活性和操作能力,实现更丰富的环境交互。

强化学习带来超越人类遥操作水平的灵巧操作

机器人通过将物品推到墙角借助外力拿起单手无法直接抓取的物品

通过强化学习,ExDex 涌现出自主制定策略的能力,借助周围环境抓取那些无法直接抓取的物体。例如,机器人可以将物体先推到桌面边缘或墙体边缘,再利用这些环境特征完成抓取任务。这种操作通过传统的遥操作方式几乎无法实现,充分体现了强化学习的强大优势。

在对数十种不同家居物品的大量实验中,ExDex 验证了其优越的性能和对新物体的泛化能力并成功将仿真训练的策略无缝迁移到真实机器人中,实现了从仿真到现实的高效过渡。

  • 网站:https://tangty11.github.io/ExDex/


SafeVLA:人机安全交互的 “守护神”

当下,具身智能机器人频繁出圈,从春晚跳舞的 Unitree 人形机器人,到波兰街头遛机器狗的新奇场景,让人看到人机交互的无限可能,但安全问题也不容忽视。视觉 - 语言 - 行动模型(VLAs)在革新机器人技术时,也藏着安全隐患。
 
左图呈现了传统 VLA 模型在抓取任务中的三种典型不安全行为:1)对无关物体的严重损坏,2)目标识别错误导致危险物体的误用,以及 3)执行指令时与危险物体发生交互。右图通过导航路径示例,进一步展示了传统 VLA 在导航过程中的三种不安全行为

本周,北京大学 PAIR - Lab 团队携手灵初智能重磅推出了具身安全模型 SafeVLA,通过安全对齐,让机器人在复杂场景安全高效执行任务,在对抗干扰场景中鲁棒性极高

SafeVLA 把 “以人为本” 刻进 DNA,不像传统机器人只盯着任务完成它把人类安全放在首位。技术上,引入约束马尔可夫决策过程(CMDP)范式,把现实安全约束融入仿真环境大规模采样。SafeVLA 在安全性和任务执行方面均取得突破性进展分别提升 83.58% 和 3.85%充分证明了其在平衡安全与效率方面的卓越能力
 
图片
传统 VLA 模型完成任务过程中的高危行为

团队开发全新仿真环境 Safety - CHORES集成安全约束功能支持用户自定义规则代码还完全开源直接给全球研究者和开发者送福利。而且,SafeVLA 在 12 个分布外(OOD)实验里,面对光照、材质变化和复杂环境扰动,始终稳定发挥,实力碾压其他模型。 

图片
SafeVLA 在正常测试集和 OOD 测试集上的比较,其在 OOD 环境下依然保持良好安全性和表现

  • 网站:https://sites.google.com/view/pku-safevla


© THE END 
转载请联系本公众号获得授权
投稿或寻求报道:[email protected]

我觉得可能跟预训练的VLM有关。VLM本身就已经学习了大量的知识,可以帮助模型更好地理解指令和场景,从而减少对特定任务数据的依赖。有点像“站在巨人的肩膀上”,可以看得更远。

有没有可能用深度强化学习来实现这个闭环控制?感觉现在机器人领域很流行用强化学习来训练控制策略。不过,强化学习的训练成本比较高,不知道灵初智能是怎么解决这个问题的。

关于SafeVLA的安全性保障,文章提到了“约束马尔可夫决策过程(CMDP)”,应该是将安全约束融入到强化学习的训练过程中,让机器人学习到安全的策略。至于安全性评估,我想到的是可以设置一些危险场景,比如机器人旁边放一些易碎物品,然后观察机器人的行为,看它是否会做出危险的动作。

“Safety-CHORES”仿真环境应该在SafeVLA的安全性评估中扮演了重要的角色。在仿真环境中,可以模拟各种危险场景,对SafeVLA进行全面的测试。不过,仿真环境毕竟和现实世界存在差距,最终还需要在真实环境中进行验证。

我觉得SafeVLA的安全性应该是一个多方面的考量,不仅仅是避免机器人损坏物品,还要考虑机器人自身的安全,以及与人类交互时的安全。比如,机器人应该避免碰撞到人类,也不应该做出一些让人感到恐惧的动作。

我感觉Psi R0.5的高效泛化能力可能跟它采用的“分层架构”有关。分层架构可以将复杂的抓取任务分解成更小的子任务,每个子任务都更容易学习和泛化。另外,文章中提到了“Domain-invariance 的表征”,这可能是指模型能够提取出与具体领域无关的特征,从而提高泛化能力。

我觉得低层控制器的核心在于“闭环”这两个字。它不像传统的开环控制那样,设定好程序就让机器人自己去执行,而是根据环境的实时反馈不断调整动作。就像我们人抓东西一样,眼睛会一直看着目标,手也会根据实际情况调整姿势和力度。这种闭环控制的方式,可以让机器人更加灵活和适应性更强。

会不会是用了某种数据增强技术?比如,通过对少量数据进行旋转、平移、缩放等操作,可以生成更多的数据,从而提高模型的泛化能力。不过,这只是我的猜测,具体细节还需要进一步了解。

关于Psi R0.5低层控制器的闭环机制,文章提到了“实时视觉反馈”,我理解应该是通过摄像头获取实时图像信息,然后根据图像信息不断调整机械臂和灵巧手的动作,最终抓取到目标物体。至于具体的技术,文章没有详细说明,可能涉及到计算机视觉、机器人控制等方面的技术,比如目标检测、姿态估计、轨迹规划等等。个人觉得,这部分内容可以深入研究一下。