超越抓取!北大银河通用DyWA模型,赋能机器人更灵巧的“非抓握”操作

北京大学与银河通用发布DyWA模型,赋能机器人全面泛化的非抓握操作,通过世界-动作建模与动力学自适应,实现了零样本迁移。

原文标题:机器人不只会抓和放!北京大学X银河通用「世界-动作模型」赋能全面泛化的非抓握技能

原文作者:机器之心

冷月清谈:

当前机器人视觉语言操作(VLA)模型虽具备一定泛化能力,但主要限于抓取与放置,难以应对现实世界中诸如推动、翻转等更灵活的非抓握操作任务。非抓握操作在处理薄片、大型物体或复杂场景时至关重要,但面临两大核心挑战:一是复杂的接触建模,如摩擦力、物体质量分布等物理属性难以精确获取,传统方法缺乏对隐式动力学属性的适应能力;二是现实感知受限,单视角点云易遮挡,高精度多视角系统又昂贵且部署繁琐。

为克服这些难题,北京大学与银河通用共同提出了自适应性“世界-动作模型”(Dynamics-adaptive World Action Model, DyWA)。该模型的核心方法包括:首先,创新性地采用“世界-动作模型”,联合建模机器人执行的动作及其将导致的未来状态。这赋予了机器人“想象力”,使其能在训练过程中隐式地学习并理解物理世界的动力学过程,从而显著提升策略的学习效率与泛化能力。其次,DyWA引入了“动力学自适应机制”。通过分析历史观测与动作序列,模型能够推理出环境中隐含的物理属性,如桌面摩擦系数或物体质量分布,并动态调整操作策略以实现自适应的物理交互。

此外,为确保实际部署的可行性,DyWA仅依赖单个深度相机获取点云作为输入,并结合大规模域随机化仿真训练,实现了从仿真环境到真实机器人的“零样本迁移”。实验结果表明,DyWA在仿真和真机环境中均显著优于现有基线方法,展现出强大的全面泛化能力,不仅能泛化至未训练的物体几何形状和质量分布,还能自适应各种摩擦表面,并具备强大的闭环自适应能力。该模型还可与现有抓取策略及视觉语言大模型协同工作,进一步提升复杂场景下机器人完成任务的成功率。

怜星夜思:

1、DyWA看起来在“推”、“翻”这些非抓握动作上很厉害,那大家觉得这种非抓握能力对未来家用机器人或者物流机器人有什么特别的优势?它能解决哪些光靠“抓取”搞不定的现实痛点呢?
2、文章里说DyWA能让机器人“想象”动作效果,还能“读懂”环境里的摩擦力、物体质量这些“隐含因素”。这听起来很玄乎,大家觉得这种“想象力”和“自适应”机制在实际中具体是怎么实现的?有没有一些例子能帮助理解?
3、DyWA能零样本从仿真迁移到真实世界,这听起来太酷了!是不是意味着以后我们买个机器人,就能直接把它扔到各种新环境里,不用再专门训练就能干活了?但它有没有什么局限性或者适用范围呢?比如对于那些特别精细、或者从未见过的任务,它还能搞定吗?

原文内容


本文的作者团队来自北京大学和银河通用机器人公司。第一作者为北京大学计算机学院前沿计算研究中心博士生吕江燃,主要研究方向为具身智能,聚焦于世界模型和机器人的灵巧操作,论文发表于 ICCV,TPAMI,RSS,CoRL,RAL 等机器人顶会顶刊。本文的通讯作者为北京大学计算机学院教授王亦洲和北京大学助理教授、银河通用创始人及CTO 王鹤。


尽管当前的机器人视觉语言操作模型(VLA)展现出一定的泛化能力,但其操作模式仍以准静态的抓取与放置(pick-and-place)为主。相比之下,人类在操作物体时常常采用推动、翻转等更加灵活的方式。若机器人仅掌握抓取,将难以应对现实环境中的复杂任务。例如,抓起一张薄薄的银行卡,通常需要先将其推到桌边;而抓取一个宽大的盒子,则往往需要先将其翻转立起(如图 1 所示):


图片


这些技能都属于一个重要的领域:非抓握操作(Non-prehensile Manipulation)。非抓握操作泛指不通过夹取、抓握等方式进行物体操控的行为,广泛应用于处理薄片、大型物体、复杂几何或密集场景下的操作任务。然而现实环境的物理属性比较复杂,操作对象的几何形状,质量,桌面的摩擦力等都会成为制约非抓握操作的因素。为了实现对上述环境因素全面泛化的非抓握操作技能,北京大学与银河通用提出了自适应性【世界 - 动作】模型 Dynamics-adaptive World Action Model (DyWA)(/diː.və/),协同学习系统的动力学和机器人的精细操作策略。该项研究已被 ICCV 2025 接收。



  • 论文链接:https://arxiv.org/abs/2503.16806

  • 论文标题:DyWA: Dynamics-adaptive World Action Model for Generalizable Non-prehensile Manipulation

  • 项目主页:https://pku-epic.github.io/DyWA/

  • 代码仓库: https://github.com/jiangranlv/DyWA


非抓握操作的两大难点


复杂的接触建模


与抓取相比,非抓握操作涉及连续接触、多变的摩擦力等复杂物理交互。 机器人推一个物体时,摩擦力的微小变化可能导致运动轨迹完全不同:换一块桌布,物体就变得 “推不动” 或 “滑太快”;同一个杯子,空的和装满水时,移动行为完全不同;对于质量分布不均的物体,会出现 “旋转 - 滑动” 的非线性行为。


传统的物理建模或优化方法(如 Trajectory Optimization)虽然可以部分求解这些问题,但依赖精确的物体质量、摩擦系数、几何模型,这些属性难以在真实世界获得。目前的学习方法如 CORN、HACMan 等,主要侧重于仅根据几何信息推理动作,例如 “向左推物体会往左移动”,但它们缺乏对环境中潜在动力学属性(如摩擦、质量、弹性等)的建模与适应能力,导致在面对真实物理扰动时表现急剧下降。


现实感知受限:信息缺失 + 噪声干扰


要实现高质量的非抓取操作,机器人必须知道物体在哪里、姿态如何、表面几何如何接触。这对感知系统提出了极高的要求。


但在现实中,常见传感器面临单视角点云严重遮挡,多视角设置昂贵且繁琐,不适合部署在真实环境或移动平台上;而已有方法常常假设多视角输入、额外的位姿追踪模块,但在现实中难以部署。


DyWA 的核心方法


1. 世界 - 动作模型:联合建模动作与未来状态,让策略具备 “想象力”


DyWA 采用标准的 teacher-student 框架,将利用全知信息训练的强化学习教师策略在线蒸馏给一个仅接收点云输入的学生模型。与传统方法仅学习动作输出不同,DyWA 同时预测动作将带来的未来状态,相当于让机器人 “想象” 动作执行后的效果。在训练过程中,模型因此能够隐式建模物理世界的动力学过程,从而显著提升学习效率与泛化能力。该模型被称为 “World Action Model”。实验结果表明,这种联合建模方式可带来更优的策略优化效果和更强的鲁棒性。


2. 动力学自适应机制:从历史中 “读懂” 摩擦、质量等隐含因素


在真实环境中,机器人往往无法直接获知桌面的摩擦系数或物体的质量分布。DyWA 引入了一种类似 RMA(Rapid Motor Adaptation)思想的动态适应模块,通过分析历史观测和动作序列,推理出环境中隐含的物理属性,例如表面是否光滑、物体是否沉重或质量分布是否均匀。同时,历史信息还包含更完整的几何线索,弥补了单帧观测中的缺失。


该动力学表示通过 FiLM 机制调控世界模型的中间特征,使策略在执行过程中能够动态调整 “用力” 或 “稳住” 的程度,实现自适应的物理交互。


3. 单视角输入 + 大规模域随机化仿真训练 + 零样本迁移


考虑到现实部署的可行性,DyWA 设计上仅依赖单个深度相机获取的点云作为输入,不依赖多摄像头系统,也无需外部位姿追踪模块。经过对物理参数(摩擦系数,物体质心分布等)规模域随机化训练后,模型能够实现从仿真到真实机器人的零样本迁移,达成端到端的泛化操控能力。



DyWA 的全面泛化能力


在仿真中,本文搭建了一个全面的 benchmark 用以评估目前 learning-based 方法的表现。可以看到,在已知物体状态(三视角点云),未知物体状态(三视角点云)和未知物体状态(单视角点云)三种设置下,DyWA 都显著优于基线方法,实现了 80 + 成功率的精准操作。



仿真实验结果



真机实验结果


DyWA 可以零样本迁移到真实世界并展现全面泛化性:


1. 不仅对物体几何形状泛化,更对物体质量分布泛化: DyWA 能将桌面上任意形状的未在训练中见到的物体推到目标 6D 位姿,成功率接近 70。无论是底重头轻的咖啡壶,或是摇晃着的半满水瓶,DyWA 都能实现稳健操作


图片

6 倍速播放


图片

原速播放


2. 适应各种摩擦面:无论是高摩擦的瑜伽垫,还是低摩擦易打滑的塑料板,DyWA 都能自适应控制力度,维持操作的鲁棒性。


图片

6 倍速播放


3. 强大的闭环自适应能力:面对光滑的瓶子,DyWA 能在失败几次后适应并成功翻转瓶子


图片

 6 倍速播放


另外,DyWA 可与抓取策略及视觉语言大模型(VLM)协同工作。如图 1 所示的例子,在用户通过自然语言指定目标位置后,DyWA 首先将物体推至便于抓取的姿态,再由抓取策略完成任务,从而显著提升复杂场景下的整体成功率。



© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com


确实是这样!光靠抓取太受限制了。你想想,家里桌上有很多散乱的纸张、很薄的银行卡,或者那种超大型的箱子,抓根本不好抓。这时候推一下、翻一下就比抓高效得多。对物流机器人来说,处理一些形状不规则、易碎、或者堆叠密集的包裹,能推能拨动,效率和安全性都会大大提高。这直接拓展了机器人的应用边界,让它们能应对更复杂、更“人性化”的日常操作。

你可以想象成机器人玩一个叫“推箱子”的游戏。一般的机器人只会“教我怎么推,我推了就行”。但是DyWA呢,推一下之后,它脑子里能模拟出“哦,如果我再这样推,这个箱子会滑出去多远,角度会变多少”。这就是它的“想象力”。同时,如果它发现第一次推的时候箱子特别滑,它就会“想”,“嗯,这个地面摩擦力很小啊”,这就是“读懂隐含因素”。下次再推的时候,它就会自动调整“力量”和“姿势”,变得“轻柔”一些或者“稳重”一些,来适应这种滑溜溜的地面。是不是很聪明?

零样本迁移的“零”是相对的。它指的是模型在仿真环境中经过大规模、多样化的随机化训练,从而对真实世界的未知变化具有一定的鲁棒性,而不需要在真实世界中额外收集标注数据进行微调。但它不是万能的。

局限一: 仍然依赖“域随机化”的覆盖范围。如果真实环境的某些物理参数或对象特性超出了仿真训练的随机化范围,性能可能还是会打折扣。比如训练时用的物体质量范围是100g-10kg,你突然给它一个50kg的,它可能就懵了。

局限二: 对于“从未见过”的任务(指的是操作类型、目标等),DyWA本质上是学习了物理交互的“通用规律”,而不是具体任务的指令理解。如果任务本身需要高级推理、长期规划或非常精细、微米级的操作,那可能还需要结合其他技术,比如VLM(视觉语言模型)来理解指令,或者更专业的精密操作模块。

局限三: 单视角输入虽然部署方便,但如果物体被严重遮挡,或者需要高精度的三维姿态感知,单视角仍然是挑战。

“零样本迁移”确实是业界追求的圣杯之一!它意味着可以大大缩减机器人的部署成本和时间。对于像物流分拣、工厂搬运等需要高度定制化部署的场景,如果能做到零样本迁移,那简直是革命性的。你可以理解为,机器人出厂就自带了大量“常识性”的物理交互能力,不需要每次换个环境就重新读“小学”。所以,对于文章中展示的“推翻”这些通用且常见的操作,零样本迁移是很有意义的。

所谓“想象”,在技术上指的是World-Action Model联合预测动作和未来的环境状态。普通模型A → B (动作导致状态变化),DyWA是A → (B和未来状态X)。这让机器人能预判自己的操作会带来什么后果,从而选择最优动作。而“读懂隐含因素”其实是动态适应模块(Dynamics-adaptive Mechanism)在发挥作用。它通过持续观察历史的动作和感知数据,反推出环境的物理特性(比如从推物体滑动的距离判断桌面的摩擦力,或从推动的难易程度估算物体质量)。这就像我们人类,不需要精确测量摩擦系数,凭经验就能知道在冰面上推箱子要更小心。DyWA通过大量仿真数据学习这种“经验”。

“想象力”和“读懂”?哈哈,这不就是人工智能的最高境界嘛!其实我觉得吧,它不是真的“想象”或者“读懂”,更像是通过海量数据训练出来的“条件反射”和“经验总结”。就像AlphaGo下围棋,它不是真的“理解”围棋,而是通过学习无数盘棋局,知道下一步怎么走胜率高。DyWA也类似,它通过大量的推、翻操作,学会了在不同条件下,什么样的“力道”和“方向”能达到目标。我们称之为“想象”和“读懂”,听起来B格更高,但本质是复杂的数据拟合和模式识别啦。不过能做到这种程度,也确实很厉害了!

零样本迁移听起来是未来科幻电影里的场景啊!就像我买个无人机,只要设置个目的地它就能飞,不用我手把手教它怎么躲障碍物。DyWA这种技术,我觉得能解决大部分“傻大粗”的推推搡搡任务,比如你家沙发底下有只球,推出来比抓出来方便。但要让它给我穿针引线或者在外科手术台上操作,那估计还得回到实验室再“读个博士”才行。所以嘛,革命尚未成功,同志仍需努力!但起点很高,值得期待!

我觉得这就像人类在日常生活中,很少只用“捏”和“拿”,大部分时候我们是“拨”、“推”、“扶”、“挪”这些更灵活的动作。非抓握能力赋能机器人,意味着它们能够更“自然”地与物理世界交互,不再受限于爪子的形状和功能。未来家用机器人,比如帮你整理桌面、收拾衣物,甚至可能是在厨房里帮忙整理食材,这些都离不开精细的非抓握操作。这不仅仅是效率问题,更是一种“智能”的体现,让机器人更像“活”的助手。

哈哈,优势可大了!以后家里的扫地机器人,遇到没法吸的大块垃圾,直接用头顶着推到垃圾桶旁边,感觉一下子就高级了!或者物流机器人,发现货架上最底下那瓶可乐被别的挡住了,以前死活抓不到,现在来个“乾坤大挪移”,轻轻一拨就搞定了。简直是“巧劲儿”和“蛮力”的完美结合!再也不用担心机器人只会“傻抓”,有时候“推一把”才是王道!嗯,我的意思是,它能处理人类都嫌麻烦的那些“碍事儿”的东西。