PIN-WM:基于视觉观测的物理驱动世界模型,助力机器人操作Sim2Real迁移

PIN-WM:一种物理驱动的世界模型,通过视觉观测估计物理属性,提升机器人操作的Sim2Real迁移性能,相关研究为机器人操作技能的学习和部署提供了新的思路。

原文标题:RSS 2025|物理驱动的世界模型PIN-WM:直接从视觉观测估计物理属性,可用于操作策略学习

原文作者:机器之心

冷月清谈:

国防科大、深圳大学、武汉大学团队联合提出了 PIN-WM,一种物理驱动的世界模型,旨在解决机器人操作中物理属性难以校准导致的 Sim2Real 迁移问题。PIN-WM 基于可微物理和可微渲染,能够直接从视觉观测中辨识刚体物理属性,只需少量任务无关的交互轨迹即可学习,并泛化到未见过的状态-动作对。为进一步提高策略鲁棒性,团队提出了物理感知的数字表亲 PADC,通过在辨识参数附近扰动生成世界模型变体,以建模未被观测的潜在偏差。实验结果表明,PIN-WM 在“推”和“翻转”等非抓取操作任务中表现出色,显著提升了 Sim2Real 迁移性能,即使在低摩擦等更具挑战性的场景下,也能有效完成任务。该研究通过 Real2Sim2Real 框架,结合系统辨识和策略训练,为机器人操作技能的学习和部署提供了新的思路。

怜星夜思:

1、PIN-WM 模型中,可微物理和可微渲染是如何协同工作,以实现对刚体物理属性的准确辨识的?这种协同方式相比传统方法有哪些优势?
2、PADC(Physics-Aware Digital Cousins)通过在辨识参数附近进行局部扰动来建模潜在偏差,这种方法的思路是什么?除了辨识参数扰动之外,还有没有其他方式可以建模这种未被观测的偏差?
3、PIN-WM 在光滑玻璃平面和粗糙平面上都进行了实验,这两种不同的环境对机器人操作策略提出了哪些不同的挑战?PIN-WM 是如何应对这些挑战的?

原文内容


第一作者李文轩目前就读于国防科技大学计算机学院,硕士二年级,导师为徐凯教授,研究方向包括世界模型、可微物理仿真等。共同第一作者赵航,现为武汉大学计算机学院博士后,博士期间导师为徐凯教授,研究方向为工业具身智能。本文通信作者为深圳大学胡瑞珍教授与国防科技大学徐凯教授。


在机器人操作中,物体运动往往涉及摩擦、碰撞等复杂物理机制。准确的物理属性描述可以实现对物体运动结果更准确的预测,并提升机器人在操作技能学习中的表现。


然而,一般用于训练机器人操作策略的仿真交互环境,其物理属性与真实环境往往存在明显差异且难以校准,机器人控制策略的虚拟到现实迁移(Sim2Real)一直是困扰社区的问题。


为解决上述问题,国防科大、深圳大学、武汉大学团队提出 PIN-WM(Physics-INformed World Models)——一种物理驱动的世界模型。



  • 论文标题:PIN-WM: Learning Physics-INformed World Models for Non-Prehensile Manipulation

  • 论文地址:https://arxiv.org/abs/2504.16693

  • 项目主页:https://pinwm.github.io


基于可微物理和可微渲染,PIN-WM 以真实世界运动结果为监督信号,可以从视觉观测中直接辨识刚体物理属性。由于可微物理提供了物理系统的动力学基础描述和有效的梯度引导,PIN-WM 仅需少量且任务无关的交互轨迹进行学习,随后可以基于未见「状态-动作对」实现对下一时刻状态的良好泛化估计。


进一步,团队提出物理感知的数字表亲 PADC(Physics-Aware Digital Cousins),在辨识参数附近局部扰动,生成具有近似且多样视觉和物理特性的世界模型变体,以建模未被观测的潜在偏差,进一步提高策略学习的鲁棒性。


基于 PIN-WM 和 PADC,团队在世界模型中训练非抓取式操作技能,无需策略微调即可直接实现操作技能的 Sim2Real 迁移。



论文创新点


  • 一种物理驱动的世界模型:使用可微仿真和可微渲染技术从视觉观测中直接辨识刚体的物理参数。

  • 一种物理感知的数字表亲:在辨识参数附近进行小范围扰动,生成多组具有近似且多样视觉和物理特性的世界模型变体,以应对未建模误差,提升策略在真实环境中的鲁棒性。

图 1:PIN-WM 仅需少量任务无关交互轨迹辨识物理属性,以支持机器人操作技能学习与 Sim2Real 迁移


技术路线


该团队提出一种从现实到虚拟再到现实的框架,以学习非抓取操作相关的技能策略。该框架可分为两大阶段:系统辨识和策略训练。


  • 从现实到仿真(Real2Sim):系统辨识


    • 渲染属性估计:收集物体的多视角图片,并计算 Rendering loss,然后使用 2DGS 对其渲染参数进行优化。 

    • 物理属性估计:收集机器人与物体的交互视频,同样基于 Rendering loss,使用 2DGS 和可微 LCP 传播梯度,从而对物理参数进行优化(此时固定渲染参数)。


  • 从仿真到现实(Sim2Real):策略训练与部署 


    • 结合数字表亲学习策略:在辨识参数附近进行小范围扰动,生成多组具有视觉和物理特性差异的世界模型变体,并在此基础上训练策略。

    • 策略部署:将世界模型中学习到的策略部署到真实场景中,完成虚拟到现实迁移。


图 2:Real2Sim2Real 框架用于学习非抓取操作策略


实验结果


「推」(Push)和「翻转」(Flip)作为经典的非抓取式任务,对摩擦、碰撞等复杂物理机制非常敏感。PIN-WM 在这两项代表性任务上进行实验评估:「推」指通过推的方式将平面上的物体移动到目标姿态,「翻转」指通过戳的方式将物体翻转(图 3)。通过统计各方法在两项任务中的成功率及完成步数,对其性能进行对比评估。


图 3:仿真场景中「推」和「翻转」任务轨迹


在仿真实验方面,PIN-WM 分别与数据驱动的方法、预设物理参数的方法和辨识物理参数的方法进行对比。团队在更具挑战性的低摩擦场景下学习世界模型以及机器人操作策略,物理参数估计误差造成的机器人操作失准会在低摩擦的场景下进一步放大导致任务失败。


实验结果说明:数据驱动方法(DreamerDiffusion Policy)在使用更多交互数据的情况下泛化能力依然不足,策略测试性能欠佳;预设物理参数方法(RoboGSimDomain Randomization)底层动力学与真实物理有明显差异,而其他辨识物理参数的方法依赖简化的物理模型(2D Physics)或者缺少梯度引导(ASID),动力学的拟合效果相对较差,失准的动力学建模导致策略表现依然欠佳;可微物理梯度引导下PIN-WM 能够实现更准确的物理参数辨识,在「推」和「翻转」两项非抓取式操作任务上的策略表现均明显优于其他方法(表 1)。


表 1:仿真场景中的非抓取策略性能对比


在真机实验方面,PIN-WM 同样与上述主要基线对比,在真实场景「推」和「翻转」两项任务上的性能优势得到验证(表 2)。


表 2:真实场景中的非抓取策略性能对比


图 4 展示了真实场景中不同方法执行「推」任务时的轨迹对比图。


图 4:真实场景中不同方法执行「推」任务时的轨迹对比


图 5 展示了真实场景中不同方法执行「翻转」任务时的轨迹对比图。


图 5:真实场景中不同方法执行「翻转」任务时的轨迹对比


图片

PIN-WM 执行系统辨识后,在光滑玻璃平面上「推」T 形物体的测试结果,机器人可以准确地将物体推入目标位置。


图片

未执行系统辨识时,策略在光滑玻璃平面上「推」T 形物体,机器人在目标位置反复尝试,始终无法将物体正确推入目标位置。


图片

PIN-WM 执行系统辨识后,在光滑玻璃平面上「推」正方体的测试结果。正方体的质量和体积更小,机器人操作更加困难,而 PIN-WM 训练出的策略能够准确完成任务。


图片

未执行系统辨识时,策略在光滑玻璃平面上「推」正方体,无法将正方体正确推入目标位置。


图片

PIN-WM 执行系统辨识后,在粗糙平面上「戳」正方体使其翻转。


图片

未执行系统辨识时,在粗糙平面上「戳」正方体,正方体轻微抬升,却始终无法有效翻转。


图片

PIN-WM 执行系统辨识后,在粗糙平面上「推」任务的测试结果(轨迹 1)。


图片

PIN-WM 执行系统辨识后,在粗糙平面上「推」任务的测试结果(轨迹 2)。


图片

在更大尺寸物体上验证 PIN-WM 的有效性,执行系统辨识后,在粗糙平面上「推」T 形物体的测试结果(轨迹 1)。


图片

PIN-WM 执行系统辨识后,在粗糙平面上「推」更大尺寸 T 形物体的测试结果(轨迹 2)。


总结


国防科大、深圳大学、武汉大学团队提出了一种物理驱动的世界模型 PIN-WM(Physics-INformed World Models),可以从视觉观测(少量且任务无关的交互轨迹)中辨识刚体的物理属性。


同时,团队提出具备物理感知的数字表亲 PADC(Physics-Aware Digital Cousins),在辨识参数附近进行局部扰动以建模潜在的偏差,从而进一步提高虚拟到现实的迁移性能。团队通过广泛的实验证明了 PIN-WM 的有效性,其提出的方法有效提升了非抓握式操作技能从仿真到现实迁移的性能。


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

PIN-WM 里,可微物理负责建立物体运动的动力学模型,描述物体在受力情况下的运动状态变化;可微渲染则负责将仿真环境中的物体渲染成图像,使模型能够直接从视觉观测中学习。通过比较渲染图像与真实图像的差异,计算损失函数,并利用可微物理提供的梯度信息,反向优化物理属性参数,从而实现物理属性的准确辨识。这种协同工作方式避免了传统方法中手动校准或依赖大量数据的缺陷,充分利用了物理规律的先验知识,提高了辨识效率和精度。

可微物理提供了一个基于物理定律的“骨架”,而可微渲染则给这个“骨架”穿上了视觉的“外衣”。传统方法要么只有“骨架”,要么只有“外衣”,而 PIN-WM 将两者完美结合,从而能够更准确地理解和预测物体的行为。

简单来说,可微物理告诉你“东西应该怎么动”,可微渲染告诉你“看起来像不像”。两者结合,就能让机器人学会像人一样“看”世界,并根据看到的来调整自己的动作。传统方法就像是让机器人死记硬背,而 PIN-WM 是让机器人真正理解物理规律。

光滑平面就像溜冰场,一不小心就滑走了;粗糙平面就像泥地,走一步都费劲。机器人要在不同地面上都能灵活操作,就得先“认识”这些地面,知道它们的特点。PIN-WM 的厉害之处在于,它能让机器人像专家一样,一眼就看出地面的“脾气”,然后根据“脾气”来调整自己的动作。

PADC 就像给机器人配备了一堆“备用方案”。如果真实环境和理想模型有点不一样,机器人也能从这些“备用方案”中找到一个最合适的,继续完成任务。这种思路有点像保险,提前考虑到各种意外情况。

至于其他建模方法,我觉得可以试试让机器人自己去“探索”真实世界,看看能不能发现什么意外情况,然后把这些情况也学进去。

PADC 的核心思路在于,真实世界中存在很多无法精确建模的因素,例如摩擦系数的微小变化、物体表面的细微瑕疵等等。这些因素虽然微小,但累积起来可能会对机器人操作产生显著影响。通过在辨识参数附近进行局部扰动,PADC 相当于创建了一系列“孪生兄弟”,每个“兄弟”都代表了真实世界的不同可能性,从而提高策略的鲁棒性。

除了辨识参数扰动,还可以考虑以下方式建模未被观测的偏差:

* 引入隐变量模型: 使用隐变量来表示未被观测的因素,通过学习隐变量的分布来建模偏差。
* 使用对抗训练: 训练一个对抗网络来生成具有迷惑性的样本,迫使策略学习对各种偏差具有更强的鲁棒性。
* 数据增强: 通过对训练数据进行增强,例如添加噪声、改变光照条件等等,来模拟未被观测的偏差。

光滑平面考验的是机器人的“微操”,粗糙平面考验的是机器人的“力量”。PIN-WM 通过可微物理和可微渲染,让机器人既能“微操”,又能“大力出奇迹”,从而在各种环境下都能胜任。

光滑玻璃平面和粗糙平面代表了两种极端的摩擦情况,对机器人操作策略提出了不同的挑战:

* 光滑玻璃平面: 摩擦力极小,物体容易滑动,对机器人的精确控制能力提出了更高的要求。策略需要更精细的动作规划,以避免物体滑出目标区域。
* 粗糙平面: 摩擦力较大,物体不容易滑动,但可能出现卡顿、旋转等现象。策略需要更强的鲁棒性,以适应摩擦力的不确定性。

PIN-WM 通过以下方式应对这些挑战:

* 准确的物理属性辨识: PIN-WM 能够准确辨识不同表面的摩擦系数等物理属性,为策略学习提供更准确的动力学模型。
* 物理感知的数字表亲: PADC 能够建模摩擦系数的微小变化,提高策略对摩擦力不确定性的鲁棒性。
* 可微物理的梯度引导: 可微物理能够提供精确的梯度信息,帮助策略在不同摩擦情况下进行优化。

从统计学的角度看,PADC 相当于在参数空间进行了一次 Bayesian 推断,通过扰动参数来模拟后验分布。这种方法的好处是简单易用,但缺点是扰动范围和步长可能需要仔细调整。

另一种思路是使用高斯过程等非参数模型来建模偏差,这种方法可以更灵活地适应数据的变化,但计算复杂度也更高。