DDP-WM:中山大学&拓元智慧提出解耦动态预测世界模型,机器人规划效率提升9倍

中山大学&拓元智慧提出DDP-WM,解耦动态预测,机器人规划效率提升9倍,为具身智能实际应用铺平道路。

原文标题:中山大学HCP Lab联合拓元智慧提出高效世界模型DDP-WM,机器人规划效率提升9倍

原文作者:机器之心

冷月清谈:

中山大学人机物智能融合实验室 (HCP Lab) 联合拓元智慧 X-Era AI 提出了一种新型高效世界模型框架:DDP-WM (Disentangled Dynamics Prediction World Model)。该框架通过解耦动态预测,将计算资源精确分配给场景中不同属性的动态特性,从而在推理速度大幅提升的同时,显著提升复杂操纵任务的规划成功率。DDP-WM 的核心设计理念是,观测场景的潜在状态演化可以分解为稀疏的主动态和上下文驱动的背景更新。架构上,DDP-WM 包括动态定位网络(识别主动态区域)、稀疏主动态预测器(专注于核心变化)和低秩校正模块(高效更新背景)。实验结果表明,DDP-WM 在多个仿真环境中均达到或超过当前最先进的密集世界模型 DINO-WM,且计算效率实现数量级提升。消融实验和分析进一步验证了框架各设计元素的有效性,并揭示了低秩校正在闭环规划中的重要作用。DDP-WM 的成功表明,通过有针对性的结构设计,可以在不牺牲甚至超越现有 SOTA 的前提下,显著提高世界模型预测速度,为具身智能走向实际应用提供了一条新途径。

怜星夜思:

1、DDP-WM通过解耦动态预测来提升效率,那么这种解耦思想在其他AI领域是否有应用潜力?例如,在自然语言处理或者推荐系统中,是否也能通过类似的方式来优化模型性能?
2、DDP-WM在仿真环境中取得了显著的性能提升,那么在实际的机器人应用中,会遇到哪些挑战?如何解决这些挑战,才能让DDP-WM更好地服务于现实世界的机器人?
3、DDP-WM的核心在于解耦静态背景和动态物体,那么在哪些场景下,这种解耦可能会失效?或者说,存在哪些“动态背景”的场景,会给DDP-WM带来挑战?

原文内容


基于预训练视觉表征构建世界模型已成为具身智能领域的前沿研究方向。以 DINO-WM 为代表的先进研究成果表明,基于视觉 Transformer (ViT) 的架构能够精确捕捉复杂的物理动态,并展现出强大的零样本规划能力。然而,这种不区分运动物体和静态背景、对所有图像块应用自注意力的密集计算范式导致了高昂的计算开销,使得决策速度成为实际部署中一个巨大的挑战。


具体来说,目前最先进的此类模型 (DINO-WM) 在处理 Push-T 等典型操作任务时,其模型预测控制 (MPC) 的单个决策循环耗时高达两分钟。显然,这种延迟对于需要与物理世界持续高频交互的现实场景应用而言是不可接受的,阻碍了机器人的大规模、低成本端侧设备部署。


近期,中山大学人机物智能融合实验室 (HCP Lab) 联合拓元智慧 X-Era AI 提出了一种新型的高效世界模型框架:DDP-WM (Disentangled Dynamics Prediction World Model)。该框架的核心思想是解耦动态预测。通过一套系统化的设计,将计算资源精确分配给场景中不同属性的动态特性,从而在推理速度大幅提升的同时,还能显著提升复杂操纵任务的规划成功率。例如,将 Push-T 任务的规划速度提升 9 倍的同时,成功率从 90% 提升至 98%。该工作为设计高效、高保真度的世界模型提供了一条新途径。



  • 论文标题:DDP-WM: Disentangled Dynamics Prediction for Efficient World Models

  • 论文链接: https://arxiv.org/abs/2602.01780

  • 代码链接: https://github.com/HCPLab-SYSU/DDP-WM


I. 动机


DDP-WM 的设计源于对现有稠密计算范式的模型在当前主流任务上工作模式的洞察。大多数场景的物理交互过程中,实际发生变化的区域面积占比很小;也就是说,绝大部分的计算都浪费在对静态背景的无效重复计算上。


为直观地揭示这种计算冗余的本质,该研究团队对密集模型的内部工作机制及其处理的动态数据进行了深入分析。 图 1(a) 使用主成分分析 (PCA) 可视化模型预测器中每一层特征的演变。例子中我们可以看到,在多层高成本计算的整个过程中,静态背景区域的那些 token 几乎没有特征上的变化,直接证明了大量的计算能力浪费在了重复无效计算上。


图 1(a): 密集模型中特征演变的 PCA 可视化,揭示了静态背景区域中大量的冗余计算。


这种现象的根本在于:大规模预训练的视觉基础模型潜在空间表征,对于稀疏的运动变化所产生差异具有固有的稀疏性。 将输入到真实世界模型的相邻两帧的特征图进行相减后可视化(图 1(b)),只有极小部分特征能看到显著变化。物理世界中稀疏的运动动态反映在特征层面上是高度稀疏且结构化的,这与前文观察到的静态背景区域 token 层间一致性是相符的。


图1(b): 相邻真实特征之间差异的 PCA 可视化,展示了物理世界动力学在特征层面的固有稀疏性。


基于这种洞察,DDP-WM 确立了其解耦动态预测 (DDP) 的核心设计理念。该理念认为,观测场景的潜在状态演化可以从根本上分解为两种不同的动态:一种是稀疏的主动态,由物理交互直接引起而发生在少数前景物体上;另一种是上下文驱动的背景更新,由主动态引发而发生在更广泛的区域内。


II. 架构:动态分配系统


图 2:DDP-WM 框架概述。


如图 2 所示,预测过程首先用高效的历史信息融合模块,通过单层交叉注意力将速度、加速度等高阶动态信息注入到当前帧特征里,为之后精确预测提供必要的上下文信息。富含历史信息的 tokens 经过动态定位网络来识别下一帧中的主动态所在区域;识别出的主动态区域通过强大的稀疏主动态预测器,变换成下一帧的主动态特征;其余背景 tokens 在低秩校正模块中,在主动态 tokens 的指导下高效地修正背景上的细微变化。


2.1 动态定位:精确识别主要动态区域

动态定位网络的功能是高效、准确地识别出下一帧中发生稀疏的主动态。输入历史信息融合后的 token 序列到轻量级视觉 Transformer (ViT),输出一个稀疏的二值掩码 M,该掩码用于标记出预期会发生核心物理交互的图像块,把计算资源引向最重要的部分。


2.2 稀疏预测:将计算能力集中于核心变化

主动态是物理交互的核心,其变化通常复杂且非线性,需要强大的模型能力才能捕捉。DDP-WM 使用了一个强大的稀疏主动态预测器。该模块也使用多层 ViT 架构,但是它的所有计算资源只用于动态定位网络识别出来的稀疏前景特征子集。这样 DDP-WM 就避免了把计算能力浪费在大面积的静态背景上,从而可以让更深、更强的模型来对真正的物理过程进行建模。另外,该模块采用自适应长度调整的方式,可以适应不同的场景中动态变化的稀疏输入序列长度,使得模型能应对大幅度运动导致的大面积画面变化,在硬件效率和计算精度之间取得良好的平衡。


2.3 背景更新:低成本自洽校正

DDP-WM 对被视为近似静态的大面积背景区域采用了一种高效的更新策略:用一个专门设计的低秩校正模块 (LRM) 来执行低成本的自洽校正。其核心是一个单向交叉注意力机制,允许来自前一帧的背景特征查询主预测器新生成的前景特征。通过这种方式,背景特征可以以最小的计算开销进行微调,从而反映前景物体运动引起的全局上下文变化。这种设计确保了整个潜在特征空间在演化过程中的一致性和平滑性,对下游规划任务至关重要。


III. 实验验证:效率与性能的双重优势


为了全面评估 DDP-WM 框架的有效性,研究团队在五个具有不同动态特性和任务复杂度的仿真环境中进行了广泛的实验。这些环境涵盖了从简单的导航(PointMaze、Wall)到精确的桌面操作 (Push-T),再到柔性体 (Rope) 和多体系统 (Granular) 之间复杂的交互等各种场景。评估主要集中在规划成功率 (SR)、倒角距离 (CD) 和模型预测控制 (MPC) 的计算效率等核心指标上。


3.1 性能超越现有最佳基准

实验结果表明,DDP-WM 在所有任务上的规划性能均达到或超过当前最先进的密集世界模型 DINO-WM。 如表 1 所示,DDP-WM 在 PointMaze 和 Wall 导航任务中分别取得了 100% 和 98% 的高成功率。在具有挑战性的刚体操作任务 Push-T 中,DDP-WM 的 MPC 成功率达到 98%,显著优于 DINO-WM 的 90%。这表明 DDP-WM 提供的高精度预测能够为规划器提供更好的决策支持。


表 1 :五种仿真环境下 MPC 规划性能对比


在更为复杂的绳索和颗粒任务中,难以定义二元成功状态;因此,倒角距离被用作评估操作精度的指标。DDP-WM 在这两项任务中也取得了最低的倒角距离,这展现了其强大的理解高自由度非刚体变形和复杂多体动力学的能力。规划性能的提升源于高保真的预测建模质量。动图中可以看到,稠密 DINO-WM 在多步预测后,其生成的 T 形物块出现了明显的视觉伪影,例如边缘模糊羽化、或违背物理常识的软体状扭曲变形;也就是说,对物体刚体特性不能够准确地表征。而 DDP-WM 则在整个过程中保持物块锐利边界和物理一致的旋转姿态。这证明聚焦预测核心变化区域能够显著提升预测质量。


图片


3.2 效率实现数量级提升

实验数据从三个方面来度量 DDP-WM 的效率提升:理论计算成本 (FLOPs)、实际推理吞吐量、端到端 MPC 决策延迟。动态复杂的 Push-T 任务中,DDP-WM 的单步前向推理 FLOPs 为 2.5G,DINO-WM 的单步前向推理 FLOPs 为 23G,两者之比约为 0.108。该理论上的优势被转化成了实际推理速度的提高。在单步推理吞吐量测试中,DDP-WM 在 Push-T 任务上实现了每秒 1563 个样本的吞吐量,相比 DINO-WM 提升了 9.2 倍。如此显著的速度优越性在整个 MPC 决策循环中能够更显著地体现;比如,在需要 30 次 CEM 迭代的 Push-T 任务中,DDP-WM 的单次决策时间从 DINO-WM 的两分钟显著缩短至 16 秒,这就使得更高频率的实时机器人控制成为了可能。


3.3 消融实验

为对框架中各设计元素的有效性进行验证,研究团队对 Push-T 任务进行了一系列消融实验。其核心结果是:当去除低秩校正模块 (LRM),并只进行稀疏预测,而将静态区域的特征严格保持与上一帧不变时,虽然开环预测仍然能够保持超越稠密预测的高保真建模,但是模型的 MPC 成功率从 98% 急剧下降到 70%。这说明 LRM 解决的并非简单的开环预测精度问题。



IV. 分析:闭环规划中的挑战与低秩校正


消融实验揭示了一个关键现象:虽然简单的稀疏化方案(即去掉 LRM 的版本,仅预测前景并直接复制背景)在多步开环预测中表现良好,但在闭环规划中性能急剧下降。研究团队对不同模型为规划器生成的优化景观进行了可视化分析。


4.1 优化景观

图 6:MPC 成本函数景观对比。(左图)移除 LRM 后的稀疏模型生成了一个崎岖不平、噪声较大的成本景观。 (右图)完整的 DDP-WM 模型提供了一个平滑且易于优化的漏斗状地形。


移除 LRM 之后,模型产生的代价地形崎岖不平,噪声大,峰形呈锯齿状,没有明显的全局最小值(图 6(a))。这种地形上任何基于采样的优化器都无法找到有效的下降方向,在闭环规划中就会失败。相反的是, 带有 LRM 的 DDP-WM 模型生成的代价地形非常平滑,并且有明显的漏斗状宏观结构,中间有一个深的、唯一的最小值(图 6(b))。这种地形给优化算法提供了一个清晰的引力井,从而可以稳定地收敛到最优解。


4.2 低秩结构

研究团队进一步假设,这种看似复杂的全局背景更新本质上是低秩的。为了验证这一核心假设并检验 LRM 是否成功学习到这种结构,研究团队对由真实特征图做差得到的背景更新特征图和 LRM 模块生成的背景更新特征图进行了主成分分析 (PCA)。 结果发现,真实更新特征图的累积解释方差曲线随着主成分数量的增加,呈现出急剧上升、快速饱和的趋势(图 7),有力地证明了真实特征图的更新过程本身就是低秩的。另外也可以看到,LRM 模块生成的更新特征图的 PCA 曲线和真实值曲线非常相似。


图 7:LRM 成功学习到真实的低维结构。(左图)LRM 预测的更新特征的 PCA 分析(右图)真实更新特征的PCA 分析。


V. 总结与展望


DDP-WM 的成功表明,通过基于对潜在空间的运动模式的深刻洞察进行有针对性的结构设计,完全可以在不牺牲甚至超越现有 SOTA 的前提下,显著提高世界模型预测速度。这项工作对于推动具身智能走向实际应用有重大意义。DDP-WM 把对计算资源的依赖降低了一个数量级之后,就有可能在更轻量级的边缘硬件上部署更高频、更复杂的模型来进行规划,从而为工业生产和家政服务等实际场景中部署先进的自主机器人铺平道路。

© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

从工程角度来说,可以设定一个速度阈值。速度高于阈值的物体被认为是动态的,低于阈值的则被认为是静态的。这个阈值可以根据实际情况进行调整。 或者从模型角度来说,动态定位网络输出的二值掩码M,就是模型自己判断的动态区域。

我觉得任何涉及复杂物体操作的任务DDP-WM都可以有用武之地。比如,像是在杂乱环境中抓取物体,或者是在流水线上进行精细的零件装配。这些任务都需要机器人能够精确地感知和预测物体的运动,而这正是DDP-WM的优势所在。

我补充一个,我认为在资源受限的移动机器人上,DDP-WM可以有很大优势。比如无人机或者移动巡检机器人,它们通常计算资源有限,需要更高效的算法才能实现复杂的任务。DDP-WM可以帮助它们在有限的算力下做出更好的决策。

你们都太学术啦!我觉得这个问题可以这样理解:就像我们玩游戏一样,主角和能互动的NPC是动态的,背景是静态的。关键在于“互动”,能和环境产生交互的物体,才能被认为是动态的。比如说,一阵风吹过,树叶动了,那树叶就可以认为是动态的了!

这个问题很有意思!我的理解是,这需要结合具体的应用场景来判断。比如在自动驾驶中,车辆、行人等移动物体自然是动态的,而建筑物、道路等则相对静态。更进一步,还可以通过运动估计光流法等计算机视觉技术来辅助判断,检测图像中像素的变化情况,从而区分动态和静态区域。

这让我想到了目标检测算法,或许可以借鉴Mask R-CNN的思路,先检测出潜在的动态物体,然后再进行分割,从而更精确地定位主动态区域。不过这样做的计算量可能会比较大,需要在精度和效率之间做一个trade-off。

从论文结果来看,在绳索和颗粒任务中,DDP-WM依然取得了很好的效果,虽然没有Push-T任务那么显著。这说明DDP-WM在处理高自由度物体方面也有一定的潜力,可能需要针对不同类型的任务进行一些微调。

楼上说得对,任何任务,只要能把真正重要的动态部分分离出来,DDP-WM就能发挥作用。不过,如果一个任务的“动态”遍布整个画面,那DDP-WM可能就优势不大了,因为这时候相当于没有稀疏性可利用了。举个极端的例子,像模拟流体或者烟雾这种,可能就不太适合。

能不能用,我觉得得看任务是不是“戏精”。Push-T任务里,就一个T形积木在那儿动来动去,妥妥的“主角”。但抓取和装配就不一样了,手、工具、零件,一大堆“演员”,关系复杂得很!DDP-WM能不能Hold住全场,还真不好说。而且,真实世界里,光线一变,灰尘一来,模型就可能“翻车”。所以,DDP-WM要真想在其他任务里发光发热,还得好好练练“抗干扰”的能力才行!

DDP-WM在Push-T任务中的成功主要归功于其能够精确捕捉物体间的交互动态。我认为这项技术在其他涉及复杂物理交互的机器人任务中,例如抓取、装配等,也有很大的潜力。但是,应用过程中可能会遇到一些新的挑战。例如,抓取任务涉及手部和物体的精细运动控制,需要模型能够捕捉更细微的动态变化;装配任务则可能涉及多个物体的协同操作,需要模型能够处理更复杂的多体交互。此外,真实场景中的光照、遮挡等因素也会对模型的鲁棒性提出更高的要求。要解决这些问题,可能需要对DDP-WM的架构进行进一步的改进,例如引入更精细的动态定位机制、更强大的稀疏预测器,以及更有效的背景更新策略。

这个问题很有意思!我觉得像DDP-WM这种依赖于区分“主动态”和“背景更新”的策略,在动态性极强的环境中可能会遇到挑战。比如,想象一个水面上漂浮着很多物体的场景,每个物体都在不停运动和交互,这时候可能就很难明确区分哪些是“主动态”,哪些是“背景”了。或者说,如果任务需要精确捕捉全局的细微变化,而不是关注特定物体的交互,那么把计算资源集中在部分区域可能反而会丢失关键信息。

LRM 通过单向交叉注意力机制,让背景特征查询主动态预测器新生成的前景特征,用前景的动态来引导背景的更新,这就像是给背景特征施加了一个约束,使得背景的更新与前景的变化保持一致,从而保证了自洽性。而低秩假设则限制了背景变化的复杂度,使得更新过程更加平滑,避免了突变和噪声。如果不用低秩校正,我觉得可以尝试用更强的正则化手段来约束背景更新,比如在损失函数中加入惩罚项,抑制背景特征的剧烈变化。另外,也可以考虑用生成对抗网络(GAN)来学习背景更新的模式,让生成器生成更加逼真和平滑的背景图像。

个人认为,DDP-WM的适用性取决于任务的“可解耦性”。有些任务的动态变化是高度耦合的,很难将“主动态”和“背景更新”完全分离。对于这类任务,DDP-WM可能就不太适用。

举个例子,对于一个自动驾驶系统来说,车辆的运动、周围车辆的运动、交通信号灯的变化等等,都是相互影响的,很难将其完全解耦。因此,将DDP-WM直接应用于自动驾驶,可能效果不会太好。但是,如果能找到一种更巧妙的解耦方式,也许就能取得意想不到的效果。

从学术角度看,这涉及到稀疏计算和注意力机制的泛化应用。DDP-WM本质上是在视觉表征空间中进行稀疏计算,减少冗余计算开销。这种思想可以推广到任何存在信息冗余的AI任务中。关键在于如何定义和提取“主动态”或“关键信息”,以及如何设计高效的“背景更新”机制。

挑战肯定有,而且不小。首先,布料和毛巾的形变是高度非线性的,对模型的建模能力提出了更高的要求。其次,这些任务往往涉及到复杂的接触和摩擦,需要更精确的物理模拟。DDP-WM可能需要结合更先进的物理引擎,才能胜任这些任务。