GeoWorld:基于几何世界模型的视觉规划新突破

GeoWorld通过双曲空间建模和几何强化学习,显著提升多步视觉规划的成功率。

原文标题:【CVPR2026】GeoWorld:几何世界模型

原文作者:数据派THU

冷月清谈:

本文介绍了几何世界模型 (GeoWorld),旨在解决现有基于能量的预测世界模型在多步视觉规划中面临的两大挑战:一是隐表征忽略了状态间的几何属性与层级结构,二是在长程预测中表现乏力。GeoWorld 通过引入双曲联合嵌入预测架构(Hyperbolic JEPA),将隐表征映射至双曲流形,有效保留了信息的层级关系与几何结构。此外,提出了一种用于能量优化的几何强化学习(Geometric Reinforcement Learning)方法,实现了双曲隐空间内稳定的多步规划。GeoWorld 通过双曲测地线最小化和三角不等式正则化来调整预测器的能量价值表征,强制模型在隐流形上产生测地线一致的推演,有效提升了长程稳定性和规划性能。在 CrossTask 和 COIN 数据集上的实验表明,相较于 V-JEPA 2,GeoWorld 在 3 步和 4 步规划任务中均实现了成功率的提升。

怜星夜思:

1、GeoWorld 通过将隐表征映射到双曲流形来保留层级关系,那么双曲空间相比欧几里得空间,在表示这种层级关系上有什么优势?这种优势在实际应用中会带来哪些具体的提升?
2、文章提到了几何强化学习 (GRL) 通过优化预测器来实现长程规划,那么GRL是如何避免强化学习中常见的奖励稀疏问题和探索难题的?
3、GeoWorld 在 CrossTask 和 COIN 数据集上取得了显著的成功率提升,那么这种方法在其他类型的视觉任务中,例如图像分类、目标检测等,是否也具有潜力?为什么?

原文内容

图片
来源:专知
约2400字,建议阅读5分钟
我们引入了几何世界模型 (GeoWorld)

基于能量的预测世界模型通过对**隐能量地形(latent energy landscapes)进行推理,而非直接生成像素,为多步视觉规划提供了一种高效方案。然而,现有方法仍面临两大核心挑战:其一,其隐表征通常在欧几里得空间(Euclidean space)中学习,忽略了状态间潜在的几何属性与层级结构;其二,这类模型在长程预测(long-horizon prediction)**中表现乏力,导致在长时段推演(rollouts)中性能迅速衰减。

为解决上述问题,我们提出了 GeoWorld。这是一种几何世界模型,通过引入双曲联合嵌入预测架构(Hyperbolic JEPA),将隐表征从欧几里得空间映射至双曲流形(hyperbolic manifolds),从而有效地保留了层级关系与几何结构。此外,我们提出了一种用于能量优化驱动的**几何强化学习(Geometric Reinforcement Learning)**方法,实现了双曲隐空间内稳定的多步规划。在 CrossTask 和 COIN 数据集上的广泛实验表明,相较于当前最先进的 V-JEPA 2 模型,GeoWorld 在 3 步规划任务中将成功率(SR)提升了约 3%,在 4 步规划任务中提升了约 2%。

1. 引言 (Introduction)

自回归(Autoregressive, AR)下一标记预测(next-token prediction)赋予了大语言模型 (LLMs) [79] 和视觉语言模型 (VLMs) [20, 53] 广泛的世界知识与推理能力,使其能够有效应对涉及搜索 [78]、推理 [32, 33, 44] 及规划 [8, 35, 65, 82] 的复杂任务。尽管 LLMs 的成功源于对语言空间的建模(这被视为获取人类水平知识的一种捷径 [48]),但它们仍无法完全表征真实世界的丰富信息,例如物理与几何属性 [3]。在现实世界中,人类及生物认知主要通过视觉信息而非单纯依赖语言来获取知识,因为视觉提供的信息带宽远高于语言 [62]。例如,人类婴儿在发育出语言系统之前的最初几个月里,主要通过视觉感知进行学习 [38];而某些动物则根本不具备语言能力 [18]。因此,研究者提出了仅从视觉输入(如视频)中学习的世界模型 [3, 5, 46, 59, 63],并通过**生成式(Generative)预测式(Predictive)**方法进行规划。

生成式世界模型 [46, 59, 63] 显式地生成像素或可解码为像素的隐视觉标记(latent visual tokens),以便一次仅预测一步 [67]。因此,它们缺乏对完整轨迹结构或多步能量地形(energy landscape)的感知。相比之下,以 JEPA [41] 为代表的预测式世界模型 [2, 3, 5, 29] 则不生成像素。相反,它们在隐空间(latent space)中学习一种能量地形,用以衡量当前状态与目标状态之间的兼容性。这使得**多步层次化规划(multi-step hierarchical planning)**成为可能:高层推理负责最小化隐空间中的能量,而底层模块则填充物理细节。

然而,现有的基于能量的预测式世界模型面临两大严峻挑战:

  1. 几何忽视(Geometric neglect):尽管预测式模型在隐空间中进行多步层次化规划,但其表征通常是在欧几里得空间(Euclidean space)中学习的,未能保留状态间潜在的几何关系。因此,所学得的能量地形无法捕获隐状态之间具有意义的测地距离(geodesic distances)层级嵌入(hierarchical embeddings) [51],从而削弱了模型在长程范围内进行几何一致性规划的能力。

  2. 多步缺陷(Multi-step shortcoming):多步视频数据稀缺且获取成本高昂,因此现有的预测式模型主要基于单步视频转换进行训练 [12, 31, 37, 40, 47, 66]。尽管从概念上讲,在整个轨迹上学习能量地形可以实现长程规划,但其性能随规划步数的增加而迅速下降,暴露了模型在长程时间依赖性建模上的弱点。


我们的出发点是从几何视角解决上述问题。针对第一个挑战,需要一个**几何感知(geometry-aware)的世界模型,在学习层次化规划的能量地形时保留几何属性。针对第二个挑战,强化学习 (RL) 已被证明在预训练基础模型的输出不尽如人意时,能有效对其进行微调 [54, 60]。因此,需要一种几何感知强化学习方法,在隐流形(latent manifold)**上获取最优轨迹,从而提升模型的多步规划能力。

据此,我们引入了几何世界模型 (GeoWorld)。如图 1 所示,该方法通过保留隐空间中的几何结构与层级感知,增强了基于能量的预测式世界模型。

  • 为了应对第一个挑战,我们提出了双曲 JEPA (Hyperbolic JEPA, H-JEPA)。它将隐表征从欧几里得空间 $\mathbb{R}^n$ 映射到双曲流形(hyperbolic manifold)$\mathbb{H}^n$ 上,其中测地距离能够自然地编码状态间的层级关系。通过沿双曲测地线学习动力学,H-JEPA 在多步预测过程中保留了隐空间几何,确保学得的能量地形与物理世界的潜在结构一致,并支持几何一致性规划(如图 2 所示)。

  • 为了应对第二个挑战,我们设计了几何强化学习 (Geometric Reinforcement Learning, GRL)。它将多步规划重新定义为对基于能量的价值函数的优化,其中较低的双曲能量对应较高的累积回报。GRL 直接优化世界模型的预测器(predictor),无需训练额外的策略或奖励模型。通过利用**双曲测地线最小化(hyperbolic geodesics minimization)三角不等式正则化(triangle inequality regularization)**来调整预测器的能量价值表征,GRL 强制模型在隐流形上产生测地线一致的推演(rollouts),有效提升了长程稳定性和规划性能。


为了验证本方法在长程规划上的能力,我们在标准基准数据集(包括 CrossTask [88] 和 COIN [71])上评估了多步目标条件视觉规划任务。GeoWorld 相比此前最先进的预测式世界模型 V-JEPA 2 实现了持续改进,在两个数据集上的 3 步规划中成功率 (SR) 提升了约 3%,4 步规划中提升了约 2%。

本工作的贡献总结如下:

  • 引入了 几何世界模型 (GeoWorld) 及 双曲 JEPA (H-JEPA)。通过将隐表征映射至双曲流形并沿双曲测地线学习动力学,该模型保留了几何结构与层级关系,为多步预测和规划构建了几何一致的能量地形。

  • 提出了 几何强化学习 (GRL)。这是一个基于能量的优化框架,通过双曲能量最小化和三角不等式正则化直接优化预测器,实现了测地线一致的推演,增强了长程规划的稳定性。

  • 在 CrossTask 和 COIN 数据集上的长程目标条件视觉规划中展现了强劲性能,相比 V-JEPA 2,在 3 步和 4 步规划中分别实现了约 3% 和 2% 的成功率提升。


https://arxiv.org/pdf/2602.23058



关于我们

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。




新浪微博:@数据派THU

微信视频号:数据派THU

今日头条:数据派THU


问题:GeoWorld 在 CrossTask 和 COIN 数据集上取得了显著的成功率提升,那么这种方法在其他类型的视觉任务中,例如图像分类、目标检测等,是否也具有潜力?为什么?

我认为 GeoWorld 的核心思想——利用几何结构来建模数据,在其他视觉任务中也有很大的潜力。 虽然图像分类和目标检测任务本身可能不直接涉及时间序列和多步规划,但图像中的对象、场景等元素之间也存在着复杂的空间关系和层级结构。

例如:

* 图像分类:不同的图像类别可能在双曲空间中形成不同的簇,利用双曲几何的特性可以更好地进行分类。
* 目标检测:可以利用双曲空间来建模不同目标之间的关系,例如,人通常出现在地面的上方,汽车通常出现在道路上。

当然,要将 GeoWorld 应用于这些任务,需要进行一些调整和改进。例如,需要设计合适的网络结构来提取图像的几何特征,并设计合适的损失函数来训练模型。但是,我认为这种思路是非常有价值的,值得进一步探索。

问题:GeoWorld 通过将隐表征映射到双曲流形来保留层级关系,那么双曲空间相比欧几里得空间,在表示这种层级关系上有什么优势?这种优势在实际应用中会带来哪些具体的提升?

打个比方,欧几里得空间就像是传统的文件夹系统,每一层级的分类都需要明确的界限,而双曲空间更像是知识图谱,概念之间可以更灵活地连接和嵌套。这种优势在于:

1. 更强的表达能力:双曲空间能够用更少的维度表达更复杂的层级关系,避免维度灾难。
2. 更好的泛化能力:由于层级关系被更好地编码,模型在面对新的、未见过的数据时,也能更好地进行推理和预测。
3. 更高的效率:在搜索和规划过程中,模型可以更快地定位到相关的层次,从而提高效率。

举个例子,在游戏AI中,如果AI需要学会玩一个复杂的策略游戏,比如星际争霸,那么它需要理解各种单位之间的克制关系、建筑之间的依赖关系等等。双曲空间可以帮助AI更好地组织这些信息,从而制定出更有效的策略。

问题:GeoWorld 通过将隐表征映射到双曲流形来保留层级关系,那么双曲空间相比欧几里得空间,在表示这种层级关系上有什么优势?这种优势在实际应用中会带来哪些具体的提升?

优势在于,双曲空间具有负曲率,这种特性使得它可以更有效地嵌入层级结构数据。你可以想象一棵树,在欧几里得空间里,要将树的所有节点以较小的失真嵌入进去,需要消耗大量的空间,但在双曲空间中,由于其指数增长的特性,可以更紧凑地表示这种层级关系。

实际应用中,这意味着模型可以更好地理解和处理具有层级关系的数据,比如在视频理解中,一个动作可以分解为多个子动作,子动作又可以分解为更小的动作片段。GeoWorld 能够更好地捕捉和利用这种层级关系,从而提高规划和预测的准确性。 像是能够更准确的预测复杂的、多步骤的动作序列。

问题:文章提到了几何强化学习 (GRL) 通过优化预测器来实现长程规划,那么GRL是如何避免强化学习中常见的奖励稀疏问题和探索难题的?

GRL 的巧妙之处在于它避免了显式地设计奖励函数。它通过双曲能量最小化和三角不等式正则化来约束预测器的行为,本质上是在隐空间中引导模型朝着更有序、更符合几何结构的路径探索。 这就像是给模型一个“软约束”,让它知道哪些方向是“更好”的,而不是等到最终目标达成才获得奖励。

具体来说:

* 双曲能量最小化:鼓励模型找到隐空间中能量更低的状态,可以看作是一种内在的驱动力,引导模型朝着目标状态前进。
* 三角不等式正则化:确保模型学到的状态表征在几何上是一致的,避免出现“抄近路”的情况,从而保证了规划的合理性。

这种方式相当于给模型提供了一个“隐形的奖励信号”,解决了奖励稀疏的问题。同时,由于模型在几何结构的引导下进行探索,因此也降低了探索的难度。

问题:GeoWorld 通过将隐表征映射到双曲流形来保留层级关系,那么双曲空间相比欧几里得空间,在表示这种层级关系上有什么优势?这种优势在实际应用中会带来哪些具体的提升?

谢邀,这个问题很有意思!从数学上来讲,双曲空间的容量更大,能容纳更多的信息,尤其是在表示层级结构时。你可以把欧几里得空间想象成一个有限的盒子,而双曲空间则像一个不断膨胀的宇宙。

在实际应用中,这种优势体现在模型能够更好地处理复杂、多层次的任务。例如,在机器人导航中,机器人需要先规划一个大的路线,然后再规划具体的行动步骤。双曲空间能帮助模型更好地组织这些不同层次的信息,从而做出更合理的决策。并且,由于双曲空间的特性,模型可能更容易发现一些隐藏的关联性,这有助于提高模型的泛化能力。

问题:GeoWorld 在 CrossTask 和 COIN 数据集上取得了显著的成功率提升,那么这种方法在其他类型的视觉任务中,例如图像分类、目标检测等,是否也具有潜力?为什么?

我持谨慎乐观态度。GeoWorld 的优势在于处理具有层级关系和时序性的数据,而图像分类和目标检测更多关注的是图像的静态特征。直接应用 GeoWorld 可能效果不佳。

但是,如果将 GeoWorld 的思想进行适当的改造,或许可以应用于这些任务。例如,可以利用双曲空间来建模图像中不同对象之间的关系,或者利用几何强化学习来训练目标检测器,使其能够更好地处理遮挡和形变等问题。

总的来说,GeoWorld 提供了一种新的视角和思路,但要将其成功地应用于其他视觉任务,还需要进行大量的研究和实验。

问题:文章提到了几何强化学习 (GRL) 通过优化预测器来实现长程规划,那么GRL是如何避免强化学习中常见的奖励稀疏问题和探索难题的?

GRL避免奖励稀疏和探索难题,我认为关键在于它利用了几何结构的先验知识。传统的强化学习就像是在一个完全未知的迷宫里摸索,而GRL则相当于拿到了一张地图,知道哪些地方是连通的,哪些地方是死路。

具体来说,双曲几何提供了一种自然的层级结构和距离度量,GRL通过优化预测器,使得模型能够更好地利用这种几何结构进行规划。这意味着模型在探索时,可以更有针对性地选择那些更有可能到达目标状态的路径,从而避免了盲目的探索。

打个比方,这就像是在玩一个解谜游戏,如果你毫无头绪,可能需要花费大量时间尝试各种组合。但如果你知道一些基本的规则和原理,就能更快地找到解决方案。GRL就是让模型在强化学习的过程中,拥有了这样一些“基本的规则和原理”。

问题:文章提到了几何强化学习 (GRL) 通过优化预测器来实现长程规划,那么GRL是如何避免强化学习中常见的奖励稀疏问题和探索难题的?

我觉得GRL的高明之处在于,它把强化学习问题转化为了一个几何优化问题。它没有试图去学习一个显式的策略或者奖励函数,而是直接优化预测器,使得预测器能够更好地模拟环境的动力学。

这样做的好处是:

1. 避免了奖励稀疏问题:因为模型不需要等到最终目标达成才能获得奖励,而是可以通过优化预测器的准确性来获得持续的反馈。
2. 降低了探索难度:由于模型在学习环境的动力学,因此它可以更好地预测未来的状态,从而更有针对性地进行探索。

总的来说,GRL 通过利用几何结构和优化预测器的方式,有效地缓解了强化学习中常见的奖励稀疏和探索难题,使得模型能够更好地进行长程规划。这是一种非常值得借鉴的思路。

问题:GeoWorld 在 CrossTask 和 COIN 数据集上取得了显著的成功率提升,那么这种方法在其他类型的视觉任务中,例如图像分类、目标检测等,是否也具有潜力?为什么?

我觉得潜力是肯定有的,但具体怎么用,还需要看任务的特性。

图像分类的话,如果类别之间存在一定的层级或者关联关系,比如动物分类(哺乳动物、鸟类、爬行动物等),那么用双曲空间来表示这些类别可能会更好。 目标检测的话,可以考虑用双曲空间来建模不同物体之间的空间关系,比如在自动驾驶场景中,车辆、行人、交通标志等等,它们之间的位置关系是比较固定的,如果能把这些关系学出来,应该可以提高检测的准确率。

关键是要找到任务中存在的几何结构,然后设计合适的模型来利用这些结构。