AETHER:首个基于合成数据训练的生成式世界模型,赋能机器人 3D 空间决策与规划

上海AI实验室开源AETHER,首个全合成数据训练的生成式世界模型,赋能机器人3D空间决策与规划,零样本泛化能力强。

原文标题:合成数据也能通吃真实世界?首个融合重建-预测-规划的生成式世界模型AETHER开源

原文作者:机器之心

冷月清谈:

上海人工智能实验室开源了生成式世界模型 AETHER,该模型仅使用合成数据训练,即可在重建、生成任务中表现出色,并首次赋予大模型在真实世界中的 3D 空间决策与规划能力。AETHER 通过融合几何重建与生成式建模,首创“重建-预测-规划”一体化框架,使模型能够感知环境、理解物体关系,从而做出智能决策。模型在目标导向视觉规划、4D 动态重建和动作条件视频预测等方面表现突出,尤其是在引入空间建模后,视频一致性指标提升显著。即使在真实环境中,模型也展现出强大的零样本泛化能力,为具身智能大模型在数据增强、路径规划以及基于模型的强化学习等方向研究提供技术支撑。

怜星夜思:

1、AETHER 模型完全基于合成数据训练,这在多大程度上解决了真实世界数据稀缺的问题?这种方法有哪些潜在的局限性?
2、AETHER 模型中“重建-预测-规划”一体化框架是如何提升模型在动态环境中的决策能力的?这种框架相较于传统的世界模型有哪些优势?
3、AETHER 模型在 4D 动态重建方面达到了毫米级精度,这对哪些应用场景具有重要意义?未来可能在哪些方面进一步提升其重建精度?

原文内容

近日,上海人工智能实验室(上海 AI 实验室)开源了生成式世界模型 AETHER。该模型全部由合成数据训练而成,不仅在传统重建与生成任务中表现领先,更首次赋予大模型在真实世界中的 3D 空间决策与规划能力,可助力机器人完成目标导向的视觉规划、4D 动态重建、动作条件的视频预测等复杂任务。


研究团队将几何重建与生成式建模深度融合,首创「重建 — 预测 — 规划」 一体化框架,通过 AETHER 使大模型能够感知周围环境,理解物体之间的位置、运动和因果关系,从而做出更智能的行动决策。


实验表明,传统世界模型通常聚焦于 RGB 图像的预测而忽略了背后隐含的几何信息,引入空间建模后,各项指标均显著提升,其中视频一致性指标提升约 4%。更重要的是,即使只使用合成数据进行训练,模型在真实环境中依然展现出强大的零样本泛化能力。


论文与模型已经同步开源。


  • 论文标题:AETHER: Geometric-Aware Unified World Modeling

  • 论文链接:https://arxiv.org/abs/2503.18945

  • 项目主页:https://aether-world.github.io


三大核心技术

攻克动态环境中的智能决策困境


传统世界模型主要应用于自动驾驶与游戏开发等领域,通过其丰富的动作标签来预测接下来的视觉画面。


但由于缺乏对真实三维空间的建模能力,这容易导致模型预测结果出现不符合物理规律的现象。同时,由于依赖且缺乏真实数据,面对更复杂多变的场景时,其泛化能力也明显不足。


针对以上问题,研究团队提出了生成式世界模型 AETHER,基于三维时空建模,通过引入并构建几何空间,大幅提升了模型空间推理的准确性与一致性。


具体而言,研究团队利用海量仿真 RGBD 数据,开发了一套完整的数据清洗与动态重建流程,并标注了丰富的动作序列。同时,他们提出一种多模态数据的动态融合机制,首次将动态重建、视频预测和动作规划这三项任务融合在一个统一的框架中进行优化,从而实现了真正的一体化多任务协同,大幅提高了模型的稳定性与鲁棒性。


面对复杂多变的现实世界,如何让具身智能系统实现可靠、高效的决策是人工智能领域的一项重大挑战。研究团队在 AETHER 框架中通过三项关键技术突破,显著提升了具身系统在动态环境中的感知、建模与决策能力。


  • 目标导向视觉规划:可根据起始与目标场景,自动生成一条实现视觉目标的合理路径,并以视频形式呈现全过程。通过联合优化重建与预测目标,AETHER 内嵌空间几何先验知识,使生成结果兼具物理合理性。这使得具身智能系统能像人类一样「看路规划」—— 通过摄像头观察环境后,自动生成既安全又符合物理规律的行动路线。

  • 4D 动态重建:通过自动标注流水线,构建合成 4D 数据集,无需真实世界数据即可实现零样本迁移,精准捕捉并重建时空环境的动态变化。例如,输入一段街景视频,系统即可重建包含时间维度的三维场景模型,精确呈现行人行走、车辆运动等动态过程,建模精度可达毫米级。


自动相机标注 pipeline。


  • 动作条件视频预测:创新性地采用相机轨迹作为全局动作表征,可直接基于初始视觉观察和潜在动作,预测未来场景的变化趋势。相当于给具身智能系统装上了预测未来的「镜头」。


可零样本泛化至真实场景


不同于传统仅预测图像变化的世界模型,AETHER 不仅能同时完成四维时空的重建与预测,还支持由动作控制驱动的场景推演与路径规划。值得强调的是,该方法完全在虚拟数据上训练,即可实现对真实世界的零样本泛化,展现出强大的跨域迁移能力。


具体流程如下图所示,图中黄色、蓝色和红色分别表示图像、动作与深度的潜在变量,灰色表示噪声项,白色框为零填充区域。模型通过组合不同的条件输入(如观察帧、目标帧和动作轨迹),结合扩散过程,实现对多种任务的统一建模与生成。


就像在拼一副完整的动态拼图,观察帧提供了「现在的样子」,目标帧给出了「未来的样子」,动作轨迹则是「怎么从这里走到那里」,而扩散过程则像是拼图的拼接逻辑,把这些零散信息有序组合起来,最终还原出一个连续、合理且可预测的时空过程。


为了支持同时完成重建、预测和规划这三类不同任务,AETHER 设计了一种统一的多任务框架,首次实现在同一个系统中整合动态重建、视频预测和动作规划。


其核心在于:能够融合图像、动作、深度等多模态信息,建立一个跨模态共享的时空一致性建模空间,实现不同任务在同一认知基础上的协同优化。


实验结果


在多个实验任务中,AETHER 在动态场景重建方面已达到甚至超过现有 SOTA 水平。同时发现在多任务框架下,各个任务有很好的促进,尤其在动作跟随的准确度上面有较大的提升。


该方法有望为具身智能大模型在数据增强、路径规划以及基于模型的强化学习等方向研究提供技术支撑。

© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

AETHER 使用合成数据训练,避免了真实世界数据收集的昂贵成本和隐私问题,为具身智能的普及提供了可能性。但合成数据和真实数据之间存在“reality gap”,AETHER 是否能完全克服还待验证。例如,真实世界中传感器噪声、环境干扰等因素在合成数据中难以完美模拟,这可能导致模型在实际应用中出现误差。

AETHER 的“重建-预测-规划”一体化框架,让模型能够更全面地理解环境。传统世界模型只关注视觉表象的预测,而 AETHER 通过重建几何空间,让模型理解了物体之间的关系和运动规律。这就好比,你不仅看到了一个苹果移动,还知道它是怎么移动的,为什么会移动,以及它可能移动到哪里。这种更深层次的理解,自然能提升模型在动态环境中的决策能力,让它像人一样能够“预判”和“规划”。

毫米级精度的 4D 动态重建,意味着我们能够非常精确地捕捉和重建真实世界的动态变化。这对于需要高精度感知的应用场景至关重要,比如自动驾驶中的障碍物检测、医疗影像中的病灶分析、工业制造中的精密测量等等。未来,可以通过引入更先进的传感器技术、优化重建算法、以及利用更多模态的信息融合,来进一步提升重建精度。

我就想问一下,这个“重建-预测-规划”一体化框架,是不是有点像我们玩游戏时的“预判”?比如玩 FPS 游戏,高手都会根据敌人的动作、位置等信息,提前预判敌人的下一步动作,然后提前开枪。AETHER 是不是也通过重建环境、预测未来,来实现类似的效果?如果是这样,那 AETHER 在机器人领域的应用前景就非常广阔了,比如自动驾驶、智能制造等等。

个人认为,毫米级精度的 4D 动态重建在科学研究和工业应用上都有巨大潜力。比如,在生物医学领域,可以用于研究细胞的动态行为;在工业领域,可以用于检测微小的产品缺陷。为了进一步提升重建精度,可以考虑引入物理约束、利用先验知识、以及采用更先进的优化算法。

传统的 World Model 通常只关注 RGB 图像的预测忽略了几何信息,所以经常会生成不符合物理规律的结果,AETHER 将重建、预测和规划三个任务融合在一个框架里,让它们相互促进,从而提升整体性能。这种框架的优势在于能充分利用数据中的信息,避免了信息孤岛,从而提高模型的鲁棒性和泛化能力。

毫米级精度?那是不是意味着以后我们可以用手机拍一段视频,就能重建出一个非常逼真的 3D 模型?如果真是这样,那感觉以后建模师都要失业了。不过,我觉得 AETHER 在重建精度方面还有提升空间,比如可以加入更多细节纹理、提高光照效果等等,让重建出来的模型更加逼真。

AETHER 的全合成数据训练确实在一定程度上缓解了真实数据获取的难题,尤其是在机器人学习这种需要大量交互数据的领域。不过,合成数据再逼真,也无法完全模拟真实世界的复杂性和噪声。比如,光照变化、材质差异、未知物体等,都可能导致模型在真实环境中的性能下降。所以,AETHER 的局限性可能在于对未知的、长尾分布的真实世界情况的泛化能力。

其实我觉得 AETHER 这种思路挺有意思的,就像游戏里的 AI 一样,先在虚拟世界里练级,然后再去真实世界里打怪。但是,如果合成数据和真实世界差异太大,那练级效果可能就大打折扣了。想象一下,如果你一直在玩一个画面很差、物理引擎也很烂的游戏,等你真正去玩 3A 大作的时候,可能还是会各种不适应。所以,AETHER 的关键在于合成数据的质量和真实度。