NeoVerse:百万级单目视频驱动的通用4D世界模型

中科院和CreateAI推出NeoVerse,用百万单目视频训练4D世界模型。采用前馈式4DGS,双向运动建模,单目退化模拟等技术,效果超越现有方法,并在多个领域有应用前景。

原文标题:李飞飞又被超越了?百万「普通视频」打造通用4D世界模型!

原文作者:数据派THU

冷月清谈:

中国科学院和CreateAI合作推出的NeoVerse,通过大规模单目视频训练,突破了传统4D世界模型对昂贵多视角数据的依赖。该方法的核心在于前馈式4D高斯溅射(4DGS),它无需复杂的离线预处理,即可在几秒内完成动态场景的4D建模。NeoVerse 引入双向运动编码分支,通过交叉注意力机制分别提取前向和后向的运动特征,实现更精准的运动预测和高斯插值渲染。此外,它还提出“稀疏帧重建,密集帧渲染”策略,并在单目视频训练中引入单目退化模拟机制,从而建立自监督训练范式。实验结果表明,NeoVerse在重建速度和生成质量上均显著优于现有方法,并且能支持多视角生成、视频编辑等应用,为自动驾驶、具身智能等领域提供了强大的通用4D世界模型底座。

怜星夜思:

1、NeoVerse通过模拟单目重建的退化规律进行自监督学习,这个思路非常巧妙。你觉得除了文中提到的高斯剔除和平均几何滤波,还有哪些单目重建中常见的退化现象可以被模拟用于提升模型的泛化能力?
2、NeoVerse的“稀疏帧重建,密集帧渲染”策略是如何提高训练效率的?这种策略在其他视频处理任务中有没有应用潜力?
3、NeoVerse论文中提到,它构建了一套能够无缝适配互联网单目视频的训练管线。你认为要将这项技术真正落地应用,还需要解决哪些实际问题?

原文内容

图片
来源:新智元
本文约2700字,建议阅读5分钟
当全行业还在为昂贵的多视角数据焦头烂额时,中科院和CreateAI重磅推出NeoVerse,直接用百万单目视频砸开了4D世界模型的大门,让AI真正学会了理解开放世界。





项目主页:https://neoverse-4d.github.io/

论文链接:https://arxiv.org/abs/2601.00393


前馈式4DGS:免位姿的高效重建底座


NeoVerse 是一种重建-生成混合式的架构,其首先重建出 4D 表示,然后将其用于生成模型的作为新视角的几何引导。要实现训练管线的 scaling up,第一步必须解决「重建速度」问题。NeoVerse 提出了一种免姿态输入(Pose-free)的前馈式 4DGS 模型


与传统针对专一场景迭代优化的重建方法不同,NeoVerse 基于视觉几何基础变换器(VGGT)进行动态化和高斯化改进。这种前馈式重建无需复杂离线预处理,一次预测即可在几秒内完成动态场景 4D 建模。


双向运动建模

NeoVerse 引入双向运动编码分支,通过交叉注意力机制分别提取前向 ( )和后向( )的运动特征,这种有利于精准预测高斯基元的双向线速度和角速度,实现相邻时间戳的中间时刻高斯插值渲染。


具体来说,对于帧特征  ,NeoVerse 沿时间维度将其复制并切分成两部分:  和  。其中前者作为查询特征,后者作为键和值来获取前向运动特征,反之则得到后向运动特征。


其中   和   分别是   的前向运动特征和   的后向运动特征,这些特征将用于预测高斯基元双向运动的线速度和角速度。


4D高斯化

NeoVerse 定义的 4D 高斯基元如下

包括传统 3D 高斯属性:3D 位置  、不透明度  、朝向  、大小   和球谐系数  。双向建模预测的前后向线速度   和角速度  。以及 4DGS 常用的生命周期 


其中 3D 位置   是通过预测深度和相机参数将像素深度反向投影到 3D 空间获得的,动态属性   由双向运动特征预测,其他属性则由帧特征预测。

秒级在线构建数据对:规模化训练4D世界模型

稀疏帧重建 × 密集帧渲染

为了进一步加快重建速度从而提升训练效率,NeoVerse 提出「稀疏帧重建,密集帧渲染」策略,在少量稀疏关键帧输入的条件下通过高斯场插值渲染出连续密集的视频画面。对于一个非关键帧时间戳  ,NeoVerse 将其最近的关键帧时间戳   下的高斯基元   转移到 


其中为了处理非均匀的关键帧间隔,NeoVerse 归一化时间距离   来对不透明度的衰减进行建模,  是   的左右两个关键帧时间戳。生命周期   约束在   范围内,当   接近于1时,  趋于1,表明  ,否则不透明度会快速衰减。


单目退化模拟


在单目视频训练中,最大的挑战是缺乏「新视角」的监督信号。NeoVerse 并没有尝试寻找完美的数据,而是反其道而行之,引入了单目退化模拟机制,在训练的每一次迭代中,NeoVerse 并不是简单地从输入视角渲染,而是刻意「模拟」了单目重建在不同视角下的退化规律,从而建立起一套自监督训练范式:


  • 高斯剔除(Gaussian Culling): 模拟相机移动时可能出现的遮挡与视场丢失(图(a))。通过剔除部分 4D 高斯基元,模型被迫在「信息不全」的情况下学习维持物体的几何完整性。
  • 平均几何滤波(Average Geometry Filter): 除了遮挡之外,另一种典型的退化模式是深度不连续的飞行边缘像素。NeoVerse 通过在采样的新视角上渲染深度图并作平均滤波,再根据滤波后的深度值调整每个高斯基元的位置。当调整位置后的高斯重新渲染回原视角,则能模拟出现飞边现象(图(b))。当增大平均滤波核半径时,则能模拟出更大范围的空间畸变(图(c))。


退化渲染引导

NeoVerse 通过控制分支将模拟的渲染结果(包含渲染图像、深度、不透明度图以及相机位姿的 Plüker 嵌入)注入视频生成模型。在训练过程中,NeoVerse 仅训练控制分支,同时冻结视频生成主干模型,这不仅可以提升训练效率,更重要的是,使其能够支持步数蒸馏 LoRAs,以加速生成过程。

实验结果与分析


NeoVerse 通过 VBench 测评了共计400个测试样例,无论是从重建和生成的运行速度,还是从生成质量上均显著优于现有方法。


即使在具有挑战性场景上进行大幅度视角运动控制。 NeoVerse 依然能在保持精确相机可控性的同时实现更好的生成质量。


较大的相机运动下的渲染图像容易产生包括飞边像素和扭曲等现象。上图展示了 NeoVerse 单目退化模拟的必要性。如果没有在模拟出的退化样本上进行训练,生成模型往往会过于信任重建渲染中的几何伪影,导致出现「鬼影」效果或模糊输出。通过结合退化模拟,生成模型能够学会抑制这些伪影,并在遮挡或扭曲区域生成逼真的细节。

下游应用

在大规模视频训练的支持下,NeoVerse 不仅能实现高精度的 4D 重建与精准漫游,更能跨越影视制作、具身智能与自动驾驶等多个领域,支持多视角生成、视频编辑等丰富下游应用。


子弹时间


从图像到世界:重建 + 生成的迭代闭环


多样化相机控制


视频编辑


具身场景应用


驾驶场景应用


驾驶场景前视相机到多视角相机扩展

总结

NeoVerse 的出现,标志着 4D 空间智能从「实验室精雕细琢」向「大规模数据驱动」的范式转移。它通过攻克核心的扩展性(Scalability)瓶颈,构建了一套能够无缝适配互联网单目视频的训练管线。这种对海量开放场景数据的深度挖掘,不仅让 NeoVerse 在泛化能力上实现了质的飞跃,更使其成为了支撑自动驾驶、具身智能及内容创作等多元领域的通用 4D 世界模型底座。

编辑:文婧



关于我们

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。




新浪微博:@数据派THU

微信视频号:数据派THU

今日头条:数据派THU


单目退化模拟这个思路很妙!相当于给模型制造了一些“逆境”,让它在不完美的数据上也能学到东西。就像运动员在恶劣天气下训练,反而能提高适应能力。这种思路在其他任务中也有应用,比如图像识别中,会故意给图像加噪声、模糊等,提高模型的鲁棒性。

从学术角度讲,单目训练方案降低了对硬件设备的要求,使得研究者可以将更多的精力投入到算法的优化上,从而促进相关技术的发展。不过,在一些对精度要求较高的应用场景中,多视角数据仍然是不可替代的。未来的发展趋势可能是,在硬件条件允许的情况下,尽量采用多视角数据;在硬件条件有限的情况下,采用单目视频数据,并通过算法进行优化。

从信息论的角度来看,单目退化模拟实际上是在训练过程中引入了噪声。这种噪声迫使模型去学习数据中更加本质的特征,而非过度拟合训练数据中的噪声。这种思想在很多领域都有应用,例如在通信系统中,会故意引入噪声,来测试系统的抗干扰能力。

单目最大的优势就是便宜啊朋友们!劣势也很明显,精度肯定不如多目,就好像我用一个摄像头只能看到房间的一部分,但是如果我用很多摄像头,就能看到整个房间。未来我觉得肯定是单目+多目的结合,发挥各自的优势。比如自动驾驶,前期可以用多目,后期用单目,降低成本。

突然想到一个脑洞大开的应用:如果4D模型足够精确,是不是可以用来进行事故责任判定?重现事故发生时的场景,分析各方的行为,想想就觉得很赛博朋克!

我觉得在医疗影像分析领域很有潜力。医疗影像数据标注成本非常高,而且不同医生的标注结果可能存在差异。如果能利用大量未标注的医疗影像数据进行自监督学习,可以大大降低对标注数据的依赖,提升模型的泛化能力,辅助医生进行诊断。

可以考虑模拟运动模糊。快速运动的物体在单目视频中容易出现模糊,影响重建精度。通过模拟不同程度的运动模糊,可以提升模型在动态场景下的表现。

我感觉自动驾驶会是NeoVerse最先落地的领域。毕竟自动驾驶对环境感知和决策的要求非常高,而NeoVerse能够提供更精确、更全面的环境信息。如果能把NeoVerse集成到自动驾驶系统中,车辆就能更好地理解周围环境,从而做出更安全、更合理的驾驶决策。想象一下,未来的自动驾驶汽车可以像人类司机一样,对各种复杂路况和突发事件做出快速反应,那将大大提高交通安全性和效率。

我觉得具身智能更有潜力。自动驾驶涉及到安全问题,监管会更严格,落地周期会比较长。但具身智能相对来说约束少一些,比如服务型机器人,用NeoVerse让机器人更好地理解家庭环境,提供更智能的家务服务,我觉得这个方向更容易实现。比如,机器人可以根据家庭成员的习惯,自动调整室内光线和温度,或者根据食物储存情况,自动生成购物清单。

我觉得NeoVerse这个思路挺有意思的,相当于主动给模型制造“逆境”来提升它的适应性。感觉在很多领域都能用,比如自动驾驶,可以模拟恶劣天气或者传感器失效的情况,让模型在极端条件下也能稳定工作。或者在医疗影像识别里,模拟不同成像质量的图片,提高模型对各种病灶的识别能力。

我认为NeoVerse最大的优势在于它的“真实感”。传统的仿真方法,很多场景都是人为设计的,缺乏真实世界中的随机性和复杂性。NeoVerse基于真实视频学习,可以更好地模拟真实交通环境中的各种“意外情况”,例如突然出现的行人、不遵守交通规则的车辆等。

但是,NeoVerse也存在一个问题,就是它的“可控性”可能不如传统仿真方法。在传统仿真中,我们可以精确地控制每一个元素的行为,而在NeoVerse中,我们只能通过调整一些参数来影响场景的生成,难以实现精细的控制。

所以,我觉得NeoVerse可以作为传统仿真方法的补充,用于生成更逼真的测试场景,而传统仿真方法可以用于进行更精确的测试和评估。

纯视觉方案的局限性也很明显。在恶劣天气条件下,例如雨、雪、雾等,视觉传感器的性能会急剧下降。此外,对于缺乏纹理的场景,例如空旷的停车场,纯视觉方案也可能难以准确感知环境。因此,我认为在可见的未来,自动驾驶仍然需要多种传感器融合,才能保证安全可靠。

谢邀,抛砖引玉一下。我觉得除了图像层面的退化,还可以考虑数据层面的退化。比如,可以模拟数据标注的噪声,让模型学习在存在标注错误的情况下进行训练。毕竟,真实世界的数据集很难保证完全干净,引入一定程度的噪声反而能提高模型的抗干扰能力。当然,这个噪声的引入需要谨慎设计,避免过度影响模型性能。

其实我觉得可以这样理解,单目视觉本身就存在局限性,NeoVerse 并没有试图去回避这些局限性,而是主动拥抱它们,甚至将它们转化为优势。退化模拟本质上是一种数据增强,它丰富了训练数据的多样性,让模型见识了更多“世面”,从而具备更强的泛化能力。这就像一个孩子,如果从小就生活在温室里,那么他很难适应外面的世界;但如果他从小就经历过各种挑战,那么他就能更好地应对未来的困难。

我认为除了高斯剔除和平均几何滤波,光照变化也是一个重要的退化现象。现实场景中光照条件复杂多变,模型需要对光照变化具有一定的鲁棒性。可以通过模拟不同光照条件下的视频,例如过曝、欠曝、阴影等,来训练模型对光照变化的适应能力,让模型在真实场景中表现更好。而且可以考虑加入一些天气因素,比如雾霾、雨雪天气等,提高模型的泛化能力。

单目视频最大的问题是缺乏新视角的监督信号。NeoVerse通过高斯剔除和平均几何滤波来模拟相机移动时可能出现的遮挡、视场丢失以及深度不连续等退化现象,在训练过程中让模型适应这些退化情况,从而提升泛化能力。有点像是在教模型“如何在残缺的信息中拼凑出完整的图像”。

好问题!NeoVerse用单目视频训练确实挺有意思。优势很明显,数据获取成本大大降低,毕竟互联网上单目视频遍地都是。局限性也很突出,单目视觉天然缺乏3D信息,需要更多trick来弥补,例如文章里提到的单目退化模拟。我认为在需要快速迭代、低成本部署的场景下单目模型会更吃香,比如一些消费级的AR/VR应用,或者低成本的机器人导航。

我觉得语义信息的融合是关键。目前 NeoVerse 主要关注几何重建和渲染,如果能加入语义分割、物体检测等模块,让模型能够识别场景中的物体和它们的属性,就能大大提升场景理解能力。更进一步,还可以引入知识图谱,让模型能够推理物体之间的关系,从而实现更高级的场景理解。

其实我觉得在影视制作领域更有潜力,不是说技术不重要,而是说赚钱更重要,想想看啊,这技术要是用在好莱坞,那特效成本能降多少?而且效果肯定杠杠的。至于落地问题,emmm…可能需要解决版权问题?毕竟AI生成的东西归谁所有,现在还是个模糊地带。