4DNeX:单图生成四维动态世界的里程碑

4DNeX创新实现单图生成动态四维场景,利用真实世界数据,高效地产出高保真时空视频,超越现有方法。

原文标题:一张图,开启四维时空:4DNeX让动态世界 「活」起来

原文作者:机器之心

冷月清谈:

南洋理工大学S-Lab与上海人工智能实验室联合推出突破性前馈框架4DNeX,它首次实现仅凭单张图片即可直接生成动态四维场景。不同于以往依赖游戏引擎或合成数据的方法,4DNeX 大规模利用真实世界动态影像进行训练,从而能够高效、多视角且高保真地渲染“时空视频”。这一创新不仅在多项基准测试中显著超越Free4D、4Real等现有最佳方法,更将“一张图生成四维世界”的科幻概念变为现实。为解决高质量真实4D数据稀缺的瓶颈,研究团队发布了全球首个 近千万帧、多场景、带伪标签的超大规模4D视频数据集——4DNeX-10M。技术上,4DNeX引入了融合外观(RGB)与几何(XYZ)的6D统一表征,并通过创新的“宽度融合”策略优化了多模态信息集成,同时结合LoRA微调与多种优化机制,确保了生成内容的高质量与物理一致性。实验结果也证明了4DNeX在动态幅度、时空一致性及用户偏好度上的显著优势。

怜星夜思:

1、文章提到4DNeX未来会是AR/VR和具身智能的基石,那大家觉得,这种能从单张图片生成动态四维场景的技术,除了这些高大上的领域,还有没有可能在咱们日常生活中或者其他意想不到的地方派上用场呢?譬如说,能不能让老照片“活”起来,或者对一些公共安全、城市管理方面有帮助?
2、文章提到4DNeX大规模使用了“真实采集的数据”进行训练,并能实现“反事实”推演。那么,当这种技术普遍应用后,大家觉得它对内容创作、信息传播甚至社会信任会带来哪些潜在的挑战或伦理问题?比如,生成高保真的“时空视频”会不会让“眼见为实”变得越来越不可靠,或者加剧深度伪造(Deepfake)的风险?
3、4DNeX在“数据”和“表征”方面取得了显著突破,特别是构建了4DNeX-10M数据集和提出了6D统一表征以及“宽度融合”策略。那么,对于“架构”这个研究方向,也就是如何更好地继承现有模型先验、保障高质量输出,你们认为未来还有哪些值得探索和改进的空间?比如说,有没有可能结合其他更先进的神经网络结构,或者探索新的训练范式?

原文内容

 

仅凭一张照片,能否让行人继续行走、汽车继续飞驰、云朵继续流动,并让你从任意视角自由观赏?


南洋理工大学 S-Lab 携手上海人工智能实验室,给出肯定答案 ——4DNeX。作为全球首个仅依赖单张输入即可直接输出 4D 动态场景的前馈(feed-forward) 框架,4DNeX 摆脱了游戏引擎与合成数据的束缚,首次大规模利用真实世界动态影像进行训练,实现「时空视频」的高效、多视角、高保真渲染。


在多项基准测试中,4DNeX 以显著优势超越 Free4D、4Real 等当前最佳方法,真正把「一张图生成四维世界」的科幻概念带进了现实。



  • 论文链接:https://4dnex.github.io/4DNeX.pdf

  • 项目主页:https://4dnex.github.io/ 


1. 研究背景


世界模型正成为 AI 研究的高频热词。 Google DeepMind 近期迭代的 Genie 3 已能在高质量游戏数据上生成长达数分钟的交互式视频,但目前尚且缺乏在诸多真实场景上的验证。


世界模型发展的一个重要拐点在于:让模型学会刻画我们身处的动态 3D 世界,并服从其物理定律。 唯有如此,生成的内容才能既逼真又可导,进而支持「反事实」推演 —— 在虚拟中重放、预测甚至改写现实。这一能力不仅可构成下一代 AR/VR 与具身智能的重要研究基石,更是迈向可信 AGI 的必经之路。


构建 4D 世界模型的关键能力,在于能否持续产出高保真、可扩展的 4D 内容,其主要在于以下三个方面的研究:


  • 数据 – 相较于游戏等引擎合成的数据,真实采集的数据虽能保留物理属性,却难以大量获取,更难标注;

  • 表征 - 如何兼顾不同模态(如材质和几何等)特性,设计选取高效的 3D/4D 表征仍是学界长久未竟的科研命题;

  • 架构 – 当前的不同生成模型架构互有优劣,如何更好地继承现有模型先验,保障高质量仍需探索。


鉴于此,「真实高效」的 4D 世界模型构建非常重要,也充满挑战。


2. 4DNeX-10M Dataset

近千万帧带 4D 标注的视频集


为破解高质量真实 4D 数据稀缺的瓶颈,4DNeX 首度发布 4DNeX-10M—— 近千万帧、多场景、带伪标签的超大规模 4D 视频数据集。其覆盖室内外环境、自然景观与人体运动等多元主题,尤以海量「以人为中心」的 4D 数据为特色,囊括丰富的物理属性、动态细节与交互行为,为 4D 世界模型的构建奠定坚实基础。


图 1 4DNeX-10M Dataset 包含了不同来源且丰富多样的动态数据


为支撑 4DNeX-10M 的构建,研究者们同步设计了一条全自动的数据–标注管线(见下图)。


  • 数据源:单目实拍视频数据,其中动态场景取自 Pexels、Vimeo 等公开视频库;静态场景则整合 RealEstate-10K、DL3DV 等。

  • 首轮清洗:基于光流一致性、亮度统计、运动强度及 OCR 文字检测,剔除低质片段。


  • 标签制作:


  • 内容:LLaVA-Next Video 给视频片段打标。

  • 几何:静态场景使用 Dust3R 三维重建,动态场景使用 Monst3R / MegaSam 四维重建,输出 Semi-Dense 3D/4D 点云图、几何标签。


  • 质量把关:联合置信度(MCV、HCPR 等)与运动平滑度等多重阈值,筛除几何漂移或动态异常序列。


最终打标完成的 4DNeX-10M 数据集构成如图右下角统计所示。


图 2 4DNeX-10M 构建管线以及数据统计情况


3. 4DNeX 方法架构


表征选取


在 4D 内容生成中,传统「4D」指 3D 空间几何外加时间轴;而在世界模型的语境下,RGB 视频携带的材质、光照与语义信息同样关键。4DNeX 因而提出 6D 统一表征:以 RGB 序列刻画外观(3 维)并以 XYZ 序列编码几何(3 维)。该设计无需显式相机控制,即可同步生成多模态内容,兼顾真实感与物理一致性。


图 3 不同的 RGB 和 XYZ 模态融合策略


算法框架


4DNeX 框架的技术突破在于「宽度融合」这一关键策略:系统比较五种方案后,研究者们发现将 RGB 与 XYZ 在 token 宽度维度直接拼接,可将跨模态距离压到最低。 相比之下,通道融合会扰乱预训练分布,批处理融合又无法保证对齐。 


图 4 不同的空间融合策略对比


网络骨架沿用 Wan2.1 视频扩散模型,通过轻量级 LoRA 微调完成适配,主要的策略包括有:


  • 输入端以斜坡深度初始化,先验地逼近自然场景的深度梯度;

  • XYZ 坐标经归一化校正,彻底消除 VAE 潜在空间的分布错位;

  • 软掩码机制在扩散过程中动态约束几何细节,引导结构收敛;

  • 旋转位置编码维持像素级 RGB-XYZ 对齐。


最后,仅需一次轻量重投影即可反算出相机参数,确保输出在物理层面严密自洽。


图 5 4DNeX 框架总览


4. 实验结果


实验验证显示 4DNeX 在效率与质量上实现双重突破:VBench 测试中,其动态幅度达 100%(超越 Free4D 的 40.1%),时空一致性 96.8% 领先业界。用户研究(23 人评估)更显示 85% 用户偏好其生成效果,尤其在运动幅度与真实感方面优势显著。


生成效果可视化证明模型能力 —— 单图输入可输出连贯动态点云序列(图 5),新视角合成在真实场景(in-the-wild)中保持几何一致性(下图 6);与 Animate124、4Real 等基线对比(下图 7),4DNeX 在树叶摇曳幅度、人体动作自然度等细节表现更优。


图 6 4DNeX 生成的视频效果(RGB & Point Map)


图 7 4DNeX 生成未经训练真实世界视频的新视角视频


图片

图 8 4DNeX 对比其他方法的生成效果


User Study 用户调研结果显示 4DNeX 生成的效果优于 Free4D、4Real、Animate124、GenXD 方法。


表格 1 User Study 结果对比


消融实验


研究者们还对比了五种融合 RGB 以及 XYZ 的策略,以发现最佳的多模态融合策略。实验一步证实宽度融合策略的关键作用,消除其他方案(如通道融合)的噪声或对齐失败问题。


图 9 不同融合策略的结果可视化展示



© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

关于“单张图片生成动态四维场景的技术在日常或意想不到领域的用途”:我觉得这简直是创意产业的福音啊!想象一下,电影制作、游戏开发、甚至广告宣传,过去需要大量建模和渲染的工作,现在一张图就能搞定,效率直接飞升。尤其对独立制作人来说,门槛大大降低了。甚至对个人用户,说不定以后我们也能把老家那些静态的高清照片,直接变成一段穿越时空的视频,让故乡的河流再度流淌,童年的玩伴再次嬉戏,那得多有意思!

我觉得吧,任何技术都是双刃剑。你不能因为它能做坏事就因噎废食。你看菜刀还能伤人呢,但你不会说不让用菜刀吧?关键在于咱们怎么用,以及怎么去引导和监管。比如这次4DNeX训练用的是真实数据,可以想象以后AI生成的“假视频”会越来越真,但它也给我们一个机会去思考:在数字时代,我们如何重建信任机制?这可能包括更严格的数字水印、加密签名,甚至是公众教育,让大家知道哪些是AI生成的,哪些是真实拍摄的。说不定,以后“这张图是AI生成的”会成为一种新的艺术风格标签呢!

嗯,说到“深度伪造风险”,这真是个让人头疼的问题。4DNeX这种能生成超真实动态场景的能力,简直是给不法分子又递了一把“神兵利器”。以前Deepfake可能还需要多张照片或者一段视频才能搞,现在只要一张图就行?那可真是防不胜防了。从媒体传播的角度来看,未来我们可能要对所有看到的“视频证据”都打个问号,这会极大地消耗社会信任。我甚至觉得,以后可能需要开发AI来对抗AI,专门用来鉴别这些AI生成的假视频,道高一尺魔高一丈啊!

针对“这种技术在日常生活或其他意想不到地方的应用”,从学术角度看,其潜力远不止于娱乐。在文物数字修复和文化遗产保护方面,比如一张模糊的仅存的历史照片,通过4DNeX或许能重现当时的场景和人物活动轨迹,这对于历史考证和公众教育具有非常高的价值。再者,在灾害模拟与应急响应中,基于单次观测的静态图像生成动态预测模型,能为决策提供更直观、更丰富的实时情境推演,从而优化救援策略。城市规划方面利用现有卫星或街景图进行动态交通流预测、居民活动模式分析,都能辅助智能城市管理。

关于“架构方面未来有哪些值得探索和改进的空间”,我关注到4DNeX沿用了Wan2.1视频扩散模型骨架并进行LoRA微调。这说明它在扩散模型的框架下取得了成功。但在未来,我觉得可以继续探索更高效的生成式对抗网络(GANs)或最新的Transformer变体,例如用于更长序列生成或更高分辨率输出的模型。另外,如何更有效地结合多模态输入(如文本、音频甚至触觉数据),并将其融入到统一的4D生成架构中,以实现更丰富、更具语义控制力的动态场景生成,也是一个值得深入研究的方向。最终目标是实现更少的计算资源消耗下,输出更高保真度、更具物理真实性的4D内容。

要我说,对于“架构”这块,咱们是不是可以跳出图像和视频生成的老框框,去看看其他领域有没有什么好东西能借鉴过来?比如,现在大火的具身智能或者机器人控制里,它们怎么做环境理解和动作规划的?那些实时决策的架构,是不是能给4DNeX这种动态生成模型一些启发,让它不仅能生成“形”,还能生成更符合物理规律的“动”?甚至可以尝试一些强化学习的思路,让模型在生成过程中自我学习,不断优化动态细节,像个“数字导演”一样,让生成的内容更自然、更流畅。

嘿,说到“架构改进”,我觉得除了在模型结构上做文章,是不是也能从“训练范式”上找找突破?比如,现在这种大规模数据集训练固然好,但要是以后数据量再爆炸式增长,总不能一直堆硬件吧?也许可以探索一些半监督学习、自监督学习,或者联邦学习的模式,让模型在更分散、更隐私保护的环境下也能持续学习和优化。或者干脆搞点“人类反馈强化学习”(RLHF)那套,让模型生成的动态效果更符合人类的直观感受和审美。毕竟,光是物理真实还不够,还得“好看”才行嘛!

关于“4DNeX在内容创作、信息传播和社会信任方面可能带来的挑战或伦理问题”:这方面确实是我们需要高度警惕的。就像你说的,当“眼见为实”不再可靠时,信息辨别的难度会呈几何级数增加。想象一下,有人恶意利用这项技术,将某人的一张照片,生成一段虚假的、做出不当行为的“时空视频”,那对个人声誉和社会秩序的破坏将是毁灭性的。这要求我们在技术发展的同时,必须同步加强法律法规的建设、提升公众的媒介素养,并探索有效的数字内容溯源和真实性验证机制。治理难度不亚于技术本身。

哎哟喂,你想得简单了些。这不就是AI版“让照片动起来”吗?除了那些高科技玩意儿,我就想知道,我能不能用它把我老板开会时的照片,直接变成他手舞足蹈、口沫横飞的动图,然后发到公司群里逗大家乐呵乐呵?:joy::joy: 或者把朋友圈里的美食照片变成动态烹饪教程,那岂不是深夜放毒的最高境界?在公共安全上,如果能把某个监控死角的静态照片,直接还原出当时车流人流的动态,那破案是不是就容易多了?总而言之,只要敢想,这玩意儿能玩的比我们想象的多得多!