智源研究院开源See3D:从视频中学习3D,开启AI三维生成新时代

智源开源See3D模型,利用无标注视频学习3D生成,支持多视角图像生成和3D编辑,开启AI三维生成新篇章。

原文标题:「See Video, Get 3D」,智源开源无标注视频学习3D生成模型See3D

原文作者:机器之心

冷月清谈:

智源研究院最新开源了See3D模型,这是一个利用无标注互联网视频进行3D生成的新模型。不同于以往需要相机参数的3D模型,See3D仅依靠视频中的视觉线索,即可生成视角可控且几何一致的多视角图像。

See3D的核心优势在于其利用了海量的、易于获取的互联网视频数据,避免了昂贵且难以扩展的3D数据采集。通过一个视频数据筛选流程,See3D构建了包含数亿张图像的大规模多视角数据集WebVi3D。模型训练过程中,See3D通过向掩码视频数据添加时间依赖噪声,生成一种纯粹的2D视觉信号,从而学习通用的3D先验,无需依赖相机参数。

See3D的应用非常广泛,支持从文本、单视图和稀疏视图到3D的生成,还可以进行3D编辑、表面重建等。实验结果表明,See3D能够生成高质量、几何一致的多视角图像,并在多种3D创作应用中展现出强大的能力。

怜星夜思:

1、See3D模型相比其他3D生成模型,最大的突破是什么?
2、See3D模型的应用场景有哪些?除了文章中提到的,还能想到哪些潜在的应用?
3、See3D模型使用无标注视频数据,如何保证生成的3D模型的质量和精度?

原文内容

机器之心发布

机器之心编辑部


近日,著名 AI 学者、斯坦福大学教授李飞飞团队 World Labs 推出首个【空间智能】模型,仅输入单张图片,即可生成一个逼真的 3D 世界,这被认为是迈向空间智能的第一步。


几乎同时,国内智源研究院推出了首个利用大规模无标注的互联网视频学习的 3D 生成模型 See3D---See Video, Get 3D。不同于传统依赖相机参数(pose-condition)的 3D 生成模型,See3D 采用全新的视觉条件(visual-condition)技术,仅依赖视频中的视觉线索,生成相机方向可控且几何一致的多视角图像。这一方法不依赖于昂贵的 3D 或相机标注,能够高效地从多样化、易获取的互联网视频中学习 3D 先验。See3D 不仅支持零样本和开放世界的 3D 生成,还无需微调即可执行 3D 编辑、表面重建等任务,展现出在多种 3D 创作应用中的广泛适用性。


See3D 支持从文本、单视图和稀疏视图到 3D 的生成,同时还可支持 3D 编辑与高斯渲染。

相关的模型、代码、Demo 均已开源,更多技术细节请参考 See3D 论文。

  • 论文地址: https://arxiv.org/abs/2412.06699
  • 项目地址:  https://vision.baai.ac.cn/see3d

效果展示

1. 解锁 3D 互动世界:输入图片,生成沉浸式可交互 3D 场景,实时探索真实空间结构;

实时 3D 交互(备注:为了实现实时交互式渲染,当前对 3D 模型和渲染过程进行了简化,离线渲染真实效果更佳)

2. 基于稀疏图片的 3D 重建:输入稀疏的 (3-6 张) 图片,模型可生成一个精细化的 3D 场景。 


基于 6 张视图的 3D 重建

基于 3 张视图的 3D 重建

3. 开放世界 3D 生成:根据文本提示,生成一副艺术化的图片,基于此图片,模型可生成一个虚拟化的 3D 场景。

开放世界 3D 生成样例

4. 基于单视图的 3D 生成:输入一张真实场景图片,模型可生成一个逼真的 3D 场景。

基于单张图片的 3D 生成

研究动机

3D 数据具有完整的几何结构和相机信息,能够提供丰富的多视角信息,是训练 3D 模型最直接的选择。然而,现有方法通常依赖人工设计(designed artists)、立体匹配(stereo matching)或运动恢复结构(Structure from Motion, SfM)等技术来收集这些数据。尽管经过多年发展,当前 3D 数据的积累规模依然有限,例如 DLV3D (0.01M)、RealEstate10K (0.08M)、MVImgNet (0.22M) 和 Objaverse (0.8M)。这些数据的采集过程不仅耗时且成本高昂,还可能难以实施,导致其数据规模难以扩展,无法满足大规模应用的需求。

与此不同,人类视觉系统无需依赖特定的 3D 表征,仅通过连续多视角的观察即可建立对 3D 世界的理解。单帧图像难以实现这一点,而视频因其天然包含多视角关联性和相机运动信息,具备揭示 3D 结构的潜力。更重要的是,视频来源广泛且易于获取,具有高度的可扩展性。基于此,See3D 提出 “See Video, Get 3D” 的理念,旨在通过视频中的多视图信息,让模型像人类一样,学习并推理物理世界的三维结构,而非直接建模其几何形态。

方法介绍

为了实现可扩展的 3D 生成,See3D 提供了一套系统化的解决方案,具体包括:

1)数据集:团队提出了一个视频数据筛选流程,自动去除源视频中多视角不一致或观察视角不充分的视频,构建了一个高质量、多样化的大规模多视角图像数据集 WebVi3D。该数据集涵盖来自 1600 万个视频片段的 3.2 亿帧图像,可通过自动化流程随互联网视频量的增长而不断扩充。

WebVi3D 数据集样本展示


2)模型:标注大规模视频数据的相机信息成本极高,且在缺乏显式 3D 几何或相机标注的情况下,从视频中学习通用 3D 先验是更具挑战的任务。为解决这一问题,See3D 引入了一种新的视觉条件 —— 通过向掩码视频数据添加时间依赖噪声,生成一种纯粹的 2D 归纳视觉信号。这一视觉信号支持可扩展的多视图扩散模型(MVD)训练,避免对相机条件的依赖,实现了 “仅通过视觉获得 3D” 的目标,绕过了昂贵的 3D 标注。

See3D 方法展示

3)3D 生成框架:See3D 学到的 3D 先验能够使一系列 3D 创作应用成为可能,包括基于单视图的 3D 生成、稀疏视图重建以及开放世界场景中的 3D 编辑等, 支持在物体级与场景级复杂相机轨迹下的长序列视图的生成。 

基于 See3D 的多视图生成

优势 

a)  数据扩展性:模型的训练数据源自海量互联网视频,相较于传统 3D 数据集,构建的多视图数据集 (16M) 在规模上实现了数量级的提升。随着互联网的持续发展,该数据集可持续扩充,进一步增强模型能力的覆盖范围。

b)相机可控性:模型可支持在任意复杂的相机轨迹下的场景生成,既可以实现场景级别的漫游,也能聚焦于场景内特定的物体细节,提供灵活多样的视角操控能力。

c)  几何一致性:模型可支持长序列新视角的生成,保持前后帧视图的几何一致性,并遵循真实三维几何的物理规则。即使视角轨迹发生变化,返回时场景依然保持高逼真和一致性。

总结

通过扩大数据集规模,See3D 为突破 3D 生成的技术瓶颈提供了新的思路,所学习到的 3D 先验为一系列 3D 创作应用提供了支持。希望这项工作能够引发 3D 研究社区对大规模无相机标注数据的关注,避免高昂的 3D 数据采集成本,同时缩小与现有强大闭源 3D 解决方案之间的差距。

© THE END 
转载请联系本公众号获得授权
投稿或寻求报道:[email protected]

除了提到的那些,我觉得See3D在文物保护、古迹修复方面也有很大的应用潜力。可以利用无人机拍摄的视频,重建古建筑的3D模型,用于修复和研究,想想都很有意义。

文章中提到了一个WebVi3D数据集,应该是对视频数据进行了一定的筛选和处理,保证数据的质量。另外,模型本身的设计,比如时间依赖噪声的引入,应该也是为了提高生成模型的精度。

估计是用了什么神奇的算法吧,哈哈。不过话说回来,无监督学习本来就存在一定的挑战,See3D能做到现在这样已经很不错了,相信未来随着技术的进步,精度和质量还会进一步提高。

我猜,See3D模型应该是利用了视频数据中蕴含的多视角信息和时间一致性,通过学习这些信息来约束生成的3D模型,从而保证其质量和精度。当然,具体的细节还需要看论文。

我觉得See3D最大的突破在于它不依赖相机参数,而是直接从大量的无标注视频中学习3D先验。这就意味着数据采集成本大大降低,而且可以利用几乎无限的互联网视频资源,潜力巨大。

突破?当然是摆脱了对相机参数的依赖啊!以前那些模型,离开了相机参数寸步难行,See3D不依赖这些参数,生成效果还这么好,简直是3D生成领域的一大进步!

文章里提到了3D编辑、表面重建,我觉得还可以应用于虚拟现实、游戏制作、电商产品展示等等。想象一下,未来可以直接用手机拍摄一段视频,就能生成一个3D模型,放在电商平台上展示,多酷!

我认为是利用无标注视频数据这一点。现在很多3D生成模型都需要精确的3D标注数据,成本很高,而且获取难度大。See3D直接用视频,这相当于把一个巨大的、未开发的数据宝库利用起来了,想想就觉得很厉害。

See3D这技术,感觉用在医疗领域也很有搞头啊,比如根据病人CT扫描的序列图像,重建3D模型,辅助医生进行诊断和手术规划,感觉比现在的2D图像更直观,更精准。