SLAM3R:单目长视频实时重建高质量稠密点云

北大团队发布SLAM3R系统,仅用单目长视频即可实时重建高质量三维稠密点云,效率与质量兼备,为三维重建大众化应用奠定基础。

原文标题:SLAM3R:北大陈宝权团队等只用单目长视频就能实时重建高质量的三维稠密点云

原文作者:机器之心

冷月清谈:

北京大学陈宝权团队联合香港大学等机构,推出了名为SLAM3R的实时三维重建系统。该系统创新性地实现了仅使用单目RGB长视频序列,就能实时且高质量地重建场景的稠密点云。SLAM3R的突出优势在于其高效性与高质量的平衡:在消费级显卡上即可达到20+ FPS的性能,同时重建点云的准确度和完整度也达到了当前先进水平。有别于传统方法,SLAM3R 将局部多视角三维重建与全局增量式坐标配准无缝集成,无需迭代优化。该系统由Image-to-Points(I2P)和Local-to-World(L2W)两个网络构成,分别负责局部点云重建和全局坐标系配准。实验结果表明,SLAM3R在多个数据集上均表现出先进的重建质量

怜星夜思:

1、SLAM3R 如何在保证实时性的前提下,还能实现高质量的点云重建?
2、SLAM3R 虽然效果拔群,但论文里也提到了局限性,比如无法进行显式的全局优化(Bundle Adjustment),那么未来有哪些可能的改进方向?
3、SLAM3R 的成功,是否意味着纯数据驱动的三维重建方法将取代传统的几何方法?

原文内容


北京大学陈宝权团队和香港大学等高校及业界机构联合推出实时三维重建系统 SLAM3R,首次实现从长视频(单目 RGB 序列)中实时且高质量地重建场景的稠密点云。SLAM3R 使用消费级显卡(如 4090D)即可达到 20+ FPS 的性能,重建点云的准确度和完整度达到当前最先进水平,同时兼顾了运行效率和重建质量。该研究成果被 CVPR 2025 接收为 Highlight 论文,并在第四届中国三维视觉大会(China3DV 2025)上被评选为年度最佳论文,合作者为董思言博士(共同一作)、王书哲博士、尹英达博士、杨言超助理教授和樊庆楠博士,第一作者为北京大学本科生刘宇政。



  • 论文标题:SLAM3R: Real-Time Dense Scene Reconstruction from Monocular RGB Videos

  • 论文地址:https://arxiv.org/pdf/2412.09401

  • 代码地址:https://github.com/PKU-VCL-3DV/SLAM3R


SLAM3R 的交互界面(视频经过加速)。用户只需使用普通手机摄像头拍摄 RGB 视频,即可通过部署于服务器的 SLAM3R 系统实时重建出高质量的场景稠密点云,将二维视频转化为"可交互"、"可编辑"的三维世界。


在计算机视觉与机器人感知领域,基于单目摄像头的高质量三维环境感知与重建一直是个极具挑战性的课题——这主要是因为需要从有限的二维观测中恢复在相机投影过程中丢失的三维空间信息。过去的三十年间,研究者们建立了较为完善的多视角几何理论和计算框架,通常依赖多种算法的集成,包括运动恢复结构(Structure-from-Motion,简称 SfM)、同时定位和地图构建(Simultaneous Localization and Mapping,简称 SLAM)以及多视角立体视觉(Multi-View Stereo,简称 MVS)等。


由于拥有扎实的数学原理和优化算法作为"护城河",三维重建领域较少受到神经网络等深度学习方法的"入侵"。在传统方法中,神经网络主要作为算法流程的辅助模块,用于提升特征匹配的鲁棒性和深度估计的完整性。近年来,随着以 DUSt3R 为代表的大型神经网络模型出现,这一传统范式正在改变:通过端到端的前馈神经网络,可以直接从多视角 RGB 图像预测三维几何,避免了传统方法中迭代优化所带来的效率瓶颈。


SLAM3R(发音:/slæmər/)进一步革新了这一范式的演进,首次将大模型应用于长视频序列的稠密重建任务。该方案通过前馈神经网络,将局部多视角三维重建与全局增量式坐标配准无缝集成,为基于单目 RGB 视频输入的稠密点云重建提供了高效率解决方案,无需迭代优化相机参数或三维点云。实验结果表面,SLAM3R 不仅在多个数据集上展现出最先进的重建质量,还能在消费级显卡上保持 20+ FPS 的实时性能。更为重要的是,SLAM3R 的成功展示了纯数据驱动的方法在长视频序列三维几何感知任务中的潜力,为未来重建系统的研究提供了新思路。


SLAM3R 渐进式重建过程展示。输入 RGB 图像序列(如左上图所示)后,SLAM3R 首先进行局部多视角三维重建(左下图),然后执行全局增量式坐标配准(右图),从而逐步构建完整场景的点云模型。


三位一体的挑战:准确、完整、高效


基于多视角几何理论的传统方法通常将三维重建分为两个阶段:首先通过 SLAM 或 SfM 算法估计相机参数和场景结构,然后使用 MVS 算法补充场景的几何细节。这类方法虽然能够获得高质量的重建结果,但是需要离线优化等处理,因此实时性能较差。


近年来,DROID-SLAM 和 NICER-SLAM 等集成了相机定位和稠密重建的 SLAM 系统相继问世。然而,这些系统或是重建质量不够理想,或是无法达到实时运行的要求。DUSt3R 开创性地提出端到端的高效点云重建,但其仅局限于图像对(双目),在视频场景下仍需全局迭代优化,因而影响了效率。同期工作 Spann3R 虽将 DUSt3R 扩展为增量重建方式并提高了效率,但也带来了明显的累积误差,降低了重建质量。


此外,重建的准确度和完整度之间存在着固有的权衡关系,导致当前重建系统难以同时实现准确、完整和高效这三个目标。因此,在单目视频稠密重建领域中,要同时达到高质量和高效率极具挑战性。


SLAM3R:大模型时代背景下的实时稠密重建系统


DUSt3R 首次证明了大型神经网络模型的 Scaling Law 在双目立体视觉中的可行性。SLAM3R 在此基础上更进一步,通过引入传统 SLAM 系统的经典设计理念,成功将大模型应用于长视频序列的稠密重建任务。这种端到端的方法不仅具有天然的高运行效率,而且经过大规模训练后能达到高质量的重建效果,从而实现了一个在准确度、完整读和效率方面都表现出色的三维重建系统。


SLAM3R 系统示意图。给定单目 RGB 视频,SLAM3R 使用滑动窗口机制将其转换为互有重叠的片段(称为窗口)。每个窗口输入至 Image-to-Points(I2P)网络,用于恢复局部坐标系中的稠密点云。随后,这些局部点逐步输入至 Local-to-World(L2W)网络,以创建全局一致的场景模型。I2P 网络选择一个关键帧作为参考建立局部坐标系,并利用窗口中的其余帧估计该窗口的稠密点云。第一个窗口用于建立世界坐标系,之后 L2W 网络逐步融合后续窗口。在增量融合过程中,系统检索最相关的已注册关键帧作为参考,并整合新的关键帧。通过这个迭代过程,最终完成整个场景的重建。


SLAM3R 主要由两个部分组成:Image-to-Points(I2P)网络和 Local-to-World(L2W)网络。I2P 网络负责从视频片段中恢复局部坐标系下的稠密点云,而 L2W 网络则将局部重建结果逐步注册到全局场景坐标系中。在整个点云重建过程中,系统直接使用网络在统一坐标系中预测 3D 点云,无需显式计算相机参数和三角化场景点云,从而避免了传统重建方法中迭代优化等耗时的操作。


窗口内的多视角三维重建(I2P 网络)。在每个窗口内,选择一帧作为关键帧来建立参考系,其余帧(称为支持帧)用于辅助该关键帧的重建。我们基于 DUSt3R 解码器设计了关键帧解码器,通过引入简单的最大值池化操作来聚合多个支持帧的交叉注意力特征,从而有效整合多视角信息。这一改进在保持模型结构简洁的同时具有多重优势:1)继承 DUSt3R 预训练权重,从而保证预测质量;2)未引入过多计算开销,保持实时性能;3)支持任意数量的图像输入,具有良好的扩展性。


窗口间的增量式点云注册(L2W 网络)。窗口间的注册与窗口内的重建相似,不同之处在于前者使用多帧重建结果作为参考系,用以辅助注册新的关键帧。因此,L2W 采用了 I2P 的整体架构。在此基础上,引入简单的坐标编码器来处理点云输入,并通过逐层特征叠加的方式注入解码器。这种机制让模型在解码过程中持续接收几何和坐标系的双重引导,既确保了信息传递的充分性,又避免了复杂特征交互设计带来的计算负担。这一设计巧妙地继承了 DUSt3R 的坐标转换能力,并将其转化为可控的注册过程。


场景帧检索模块。我们提出了一种前馈检索机制,用于确定 L2W 网络在注册新关键帧时所使用的参考帧。当 SLAM3R 系统需要调用 L2W 融合新窗口(关键帧)时,系统会先通过场景帧检索模块从已注册窗口中检索 K 个最优参考帧,再将这些参考帧与新帧一同输入 L2W 模型进行坐标系转换。这种设计既保持了全局一致性,又有效缓解了传统 SLAM 系统中的累积误差问题。检索模块通过在 I2P 网络中附加额外的轻量级 MLP 实现,完成前馈式快速检索。


大规模训练。SLAM3R 系统的各个模块均采用前馈式神经网络实现,最大程度地复用了 DUSt3R 大规模预训练的权重,并在大规模视频数据集上进行训练。具体来说,我们收集了约 85 万个来自 ScanNet++、Aria Synthetic Environments 和 CO3D-v2 数据集的视频片段,使用 8 张 4090D 显卡进行训练。训练完成后,该系统可在单张 4090D 显卡上实现实时推理。


单目视频稠密重建迈入高质高效新时代


我们在室内场景数据集 7-Scenes 和 Replica 上评估了 SLAM3R。在重建速度较快(FPS 大于 1)的方法中,SLAM3R 实现了最佳的准确度和完整度。



7-Scenes(上方表格)和 Replica(下方表格)数据集的重建结果评估。我们以厘米为单位报告重建的准确度和完整性。FPS 栏目的颜色渐变从红色变为黄色,再变为绿色,表示实时性能提升。


值得特别指出的是,即使没有进行任何后续全局优化,SLAM3R 的重建质量也达到了与需要复杂优化的离线方法相当的水平。这表明 SLAM3R 在准确度、完整度和运行效率三方面达到了理想的平衡。


SLAM3R 基于公开数据集与日常视频的场景重建结果展示。


未来展望


SLAM3R 在保持 20+ FPS 实时性能的同时,其重建质量可达到离线方法相近的水平,旨在推动三维重建向高质量、高效率方向发展。通过将传统多阶段的三维重建流程简化为轻便的前馈网络,SLAM3R 降低了使用门槛,使三维重建有望从专业领域拓展至大众化应用。随着模型轻量化技术的突破,该方案未来有望进一步应用于移动终端,为三维资产快速获取、通用人工智能和具身智能的落地提供基础三维数据支持。


目前,SLAM3R 仍存在诸多局限性。由于跳过了相机参数预测和优化等环节,SLAM3R 无法执行显式的全局优化(Bundle Adjustment)。因此,在大规模场景中,系统仍会受到累积误差的影响。此外,基于场景重建推导出的相机参数的精度仍不如专门针对相机定位的 SLAM 系统。解决这些局限性是我们未来工作的重点。


欢迎试用!期待宝贵的意见和建议!


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

这个问题问到了点子上!SLAM3R 的关键在于它使用了深度学习大模型,通过前馈神经网络直接预测三维几何,避免了传统方法中耗时的迭代优化过程。同时结合了传统 SLAM 的增量式构建思路,保证了全局一致性。说白了,就是大模型负责“快”,传统思路负责“准”,两者结合,事半功倍!

我觉得可以考虑引入一些先验知识或者约束条件,比如利用已知的场景结构信息(如房间的平面、垂直线等)来减少累积误差。或者,借鉴一些 SLAM 系统中常用的回环检测技术,来纠正全局漂移。

我觉得没那么绝对。纯数据驱动的方法虽然效率高,但对数据集的依赖性很强,泛化能力可能有限。传统的几何方法虽然计算量大,但具有更好的鲁棒性和可解释性。未来更可能的是两者的融合,取长补短。

既然现在跳过了相机参数预测和优化,那未来的一个方向肯定是把相机姿态估计更精确地集成到 SLAM3R 中。可以考虑用一些专门做 Camera Pose Estimation 的网络,或者尝试把 Bundle Adjustment 以某种可微的方式融入到整个框架里。

从论文里看,我认为核心在于 I2P 和 L2W 两个网络的设计。I2P 网络利用 DUSt3R 的预训练权重,快速完成局部点云重建;L2W 网络则负责将局部点云无缝融合到全局坐标系中。这种模块化的设计是实现实时性和高质量的关键。

这要看应用场景。对于需要实时性、低功耗的场景(比如移动端的 AR 应用),纯数据驱动的方法可能更具优势。但对于精度要求极高的场景(比如工业测量、文物修复),传统的几何方法仍然不可替代。

个人理解,SLAM3R 巧妙地将大模型的并行计算优势与传统 SLAM 系统的增量式构建方法相结合。大模型负责快速的局部重建,增量式构建则保证了全局场景的完整性和准确性。这就像是既有“闪电战”的效率,又有“持久战”的稳健。