剑桥博士论文:基于图像的三维重建——神经隐式表示与可微渲染技术突破

剑桥博士论文提出神经隐式表示与可微渲染结合,显著提升基于图像的三维重建能力,尤其在处理半透明、动态遮挡及高频外观方面。

原文标题:【剑桥博士论文】基于图像的三维重建:神经隐式表示的可微渲染方法

原文作者:数据派THU

冷月清谈:

这篇剑桥博士论文深入探讨了神经隐式表示在基于RGB图像的三维重建中的应用,并针对半透明表面、动态遮挡和高频外观等实际挑战提出了创新方法。论文的核心在于利用可微渲染和神经隐式表示的优势,从真实图像中同时优化几何结构和外观,从而实现更精确的三维重建和更高质量的再渲染。论文重点介绍了AlphaSurf(一种新型隐式表示方法,用于处理复杂或半透明物体的表面重建),D²NeRF(一种从静态场景中解耦动态因素的重建方法),以及一种用于简单几何但高频外观场景建模的轻量级方法。这些改进旨在推动基于图像的三维重建技术在现实应用中更加鲁棒、可靠和易于部署。

怜星夜思:

1、神经隐式表示在三维重建中相比传统方法有哪些优势?除了文章中提到的半透明表面、动态遮挡和高频外观,它在其他方面还有什么潜力?
2、AlphaSurf方法中,将射线-表面交点的求解和不透明度建模解耦处理,这样做的好处是什么?在哪些实际应用场景中,这种方法会特别有用?
3、D²NeRF方法如何实现动态因素与静态场景的解耦?这种解耦对于重建真实世界的复杂场景有什么意义?

原文内容

来源:专知
本文约1000字,建议阅读5分钟
本论文全面综述了神经隐式表示及其在基于RGB图像的三维重建中的应用,并通过提出一系列方法,在应对实际挑战(如半透明表面、动态遮挡、外观高频等)方面取得了显著进展。


在多种图形学与元宇宙应用中,对三维物体建模是关键步骤,同时也是迈向三维机器推理的重要基础。若能仅通过RGB图像实现高质量的三维重建,将极大扩展其实际应用场景。三维物体的表示通常包含两个核心方面:几何结构(描述物体质量的分布位置)与外观特性(决定渲染图像中像素颜色)。尽管在已知几何的前提下学习外观相对简单,但仅从RGB图像同时恢复准确几何与外观长期以来都是一项极具挑战性的任务。


近年来,**可微渲染(Differentiable Rendering)神经隐式表示(Neural Implicit Representations)**的进步极大推动了几何与外观从RGB图像中联合重建的能力。借助这些表示方式所具备的连续性、可微性与灵活性,研究者可以从真实图像中同时优化几何与外观,从而获得更精确的重建结果与更高质量的再渲染效果。


在众多神经隐式表示方法中,神经辐射场(Neural Radiance Field, NeRF)因其能够从稠密的RGB图像集中联合恢复体积几何与非朗伯外观而广受关注。与此同时,也涌现出诸多用于特定任务的表示变体,如:用于平滑曲面建模稀疏视角重建动态场景重建等。然而,目前的方法往往对场景的捕获与重建存在严格假设,限制了其实际应用范围。例如:常假设场景为完全不透明、无动态遮挡物或半透明效应,或在面对高频外观时未对渲染效率进行优化。


本论文提出三项关键改进,旨在推动基于图像的三维重建朝向更鲁棒、可靠、可部署的现实应用迈进。这些改进覆盖了从表示方法网络架构优化策略的全链条。

  1. AlphaSurf:我们提出了一种新型隐式表示方法,结合了解耦的几何结构与表面不透明度,并基于网格架构以支持复杂或半透明物体的高精度表面重建。与传统仅建模几何和外观的方式不同,AlphaSurf将射线-表面交点的求解与交点的不透明度建模分别处理,同时保持两者的可微性,从而支持基于光度损失的解耦优化。其交点通过三次多项式的解析解获得,无需蒙特卡洛采样,因此具有完备的可微性;另外,配合网格结构的不透明度与辐射场建模,实现了纯RGB图像驱动的重建。

  2. D²NeRF:针对静态场景中常见的动态噪声与遮挡物问题(如街景扫描中出现的人、车、植物等),我们提出一种可将动态因素从静态场景中解耦的重建方法。该方法可从普通手机视频中恢复静态三维场景,并同时建模三维与四维对象。通过引入自由度约束实现动态解耦,无需语义先验,因此对诸如流动液体或移动阴影等非典型动态噪声也具备良好适应性。

  3. 轻量高频建模:为提升重建效率,我们提出一种用于简单几何但高频外观的场景建模方法,尤其适用于神经人像中的高频衣物纹理。该方法通过稀疏锚点构建3D到2D纹理空间的对应关系,在保证表达力的同时大幅简化表示形式,配合神经形变建模,实现了精细外观的轻量级建模。


综上所述,本论文全面综述了神经隐式表示及其在基于RGB图像的三维重建中的应用,并通过提出一系列方法,在应对实际挑战(如半透明表面、动态遮挡、外观高频等)方面取得了显著进展。我们表明,只有在表示、架构与优化策略上进行有针对性的设计,才能有效应对图像驱动三维重建中高度不适定的问题。通过合理方法设计,我们可以仅依赖有位姿信息的多视图图像或单目视频,实现对透明体表面、动态遮挡物剔除及高频外观的高效建模与重建。


https://www.repository.cam.ac.uk/items/1eb37661-8efa-41a0-a36e-3b20511d6650




关于我们

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。




新浪微博:@数据派THU

微信视频号:数据派THU

今日头条:数据派THU


优势很明显啊,传统方法搞不定复杂拓扑结构和细节,神经隐式表示就能通过神经网络灵活表达;潜力也很大,比如可以做三维形状补全,甚至生成全新的三维模型。不过计算量还是个问题,优化起来太费劲了!

这个解耦有点像把任务分工了,一个专门负责找交点,一个专门负责给交点上色。好处就是各司其职,互不干扰。我觉得搞游戏开发的肯定喜欢,有了这个就能做出更逼真的水面、玻璃、烟雾效果了。以后游戏里的老婆都更漂亮了!

个人理解,解耦提高了模型的表达能力和灵活性。传统的隐式表示方法通常将几何和外观耦合在一起,难以处理复杂的光学现象。AlphaSurf的解耦策略允许模型更精细地控制表面的不透明度,从而更好地模拟半透明物体的光线传播。在实际应用中,博物馆文物数字化就很需要这种技术,可以更真实地还原文物的外观。

解耦的核心在于解耦优化。好处是避免了两者互相影响,使得优化过程更加稳定和可控。像医疗影像(血管重建)或者工业无损检测(透明材质零件)这种场景就很需要,能更准确地建模半透明物体的结构。

关键在于引入自由度约束,把动态的东西限制住,不让它影响静态的部分。意义大了去了,可以从不干净的数据里提取干净的三维模型(例如街景)。以后我们自己拍的视频,也能轻松重建出高质量的三维场景了。

哈哈,这个有点像PS里的图层概念,把动态的物体单独放在一个图层里,然后就可以单独编辑了。这样重建出来的场景就更干净,更真实。以后重建个演唱会的场景,就算观众再怎么晃动,也能把舞台完美还原出来。

我觉得最大的优势是它能学习到数据中的隐含信息,而传统方法只能依赖人工设计的特征。至于潜力,我觉着元宇宙里肯定能大放异彩,想象一下,你上传一张自拍,就能自动生成你的3D模型,然后就能在虚拟世界里自由活动了,想想就很酷!

D²NeRF的解耦是通过对场景中的动态和静态物体进行不同的建模来实现的。它假设静态场景在时间上是稳定的,而动态物体则会随时间变化。通过引入时间维度,D²NeRF可以学习到动态物体的运动模式,并将其从静态场景中分离出来。这种解耦对于重建真实世界的复杂场景至关重要,因为它允许我们处理现实世界中不可避免的动态噪声和遮挡。意义在于,我们再也不用担心拍摄的时候有人走来走去了,重建出来的模型依然是干净的。

谢邀,我从学术角度说说。神经隐式表示的优势在于其连续性和可微性,这使得我们可以利用梯度下降等方法直接优化三维模型的几何和外观。除了论文中提到的点,我认为它在处理大规模场景和非均匀材质方面也具有潜力。然而,如何提高神经隐式表示的泛化能力和解释性,仍然是未来研究的重要方向。另外,针对特定领域的特殊先验是否能融入到网络结构中,以便于提高精度,值得深入研究。