RobustSplat:3DGS动态场景伪影难题的创新解决方案

RobustSplat通过延迟高斯致密化和尺度级联掩码,显著提升3DGS在动态场景的重建质量,减少伪影。

原文标题:ICCV 2025 | RobustSplat: 解耦致密化与动态的抗瞬态3DGS三维重建

原文作者:机器之心

冷月清谈:

3D Gaussian Splatting (3DGS) 技术虽在实时逼真渲染中表现出色,但在处理含有动态物体的场景时,其精度往往不足并易产生伪影。文章分析指出,传统的高斯致密化(densification)过程在增强场景细节的同时,也常常导致模型过早拟合动态区域,从而引入伪影和场景失真。

为解决这一挑战,中山大学等团队提出了全新的鲁棒性解决方案 RobustSplat。其核心在于两大创新策略:

首先是首创延迟高斯生长策略。该策略旨在推迟高斯致密化操作,让模型优先专注于优化静态场景结构。通过在初期减少对动态物体的过拟合,它为后续的掩码学习提供了更加稳定和准确的基础。

其次是设计了尺度级联掩码引导方法。该方法首先利用DINOv2特征在低分辨率下进行初始的瞬态掩码估计,利用其卓越的语义一致性和抗噪声特性,确保初始判定的可靠性。随后,系统逐步过渡到高分辨率监督,以实现对动态区域的更精确预测,从而有效规避静态区域被误判的风险。

实验结果表明,RobustSplat在NeRF On-the-go和RobustNeRF等数据集上表现出显著优势,各项指标全面超越了现有的3DGS基线方法,能够有效处理复杂动态场景并保留丰富的细节。

怜星夜思:

1、RobustSplat选择DINOv2特征作为其瞬态掩码估计的输入,并指出DINOv2在语义一致性、抗噪性和计算效率之间取得了良好平衡。那么,除了DINOv2,在未来的研究中,还有哪些新兴的或未经探索的特征表示方法,可能会更好地服务于这类动态场景的识别和建模任务呢?它们的潜在优势和挑战又会是什么?
2、RobustSplat通过“延迟高斯生长”和“尺度级联掩码引导”来处理动态场景,有效地提升了3DGS的重建质量。然而,这种改进是否会大幅增加模型的训练时间或推理时间?对于追求实时性应用的场景(例如AR/VR),RobustSplat的实际部署成本和可行性如何?
3、RobustSplat致力于消除动态物体在3DGS重建中引起的伪影。这自然引出了一个更深层次的伦理和真实性问题:在精确重建中“抹去”或“隔离”动态物体的信息,是否会在某些应用场景中引发关于数据真实性或“数字造假”的争议?例如,在证据记录、历史档案重建等对客观性要求极高的领域,这种处理方式是利大于弊,还是可能带来新的挑战?

原文内容


3DGS (3D Gaussian Splatting) 技术凭借在新视角合成与 3D 重建中实现的实时照片级真实感渲染,已成为研究热点。然而,现有方法在建模含动态物体的场景时精度不足,常导致渲染图像出现伪影。


在最近的一项研究中,来自中山大学、深圳市未来智联网络研究院、港中深的研究者提出鲁棒性解决方案 RobustSplat,其核心设计包含两点:一是首创延迟高斯生长策略,在允许高斯分裂 / 克隆前优先优化静态场景结构,从而减少优化初期对动态物体的过拟合;二是设计尺度级联掩码引导方法,先利用低分辨率特征相似度监督进行可靠的初始动态掩码估计(借助其更强的语义一致性与抗噪声特性),再逐步过渡到高分辨率监督,以实现更精准的掩码预测。



  • 论文标题:RobustSplat: Decoupling Densification and Dynamics for Transient-Free 3DGS

  • 论文链接 https://arxiv.org/abs/2506.02751

  • 论文主页 https://fcyycf.github.io/RobustSplat

  • 代码链接 https://github.com/fcyycf/RobustSplat


研究动机


我们通过分析揭示了高斯致密化 (densification) 在 3D Gaussian Splatting 中的双重作用机制。具体来说,致密化过程在增强场景细节表达方面具有显著优势,但同时也会促使模型过早拟合动态区域,导致伪影和场景失真。这一发现表明,传统的致密化策略在存在有动态物体的场景建模中存在依赖性风险,即其所带来的细节提升可能以牺牲静态区域的重建质量和引入伪影为代价。


图片


因此,本文的研究动机源于对该分析的深入理解,意在通过调节致密化过程的引入时机,有效平衡场景的静态结构表达与动态干扰的抑制。致密化既是优化细节的关键因素,也是动态干扰的放大器,为此提出「延迟高斯生长」策略,通过延后致密化过程实现静态部分的准确重建,同时结合多尺度掩码引导,系统抑制动态伪影,推动在复杂场景中实现鲁棒、细节丰富的 3D 场景重建。



方法


瞬态掩码估计


网络架构:采用含两层线性层的 MLP (Mask MLP),以图像特征为输入,通过 Sigmoid 函数输出逐像素的瞬态掩码 Mt(取值范围 [0, 1],0 表示瞬态区域,1 表示静态区域)。



特征选择:选用 DINOv2 特征作为输入,原因是其在语义一致性、抗噪性和计算效率间取得很好的平衡。对比之下,Stable Diffusion 特征语义信息更强但计算成本高,SAM 特征边界精度高却易漏检瞬态物体的阴影区域,而 DINOv2 特征能稳定支撑掩码预测。


监督设计:掩码 MLP 的优化结合了图像残差损失和特征余弦相似度损失:使用基于渲染图像与真实图像的光度差异,捕捉像素级动态干扰,作为基础监督信号。在此基础上,将渲染图像与真实图像的 DINOv2 特征余弦相似度映射至 [0, 1] 范围作为特征监督,以增强语义级动态区域识别。



延迟高斯生增长策略


延迟高斯生长是 RobustSplat 针对 3DGS 优化中瞬态物体过拟合问题设计的核心策略,其核心思想是推迟高斯致密化过程(分裂 / 克隆操作),优先完成静态场景结构的优化,为掩码学习提供更稳定的基础。


掩码正则化:掩码正则化是针对早期优化阶段掩码估计不准确问题设计的关键策略,核心目标是减少静态区域被误分类为瞬态区域的风险,确保 3DGS 优先优化静态场景结构。



掩码学习的总损失



尺度级联掩码引导


先利用低分辨率特征相似性监督进行初始瞬态掩码估计,借助其强语义一致性和抗噪性;再过渡到高分辨率监督,实现更精确的掩码预测,降低静态区域误分类。


实验


下图分别展示了在 NeRF On-the-go 和 RobustNeRF 数据集上的实验结果。与 3DGS、SpotLessSplats、WildGaussians 等基线方法相比,RobustSplat 在 PSNR、SSIM、LPIPS 等指标上全面领先。



总结


通过实验分析发现,高斯致密化过程虽然提升了场景细节的捕捉能力,但也会生成额外的高斯来建模瞬态干扰,从而无意中导致了渲染伪影的产生。


RobustSplat 通过延迟高斯生长策略和尺度级联掩码引导方法,优化 3DGS 以减少瞬态物体导致的渲染伪影。


实验表明该方法在 NeRF On-the-go 和 RobustNeRF 数据集上,相比现有基线方法在各项指标上全面领先,能处理含多样瞬态物体的复杂场景并保留细节。



© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

哇塞,这个问题问到点子上了!这真是一个“技术越牛,责任越大”的典型案例啊!

RobustSplat的出发点肯定是为了让3DGS更“干净”、更“准确”,毕竟那些伪影看着是真难受。但如果用在历史记录或者证据链这种地方,那就得非常小心了。你想啊,一个犯罪现场的3D重建,如果把嫌疑人匆匆跑过留下的模糊身影、或者某个关键物体的瞬间移动痕迹给“优化”掉了,那岂不是直接影响判案?那可就不是“优化”而是“毁灭证据”了!

所以我觉得利弊得看用在哪里。如果只是做个虚拟旅游景点,那当然利大于弊,景点更美了;但要是涉及“还原真相”的场合,那弊病就太大了!感觉未来可能需要一套行业标准,明确哪些能处理、哪些不能动,处理到什么程度才算合理。毕竟,科技是把双刃剑嘛!

这个问题就像拍照美颜一样,美颜了是好看,但真要拿去做身份证或者驾照,那可就不行了!

RobustSplat的思路是在提高重建质量,解决掉动态物体的“烦恼”。但是,如果这个“烦恼”本身就是信息,那把它去掉了,就等于掐断了线索。

我觉得,在那些对客观性要求特别高的地方,比如文物数字化存档,你得让它保留当时的“原汁原味”,哪怕有点瑕疵。动态物体可能是当时的参观者、当时的自然现象,这些都是历史的一部分。如果都给“抹平”了,那不就成了“理想国”的重建,而不是“真实历史”的再现了吗?

所以呀,我觉得这种技术得“分场合服用”,不能一概而论。在对美观度、渲染效果要求高的娱乐文创领域,它就是神器;但到了讲究“真凭实据”的领域,可能就需要更透明、更可控的处理方式,甚至保留原始数据对比的选项。

问得好!这个DINOv2听起来确实挺厉害的,但AI发展这么快,总有更牛的在路上。

我觉得以后可能会出现那种“超能力”特征,比如:

1. “材质透视”特征: 不仅看懂你是什么东西,还能感知你是不是会动,会不会反光,甚至预测你的运动轨迹。优势是识别更精准,挑战是数据训练量可能爆炸,需要物理引擎级别的模拟环境。
2. “时间胶囊”特征: 这种特征能一次性捕捉一段时间内的信息,而不是单帧,就像电影胶片一样。它能自动剔除短暂出现的“幽灵”,只保留稳定的信息。优势是对瞬态物体免疫力极高,挑战是计算量和存储量会飙升。

听起来是不是很科幻?但谁知道呢,科技进步的速度超乎想象!

关于“RobustSplat通过“延迟高斯生长”和“尺度级联掩码引导”来处理动态场景,有效地提升了3DGS的重建质量。然而,这种改进是否会大幅增加模型的训练时间或推理时间?对于追求实时性应用的场景(例如AR/VR),RobustSplat的实际部署成本和可行性如何?”

从技术实现上看,RobustSplat引入的额外开销是存在的。延迟高斯生长策略本身并不会显著增加训练时间,因为它主要是调整了致密化的时机和策略。然而,尺度级联掩码引导方法则引入了一个额外的MLP(Mask MLP)和DINOv2特征提取的计算成本。DINOv2特征的提取是比较耗时的,即使它在语义和效率之间找到了平衡,但每次迭代都需要进行特征提取和掩码估计,这无疑会增加训练时间。至于推理时间,一旦模型训练完成,动态区域的伪影已经得到有效抑制,生成新的视角时,主要开销依然是高斯渲染本身,Mask MLP的推理可能可以省略或在非常低频次下运行。

对于AR/VR等实时应用场景, RobustSplat的部署可行性需要权衡。如果核心瓶颈是训练时长,那么在离线生成高质量3D模型后,在线实时渲染环节可能影响不大。但如果需要随场景变化而动态更新模型,DINOv2特征提取和Mask MLP的在线推理延迟就成了关键。开发者可能需要进一步优化Mask MLP的架构、压缩模型、甚至考虑边缘计算或混合渲染方案来达到实时性要求。

我觉得这就像买新出的旗舰手机一样,功能是更强了,拍照更美了,但电池也更不耐用了!

RobustSplat的这些骚操作(哦不对,是巧妙策略),肯定是要付出计算代价的。你看它又是DINOv2特征,又是多尺度掩码,这些都是要烧显卡算力的。训练时间嘛,肯定比纯3DGS要长,毕竟多了好几个“脑回路”。

至于AR/VR的实时性,目前来看可能有点悬。除非你用的是NASA同款的超级电脑,或者有专门的AI芯片做加速。个人感觉,这技术更适合做离线的高质量重建,比如电影特效、文物数字化啥的。未来嘛,等显卡再进化几代,算法再优化优化,也许真能跑到手机上呢?等等党永远不亏!

哈!看文章就觉得这 RobustSplat 是个“卷王”!为了把伪影干掉,它可是下了血本的。延迟生长和那个级联掩码,听起来就像给模型加了好多层“思考”步骤。

训练时间肯定是要增加的,因为它多了特征提取、掩码学习这些步骤,而且DINOv2特征本身也不是省油的灯。好比你本来跑步就行,现在非得让你边跑边蒙眼睛(伪影),然后还要精确避开障碍物,这能不慢吗?

至于AR/VR,嗯……目前可能也就是实验室里的“高性能玩具”。想要实时?估计得指望量子计算机了(开个玩笑)。不过,技术迭代这么快,说不定过两年,手机都能轻松跑这玩意儿了。等个好兆头!

关于“RobustSplat致力于消除动态物体在3DGS重建中引起的伪影。这自然引出了一个更深层次的伦理和真实性问题:在精确重建中“抹去”或“隔离”动态物体的信息,是否会在某些应用场景中引发关于数据真实性或“数字造假”的争议?例如,在证据记录、历史档案重建等对客观性要求极高的领域,这种处理方式是利大于弊,还是可能带来新的挑战?”

这是一个非常深刻且关键的伦理问题。从技术层面看,RobustSplat的目标是提高静态背景的重建质量,消除动态物体引入的“噪声”,使静态场景更清晰、更准确地被表达。在大多数应用场景,例如游戏开发、视觉特效、虚拟旅游,甚至一些工业设计中,这种“净化”是绝对的优势,因为它提供了更理想的、纯粹的场景模型。

然而,在您提到的对客观性要求极高的领域,如证据记录(犯罪现场复原)、历史档案重建或文化遗产数字化方面,情况就复杂了。在这些场景中,即使是短暂出现的动态物体(如人群、车辆、风吹动的树叶)也可能是“真实”场景不可或缺的一部分,甚至可能包含关键信息。完全“抹去”或仅重建静态背景可能会导致信息的丢失或“非完整性”,从而引发对“真实性”和“客观性”的质疑,甚至可能被视为一种“数字造假”。

因此,在这些特殊应用中,可能需要更精细的策略:
1. 分层重建: 区分静态层和动态层,允许用户查看纯静态背景,也能叠加原始动态信息。
2. 透明性声明: 明确告知用户哪些部分是经过处理的(比如动态物体被移除),并说明处理的目的和方式。
3. 多视角和时间维度记录: 结合更多原始数据,确保专家可以进行多维度的交叉验证。

总的来说,技术本身是中立的,关键在于如何负责任地设计和应用。在追求“更美观”、“更完美”的重建效果时,我们必须特别警惕在特定场景下可能丢失的“真实”,确保其应用符合社会伦理和法律规范,特别是数据完整性的要求。

要我说,这DINOv2虽然好用,但它毕竟还是从2D图像里提特征。咱们搞3D重建的,最理想的当然是直接在3D空间里学习到“动态特征”啊!

未来是不是能有一个类似“3D语义特征提取器”,它直接在点云、体素或者高斯本身上,学习哪些高斯是“活的”,哪些是“死的”。这样就少了2D到3D的转换损失,精度说不定能更高。优点就是直观、精确,挑战嘛……训练一个能在3D空间里做这种高层次理解的模型,算力怕是要烧穿地球了!但想想就刺激!

关于“RobustSplat选择DINOv2特征作为其瞬态掩码估计的输入,并指出DINOv2在语义一致性、抗噪性和计算效率之间取得了良好平衡。那么,除了DINOv2,在未来的研究中,还有哪些新兴的或未经探索的特征表示方法,可能会更好地服务于这类动态场景的识别和建模任务呢?它们的潜在优势和挑战又会是什么?”

从学术角度看,未来的特征表示可以从多模态融合、时空一致性学习和任务特定预训练几个方向深入。例如,结合视觉和深度信息(RGBD),甚至引入事件相机的数据,能够提供更丰富的场景理解。在时空一致性方面,自监督学习的视频表示,如通过对比学习捕获物体在时间轴上的变化,有望提升动态内容的识别精度。挑战在于如何有效融合异构数据,以及如何设计能在低计算成本下提供高鲁棒性的复杂模型架构。