SplatSSC:解耦深度引导高斯溅射,高效单目语义场景补全

SplatSSC通过解耦深度引导的高斯泼溅,实现了高效的单目语义场景补全,有效解决了传统方法中存在的问题。

原文标题:AAAI 2026 Oral | SplatSSC:解耦深度引导的高斯泼溅,开启单目语义场景补全高效新范式

原文作者:机器之心

冷月清谈:

SplatSSC提出了一种新的单目3D语义场景补全框架,旨在解决传统方法中高斯基元初始化盲目和“漂浮物”伪影的问题。该框架通过深度引导策略和解耦聚合机制,显著提升了性能和效率。核心在于利用几何先验进行精准引导,通过组内多尺度融合模块(GMF)深度集成图像的多尺度语义特征与深度特征,仅需少量高斯基元即可精准覆盖场景结构的空间分布。同时,引入解耦高斯聚合器(DGA),通过解耦几何与语义预测,有效抑制离群点造成的“漂浮物”问题。实验结果表明,SplatSSC在Occ-ScanNet数据集上达到了SOTA性能,并在IoU和mIoU指标上均有显著提升,同时降低了推理延迟和显存占用。该研究表明,基元的“质量”比“数量”更重要,为构建持久性、交互式世界模型提供了新思路。

怜星夜思:

1、SplatSSC通过减少高斯基元的数量并提高质量来实现性能提升,那么在其他3D场景理解任务中,是否也可以借鉴这种“少即是多”的设计理念?
2、DGA通过解耦几何和语义预测来解决“漂浮物”问题,这种解耦思想在其他深度学习任务中是否也有应用前景?
3、文章提到SplatSSC未来将扩展到大规模户外动态场景以及长程具身感知任务,你认为在扩展过程中会遇到哪些挑战?

原文内容


1. 深度学习下的场景理解:从密集网格到对象中心表征


单目 3D 语义场景补全 (Semantic Scene Completion, SSC) 是具身智能与自动驾驶领域的一项核心技术,其目标是仅通过单幅图像预测出场景的密集几何结构与语义标签。


长期以来,该领域受困于传统的密集网格(Grid-based)表征。虽然近期涌现出的 “对象中心” 范式(如 GaussianFormer)利用 3D 高斯基元(Gaussian Primitives)显著提升了效率,但这一路径仍面临两大瓶颈:


1. 基元初始化的盲目性:现有的方法往往通过在 3D 空间内随机分布数万个高斯基元来覆盖场景。实验发现,这种随机初始化的有效利用率极低(仅约 3.9%),造成了巨大的计算冗余。

2. 异常基元引发的 “漂浮物” 伪影:在处理稀疏基元聚合时,现有的方法往往无法有效处理孤立的离群点,导致在空旷区域生成错误的语义碎块,即所谓的 "Floaters" 现象。


针对这些挑战,我们提出了SplatSSC。该框架通过创新的深度引导策略与解耦聚合机制,实现了性能与效率的跨越式提升。


图 1:SplatSSC 与主流框架的初始化策略对比。(a) 现有的 Transformer 框架通常依赖大规模随机分布的高斯基元,这不可避免地引入了空间冗余,导致模型容量的浪费。(b) 相比之下,SplatSSC 利用几何先验进行引导,仅需一组精简且目标明确的高斯基元,即可实现高效的空间覆盖。



  • 作者:Rui Qian, Haozhi Cao, Tianchen Deng, Shenhai Yuan, Lihua Xie

  • 名称:SplatSSC: Decoupled Depth-Guided Gaussian Splatting for Semantic Scene Completion

  • 机构:南洋理工大学 (NTU), 上海交通大学 (SJTU)

  • 开源地址: https://github.com/Made-Gpt/SplatSSC


2.核心技术:精准引导与鲁棒聚合


图 2:SplatSSC 架构总览。我们采用并行分支策略:可学习的图像编码器负责多尺度语义提取,而预训练的 Depth-Anything 模型则提供稳定的深度特征。通过组内多尺度融合(GMF)模块,这两类特征在经过采样后被映射到 3D 空间,完成高斯基元的几何初始化,并交由多级编码器进行精炼,最后通过 DGA 模块渲染为语义体素。


2.1 深度引导基元初始化:GMF 模块 


SplatSSC 的核心思想是摒弃随机初始化,转而利用几何先验进行精准引导。我们设计了组内多尺度融合模块(Group-wise Multi-scale Fusion, GMF):


  • 多模态特征融合:GMF 深度集成了图像的多尺度语义特征与 Depth-Anything-V2 提供的鲁棒深度特征。

  • 线性组交叉注意力(GCA):为了在移动端或具身平台上保持高效,我们将特征沿通道轴拆分为多个组,通过组内交叉注意力机制将传统注意力的计算复杂度从平方级降低至线性级。

  • 高质高效基元生成:基于生成的几何先验,我们仅需 1200 个高斯基元(约为前作的 7%),即可精准覆盖场景结构的空间分布。


图 3:GCA 层的技术细节。为了降低计算开销,我们设计的图片权重矩阵在不同的特征组和尺度间实现了参数共享。这一设计在显著减少显存消耗的同时,保证了注意力分数计算的高效性。


2.2 解耦高斯聚合器 (DGA):向 “漂浮物” 宣战 


SplatSSC 引入了解耦高斯聚合器(Decoupled Gaussian Aggregator, DGA),从根本上重新设计了高斯到体素(Gaussian-to-voxel)的喷溅过程。


  • 几何与语义的解耦预测:传统方法常将不透明度(Opacity)直接作为概率先验,导致离群点误导语义。DGA 建立了两条独立路径 —— 一条负责预测几何占据(Geometry Occupancy),另一条负责条件语义分布。

  • 门控抑制机制:在 DGA 中,基元的不透明度被显式定义为 "存在置信度"。当离群点出现在错误位置时,其低占据概率会直接作为门控信号,屏蔽错误的语义贡献。这种机制无需引入复杂的启发式规则,即可优雅地解决困扰高斯表征的 "漂浮物" 问题。


图 4:DGA 鲁棒性演示。传统的聚合方法(如 GF.agg 和 GF2.agg)在面对离群基元时,容易在空旷空间生成错误的 “漂浮物”。DGA 通过解耦占据概率与语义贡献,利用极低的占据概率直接抑制离群点的错误语义映射,从而确保了场景边界的纯净。


3. 实验验证:SOTA 性能与更好的能效比 


我们在室内场景补全的主流基准数据集 Occ-ScanNet 上验证了 SplatSSC 的性能。


图 5:在 Occ-ScanNet-mini 上的定性实验对比。与其他 baseline 相比,SplatSSC 在场景补全的完整度以及目标物体的召回率上具有明显优势。


3.1 主实验


SplatSSC 在 IoU 指标上达到了62.83%,mIoU 达到51.83%。


  • 大幅领先前作:相比此前的 SOTA 方法(如 RoboOcc),我们的模型在 IoU 上大幅提升了6.35%,mIoU 提升了4.16%。

  • 更强的细粒度感知:得益于精准的基元引导,模型在处理椅子腿、桌面等精细物体时表现出更强的召回能力和更清晰的边界。


表 1:Occ-ScanNet 数据集上的局部预测性能对比。实验结果显示,SplatSSC 在 IoU 与 mIoU 各项指标上均刷新了记录。表中加粗部分代表最优结果,下划线代表次优结果。


3.2 消融实验


高斯基元参数的消融分析:这组实验揭示了一个关键结论:基元堆砌并不等同于精度提升。


  • 寻找 "甜蜜点"(Sweet Spot):实验结果表明,仅使用1200 个高斯基元配合[0.01, 0.16]的尺度范围,即可达到48.87%的最高 mIoU。这比堆砌 19200 个基元的方法更轻量,精度却更高。

  • 效率的代差:通过优化基元分布,模型在单张 3090 上实现了约 115ms 的极低延迟,同时彻底规避了大尺度配置下的显存溢出(OOM)问题。


表 2:高斯基元参数消融实验。显存占用与耗时均在单张 RTX 3090 GPU 上测得。


模块贡献与架构拆解:这组实验量化了深度分支(GMF)与解耦聚合器(DGA)的协同效应,证明它们是解决行业痛点的 "组合拳":


  • 解决 "浮点伪影"(Floaters):在稀疏设定下,传统的加性聚合(GF.agg)几乎无法工作。对比数据展示了DGA的绝对优势 —— 通过解耦几何与语义预测,它在保持结果 "干净" 的同时,将 mIoU 从崩溃边缘提升至48.01%的顶尖水平。

  • 高质量初始化的基石:GMF模块不仅提供深度图,更生成结构化几何先验,这是后续高斯提升(Gaussian Lifting)成功的关键。若缺少 GMF, 即便聚合算法再强,几何 IoU 也会出现剧烈下滑。


表 3:SplatSSC 核心组件消融实验。


3.3 效率突破:少即是多


SplatSSC 展示了稀疏表征的巨大威力:


  • 推理延迟缩减:在保持高精度的同时,推理延迟降低了约9.3%(仅为 115.63 ms)。

  • 显存占用降低:显存消耗减少了约9.6%。

  • 参数规模稳定:在模型轻量化设计下,参数量仅增加 0.19%,几乎可以忽略不计。


图 6:效率指标对比。实验结果表明,通过引入几何引导的稀疏表征,SplatSSC 仅付出极小的参数成本,即可显著降低推理延迟与显存占用。


4. 总结与展望:迈向具身智能的 persistent world model


SplatSSC 的成功证明了:在 3D 场景表征中,基元的 “质量” 远比 “数量” 更重要。通过几何引导的精准初始化与解耦聚合,我们可以在更低的计算资源下实现更高质量的场景重构。


目前 SplatSSC 在单帧感知上表现优异,未来我们将致力于将其扩展到大规模户外动态场景以及长程具身感知任务中。我们相信,这种基于高斯基元的高效表征将成为构建持久性、交互式世界模型的关键一步。


图片



© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

大规模户外动态场景,光是数据量就是一个挑战。数据采集、存储、标注都需要巨大的成本。另外,户外环境的复杂性也远高于室内环境,光照变化、天气影响、遮挡等问题都会对模型的鲁棒性提出更高的要求。而且,动态场景意味着物体在不断移动,如何有效地跟踪和预测物体的运动轨迹也是一个难题。

这个问题提得好!SplatSSC的成功确实启发了我们,很多时候并非越多越好。在其他3D场景理解任务中,我认为完全可以借鉴这种“少即是多”的理念。比如在点云处理中,与其使用大量的原始点云数据,不如先通过某种方式提取出关键点或特征点,然后基于这些关键点进行分析和推理,这样既可以减少计算量,又可以提高模型的鲁棒性。

除了技术上的挑战,伦理和安全问题也不容忽视。尤其是在自动驾驶等应用场景中,如果模型出现错误,可能会造成严重的后果。因此,在扩展到大规模户外动态场景时,需要充分考虑模型的安全性和可靠性,并采取相应的措施来降低风险。

长程具身感知任务,我认为最大的挑战在于如何建立一个consistent的环境表示。SplatSSC目前主要关注单帧的场景补全,但具身智能需要长时间地与环境交互,并根据历史信息来规划未来的行动。如何将不同时刻的观测结果融合起来,建立一个连贯、实时的环境模型,是一个非常关键的问题。

从工程角度来看,“少即是多”也很有意义。资源总是有限的,尤其是在移动端或嵌入式设备上,计算能力和存储空间都非常宝贵。SplatSSC 的低延迟和低显存占用使其更容易部署到这些平台上。所以,即使在精度上略有牺牲,但如果能够带来显著的效率提升,也是值得考虑的。当然,具体情况还需要具体分析,需要在精度和效率之间找到一个平衡点。

必须有!解耦的思想在深度学习中非常常见,本质上就是将复杂的问题分解为更小的、更易于处理的子问题。例如,在图像生成领域,GAN 可以看作是生成器和判别器的解耦;在目标检测领域,可以将定位和分类解耦。DGA 的解耦方式也具有一定的通用性,可以将其推广到其他需要同时预测几何和语义信息的任务中,例如三维重建、场景分割等。

我想到的是因果推断。很多时候,我们希望模型能够学习到数据背后的因果关系,而不是仅仅记住相关性。解耦可以帮助模型更好地理解因果关系。比如,我们可以将一个变量解耦为原因和结果两部分,然后分别建模。这样,模型就可以更好地理解原因如何影响结果,从而做出更准确的预测。

举个有趣的例子,在自然语言处理中,情感分析任务也可以借鉴这种解耦思想。我们可以将文本的情感和语义解耦,分别进行建模。例如,一句话可能语义上是正面的,但情感上却是负面的(反讽)。如果将情感和语义混在一起,模型可能就无法正确理解这句话的含义。

我同意楼上的观点。我觉得“少即是多”的关键在于如何找到真正重要的信息。SplatSSC 通过深度引导来初始化高斯基元,这本质上就是一种提取关键信息的方式。在其他任务中,我们可以尝试使用不同的先验知识或注意力机制来筛选出对最终结果影响最大的部分,然后集中资源处理这些关键信息。这有点像信息论里的概念,去除冗余,保留有效信息。