LaGa：解决3D语言高斯溅射中的视角依赖语义，实现更全面的场景理解

DatapiTHU · 2025 年6 月 6 日 08:55

提出LaGa模型，解决3D语言高斯溅射中视角依赖语义问题。通过分解3D场景为物体并建立跨视角语义关联，显著提升场景理解能力，mIoU提升+18.7%。

原文标题：【ICML2025】解决3D语言高斯溅射中的视角依赖语义

原文作者：数据派THU

原文链接： http://mp.weixin.qq.com/s?__biz=MzI1MjQ2OTQ3Ng==&mid=2247657349&idx=3&sn=3a23b2c1ec7c9abb7e45ae011404be4a&

冷月清谈：

3D高斯溅射（3D-GS）在3D场景重建方面表现出色，但应用于语言驱动的场景理解时，忽略了视角依赖语义问题，即同一3D物体在不同视角下可能呈现不同的语义特征。为解决此问题，研究者提出了LaGa（语言高斯），它通过将3D场景分解为物体，建立跨视角的语义关联，并通过对语义描述符进行聚类和多视角语义重新加权，构建视角聚合的语义表示。实验结果表明，LaGa能有效捕捉视角依赖语义中的关键信息，在LERF-OVS数据集上相较于之前的SOTA，mIoU显著提升了+18.7%。

怜星夜思：

1、LaGa模型通过解决视角依赖语义显著提升了3D场景理解能力。那么，在实际应用中，哪些场景会特别受益于这种视角的鲁棒性？
2、LaGa模型中，如何理解“通过对语义描述符进行聚类，并根据多视角语义重新加权，构建视角聚合的语义表示”？这个重加权是如何执行的，背后有什么理论依据？
3、文章提到LaGa在LERF-OVS数据集上mIoU提升显著。除了mIoU，还有哪些指标可以用来更全面地评估LaGa模型在3D场景理解方面的性能？

原文内容

来源：专知

        本文约1000字，建议阅读5分钟

        我们提出了LaGa（语言高斯），它通过将3D场景分解为物体，建立跨视角的语义关联。

近年来，3D高斯溅射（3D-GS）在从RGB图像中进行高质量的3D场景重建方面取得了显著进展。许多研究扩展了这一范式，应用于语言驱动的开放词汇场景理解。然而，大多数研究仅仅将2D语义特征投影到3D高斯分布上，忽视了2D与3D理解之间的根本差距：3D物体在不同视角下可能呈现出不同的语义特征——这一现象我们称之为视角依赖语义。为了应对这一挑战，我们提出了LaGa（语言高斯），它通过将3D场景分解为物体，建立跨视角的语义关联。接着，它通过对语义描述符进行聚类，并根据多视角语义重新加权，构建视角聚合的语义表示。大量实验表明，LaGa能够有效捕捉视角依赖语义中的关键信息，从而实现对3D场景的更全面理解。值得注意的是，在相同设置下，LaGa在LERF-OVS数据集上相较于之前的SOTA，mIoU显著提升了+18.7%。我们的代码已开放，地址为：https://github.com/https://github.com/SJTU-DeepVisionLab/LaGa。

关于我们

数据派THU作为数据科学类公众号，背靠清华大学大数据研究中心，分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识，努力建设数据人才聚集平台、打造中国大数据最强集团军。

新浪微博：@数据派THU

微信视频号：数据派THU

今日头条：数据派THU

Crux18l · 2025 年6 月 8 日 07:52

个人认为，可以引入一些更细粒度的语义分割指标，比如针对特定类别的mIoU。这样可以更清晰地了解模型在哪些类别上表现优秀，哪些还需要改进。此外，还可以人工评估模型生成的3D场景的真实感和可信度，毕竟最终用户体验也很重要。

Mystic98x · 2025 年6 月 8 日 13:41

从实际应用的角度，可以考虑模型在真实场景中的运行速度（FPS）和内存占用情况。毕竟，速度快、占用资源少的模型才更实用。另外，可以评估模型对噪声数据的鲁棒性，看看它在光照变化、遮挡等情况下的表现如何。

Phantom95l · 2025 年6 月 8 日 22:57

我的理解是，先对各个视角看到的同一物体的特征进行分组（聚类），然后根据不同视角的可信度（比如清晰度、遮挡程度等）来调整这些特征的重要性。这就像是，如果一个朋友说话不太靠谱，那他说的话的可信度就要打个折扣。

Spark21u · 2025 年6 月 9 日 05:46

除了mIoU，我觉得还可以关注物体的识别精度（Precision）和召回率（Recall）。毕竟，准确地识别出场景中的物体也很重要。另外，可以看看模型对小物体的识别效果，这往往是难点。

Phantom95l · 2025 年6 月 10 日 08:41

我觉得像自动驾驶这种需要从各种角度识别物体的场景肯定受益。比如，一个交通标志，即使从侧面或者部分遮挡的角度看，也能准确识别出来。

MidnightOwl519 · 2025 年6 月 10 日 20:43

那必须是机器人导航啊！想想看，服务型机器人要在各种复杂的环境中穿梭，总不能要求它永远正对着目标吧？有了LaGa，它就能更准确地理解周围环境，避免撞到东西。

Ion31q · 2025 年6 月 11 日 20:23

从学术角度来说，我认为在三维重建和虚拟现实领域，LaGa模型的视角鲁棒性也至关重要。它可以提高三维模型的重建质量，并增强虚拟现实体验的真实感。视角依赖语义的解决，实际上提升了机器对三维世界理解的泛化能力。

GoldenEagle888 · 2025 年6 月 12 日 14:11

我感觉这个重加权有点像投票机制。每个视角都对物体的语义进行投票，但不同视角的投票权重不一样。权重高的视角，它所代表的语义信息就更容易被采纳。至于理论依据，可以参考一下集成学习中的boosting算法，都是通过组合多个弱分类器来得到一个强分类器。

Summit72v · 2025 年6 月 13 日 10:27

从技术角度讲，这个重加权的过程很可能涉及到注意力机制。让模型更加关注那些来自更可靠视角的语义信息。理论依据嘛，我觉得应该是贝叶斯推断的思想，结合先验知识（视角可靠性）来更新对物体语义的后验概率。