AutoOcc:无需人工标注的开放式3D语义占据自动化新方案

北大AutoOcc:实现自动驾驶零人工3D语义自动标注,泛化力超强!

原文标题:ICCV 2025 Highlight | 3D真值生成新范式,开放驾驶场景的语义Occupancy自动化标注!

原文作者:机器之心

冷月清谈:

北大团队最新成果AutoOcc,提出一种自动驾驶开放场景下的3D语义占据栅格标注新框架。该框架无需人工标注,利用视觉-语言模型(VLM)实现开放式语义感知,并动态扩展语义列表。AutoOcc通过VL-GS(视觉-语言引导的三维高斯表示)解决多视角语义冲突和几何扭曲,并引入自估计光流处理动态物体,确保时空一致性。实验表明,AutoOcc在标注性能、计算效率和零样本泛化能力上均超越现有方法,尤其在极端天气下表现出色,为自动驾驶提供高质量、低成本的真值标注方案。

怜星夜思:

1、文章里提到视觉-语言模型(VLM)在处理3D场景时会有语义歧义和多视图一致性的问题。大家觉得除了AutoOcc这种方法,未来AI在理解和生成3D世界,特别是在这种高精度标注场景下,还有哪些方向是值得探索的呢?或者说,AIGC(AI Generated Content)在3D世界建模里最大的瓶颈是什么?
2、AutoOcc实现了无人工标注,这听起来真是太棒了!那么问题来了,这种全自动的3D真值标注技术,未来真的能彻底取代人工标注吗?或者说,在自动驾驶的商业落地中,人工标注会以什么形式继续存在?它在质检、纠错方面还有没有不可替代性?
3、AutoOcc这种高精度、零样本泛化的3D语义标注技术,对自动驾驶的安全性提升肯定有巨大帮助。但除了技术本身,大家觉得在自动驾驶真正大规模普及的过程中,像标注精度、泛化能力这些技术进步,还会受到哪些非技术因素(比如法规、伦理、公众接受度等等)的制约或影响呢?

原文内容


该论文的第一作者和通讯作者均来自北京大学王选计算机研究所的 VDIG (Visual Data Interpreting and Generation) 实验室,第一作者为北京大学博士生周啸宇,通讯作者为博士生导师王勇涛副研究员。VDIG 实验室近年来在 IJCV、CVPR、AAAI、ICCV、ICML、ECCV 等顶会上有多项重量级成果发表,多次荣获国内外 CV 领域重量级竞赛的冠亚军奖项,和国内外知名高校、科研机构广泛开展合作。


本文介绍了来自北京大学王选计算机研究所王勇涛团队及合作者的最新研究成果 AutoOcc。针对开放自动驾驶场景,该篇工作提出了一个高效、高质量的 Open-ended 三维语义占据栅格真值标注框架,无需任何人类标注即可超越现有语义占据栅格自动化标注和预测管线,并展现优秀的通用性和泛化能力,论文已被 ICCV 2025 录用为 Highlight



  • 论文标题:AutoOcc: Automatic Open-Ended Semantic Occupancy Annotation via Vision-Language Guided Gaussian Splatting

  • 论文链接: https://arxiv.org/abs/2502.04981


论文概述


三维语义占据栅格近年来在自动驾驶与具身智能领域受到了广泛关注。然而,如何从原始传感器数据中低成本地自动生成精确且完整的语义占据标注,仍是一个极具挑战性的问题。


本文提出了 AutoOcc,一个无需人工标注、不依赖预设类别的全自动开放式 3D 语义占据标注框架。AutoOcc 利用视觉-语言模型(VLM)生成的语义注意力图对场景进行描述并动态扩展语义列表,并通过自估计光流模块在时序渲染中识别并处理动态物体。


我们还提出了具有开放语义感知的 3D 高斯表示(VL-GS),能够实现自动驾驶场景的完整三维几何和语义建模,在表征效率、准确性和感知能力上表现突出。


充分的实验表明,AutoOcc 优于现有的三维语义占据栅格自动化标注和预测方法,并在跨数据集评估中展现出卓越的零样本泛化能力。


3D 真值标注困境:从人工成本到闭集感知


语义 3D 占据栅格(Occupancy)作为一种融合几何与语义信息的建模方法,逐渐成为复杂场景理解的重要技术。然而,传统的人工标注管线需要高昂的人力和时间成本,并且在极端环境下存在误标注等问题。当前有监督的占据栅格预测方法高度依赖大规模人工标注的数据集与有监督训练机制,不仅成本高昂,且泛化能力有限,严重制约了其在实际场景中的推广与应用。


现有自动化与半自动化语义占据栅格真值标注方法普遍依赖 LiDAR 点云及人工预标注的 2D 或 3D 真值。同时,这些方法依赖多阶段后处理,耗时冗长。部分基于自监督的估计方法虽在一定程度上降低了标注依赖,但是难以生成完整且一致的场景语义占据表示,三维一致性难以保障,且缺乏良好的跨场景、跨数据集泛化能力。


图1 现有三维语义占据栅格真值标注管线与 AutoOcc 的对比


AutoOcc:视觉中心的 Open-Ended 3D 真值标注管线


为了解决这些关键问题,本文提出了 AutoOcc,一个高效、高质量的 Open-ended 三维语义占据栅格真值生成框架。AutoOcc 基于视觉语言模型和视觉基础模型,从多视图场景重建的视角出发,无需任何人类标注即可超越现有 Occupancy 标注和预测管线,并展现良好的通用性和泛化能力。AutoOcc 的整体架构如下图所示:


图2 AutoOcc 三维语义占据栅格真值标注管线


AutoOcc 以环视驾驶场景的图像序列为输入,通过设定的固定文本提示,检索场景中可能存在的所有语义类型的物体。AutoOcc 还支持 LiDAR 点云作为可选输入,用于提供更强的几何先验约束。


表1 AutoOcc 与现有占据栅格真值标注管线比较


a、 视觉-语言引导的语义先验


人工标注需要高昂的人力成本和时间开销。相比之下,视觉语言模型(VLMs)提供了高效且低成本的开放语义感知能力。然而,当前的 VLMs 与视觉基础模型(VFMs)仍主要适用于单帧 2D 图像任务,难以有效处理多模态交互与多视图一致性问题,从而导致三维语义歧义,且缺乏对整体三维空间的全局理解。


为此,我们提出一种以语义注意力图为核心的引导框架,并通过场景重建消解语义与几何歧义,从而实现三维语义与几何信息的协同一致表达。具体地,我们采用统一的提示词「找出场景中的所有物体」,并通过 VLM 生成语义注意力图。



我们将这些语义类别对应的注意力栅格化为动态更新的特征图,并构建了一个可动态更新的查询列表,用于整合 VLMs 生成的语义信息。我们接着将语义注意力特征输入预训练分割模型,在感兴趣区域生成多个候选掩码,并进一步融合为实例级候选掩码,选取与语义注意力查询嵌入相似度最高的掩码作为输出结果。


b、 具有语义-几何感知的 VL-GS


尽管视觉-语言模型引导提供了语义先验信息,直接用这些信息生成三维占据真值标注仍面临三大核心挑战:1)多视角间的 2D 语义冲突导致简单的 2D-to-3D 投影出现对齐误差与语义歧义;2)深度估计误差可能导致三维的几何扭曲;3)驾驶场景的高速动态物体干扰语义与几何的时空一致性


为了克服这些挑战,我们首次从三维重建的视角出发构建语义占据栅格真值标注管线。具体地,我们提出了 VL-GS,这是一种具有语义-几何感知的 3D 表征方法,通过融合基于注意力的先验与可微渲染,实现高效场景重建,并保持语义与几何在三维空间中的一致性。


VL-GS 的核心在于具备语义感知能力的可扩展高斯,通过视觉语言模型生成的语义注意力图提供先验引导,并在多视图重建过程中平滑语义歧义,优化实例的几何细节。我们引入自估计光流模块,结合时间感知的动态高斯,有效捕捉并重建场景中的动态物体。AutoOcc 可以将 VL-GS 按任意体素尺度 splatting 到体素网格中,并依据高斯的占据范围与不透明度进行加权,确定每个体素的语义标签。


图3 具有语义-几何感知的 VL-GS


实验结果


我们使用 2 个基准自动驾驶数据集来评估模型的性能。其中,Occ3D-nuScenes 用于与现有占据栅格真值标注方法在特定语义类别上进行性能对比,SemanticKITTI 用于验证方法在跨数据集与未知类别上的零样本泛化能力。AutoOcc 在环视驾驶数据集 Occ3D-nuScenes 上与现有最先进的方法比较结果如下表所示:


表2 语义占据栅格真值标注性能比较


实验结果表明 AutoOcc 超越了现有单模态和多模态的语义占据栅格预测和真值生成模型。相比于基于点云体素化和语义投影的离线语义占据标注流程,我们的方法展现出更强的鲁棒性和开放式语义标注能力。


在跨数据集与未知类别上的零样本泛化能力评估中,AutoOcc 也取得了显著的泛化性优势,能够实现 Open-Ended 开放词汇三维语义感知。


表3 跨数据集零样本泛化性能比较


如下图定性实验结果所示,AutoOcc 能够在时间序列上保持语义和几何的三维一致性,准确捕捉动态物体的运动状态,并在极端天气条件下(如雨天、雾天、黑夜)实现完整的语义占据标注。AutoOcc 的标注结果可以达到甚至超越人工标注真值水平。例如,在因雨水导致反光的路面区域,AutoOcc 可以成功重建并生成正确的语义-几何占据。


图4 AutoOcc 定性实验结果比较


图5 AutoOcc 与人工标注在极端天气下的比较


我们还进一步评估了 AutoOcc 与现有标注框架的模型效率。结果表明,我们的方法在计算开销上具备显著优势,在提升标注性能的同时降低内存和时间开销。相比之下,基于稠密体素和点云的场景表示存在冗余的计算成本。AutoOcc 实现了效率与灵活性的良好平衡,支持开放式语义占据标注与场景感知重建,且无需依赖人工标注。


表4 模型效率评估


结论


本文提出了 AutoOcc,一个以视觉为核心的自动化开放语义三维占据栅格标注管线,融合了视觉语言模型引导的可微 3D 高斯技术。我们的方法提供了多视图重建视角下的数据标注思路。在无需任何人工标注的前提下,AutoOcc 在开放 3D 语义占据栅格真值标注任务中达到当前最先进水平。


上海 AI Lab 26 届校招正式批开启!全岗位「无限复活甲」助你 offer 到手!
  • 投递 0 限制:简历可多次投递,心仪岗位大胆冲!

  • 100+ 职位,赛道超丰富,细分方向任你选!

  • 顶级科研平台与资源:超大规模算力集群,PB 级数据,亿级研发投入!
  • 清晰的职业发展通道:由实验室出题,为你链接顶尖高校、科研机构和行业企业!

扫描下方二维码即可投递简历。

© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

关于:‘这种全自动的3D真值标注技术,未来真的能彻底取代人工标注吗?’ 我觉得彻底取代短期内是不可能的,尤其在要求极高安全性的自动驾驶领域。自动标注虽然效率高,但在某些极端、不确定或“长尾”案例下,人工的经验和判读是AI无法替代的。未来的趋势更可能是人机协作,AI负责大量常规标注,人类专家负责审核、纠错、标注高难度和罕见场景,并持续优化模型。人工的重点会从‘标注’转向‘质控’和‘模型训练引导’。

针对VLM在3D场景理解中的瓶颈,我认为除了AutoOcc提出的语义-几何协同建模,未来的研究方向可以集中在更高级的时间序列(temporal sequence)建模上,以更好地捕捉动态场景中的运动信息。此外,多模态融合的深度探索,比如将VLM与触觉、听觉等非视觉模态结合,有望实现更全面的3D世界感知。AIGC在3D建模的最大瓶颈可能在于高质量、多样化的3D真值数据获取和场景复杂度的动态适应性。

我觉得除了法规和伦理,经济因素和基础设施建设也是重要的非技术制约。比如,高精地图的普及、5G网络的覆盖、充电桩的密度等等,这些都是自动驾驶落地的必要条件。如果技术再好,但基础设施跟不上,或者购买成本过高,普通人也用不起。所以,技术进步要配合社会基础设施的整体升级和成本的优化,才能真正铺开。

从用户的角度看,信任度是最大的问题。即使技术能实现零失误,只要有一例事故被媒体放大,大众的信心就会动摇。就像飞机,我们都知道它很安全,但每次新闻报道空难还是会让人紧张。所以,除了技术,自动驾驶公司还需要在透明度、用户教育和危机公关方面下功夫,建立起用户对其安全性和可靠性的绝对信任。这可比技术标注一个红绿灯难多了!

VLM现在就像个刚学会认字的孩子,能把物体的名字和大概位置对应起来。但要让它真正“看懂”3D世界,大概还得先教会它玩乐高、搭积木,或者干脆让它去虚拟世界里“生活”一段时间,体验一下三维世界的真实反馈。至于瓶颈嘛,我觉得是算力不够,想象力来凑!开个玩笑,可能是真实世界的无限复杂性让模型很难找到一个完美的抽象表征方式?

如果AutoOcc真的能做到文章里说的零样本泛化和超越人工标注的精度,那它不只是标注工具,更是自动驾驶感知系统本身的一个重要组成部分。人工标注的成本瓶颈一直是行业痛点,如果能彻底解决,自动驾驶数据的迭代速度会指数级提升。人工未来可能更多地参与到像‘给AI提供学习目标’、‘定义新的、更复杂的感知任务’这种更高级别的决策和创新工作中,而不是一个个框地去拉。这是个解放生产力的大好事!

关于:‘除了技术本身,大家觉得在自动驾驶真正大规模普及的过程中,像标注精度、泛化能力这些技术进步,还会受到哪些非技术因素的制约或影响呢?’ 这个问题特别关键。首先是法规和标准制定,比如自动驾驶车辆在事故责任划分上的法律地位,以及感知系统通过何种标准才能被认定为‘足够安全’。其次是公众接受度,如果大家对自动驾驶的安全性抱有疑虑,即使技术再优秀也难以普及。伦理层面,比如在极端情况下,车辆的‘道德困境’决策,这些都远超技术范畴,需要社会共同探讨和立法。

我觉得VLM现在理解的东西还是太“平面”了,虽然能识别物体在哪里,但对物体的物理属性、相互关系(比如一个杯子是“放在”桌子上,而不是“粘在”上面)的理解还差得远。3D世界的复杂性在于它不只是形状,还有功能、材质、交互。AIGC要搞定这些,估计还得突破模拟物理引擎和更精细的材质生成上吧。

取代?我觉得有点悬。机器再智能也得有规则限制,万一它把啥不该标的给标了,或者标错了没发觉,那可就麻烦了。就像自动驾驶,虽然技术越来越好,但最后那一点点的安全冗余,还得是人来兜底。人工标注可能会大幅减少,但作为最终确认和‘擦屁股’的角色,估计还得长期存在。尤其是在模型遇到那种‘你这辈子都没见过’的情况时,人的判断力还是王道,机器很难临场发挥。