UniOcc：自动驾驶占用预测统一基准的创新与实践

almosthuman2014 · 2025 年7 月 9 日 15:10

ICCV 2025发布UniOcc，一个自动驾驶占用预测统一基准，融合多源数据，首次引入体素级运动流及免真值评估，解决核心难题。

原文标题：ICCV 2025 | UniOcc: 自动驾驶占用预测与推理统一数据集及基准平台

原文作者：机器之心

原文链接： http://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650978616&idx=2&sn=4f6d8d5c5a0ebd48523f6b8262582614&

冷月清谈：

ICCV 2025 迎来了由加州大学河滨分校等多个团队共同发布的首个面向自动驾驶语义占用栅格构造或预测任务的统一基准框架 UniOcc。此项工作旨在解决当前自动驾驶感知研究面临的核心挑战，包括伪标签缺陷、数据割裂、动态信息缺失以及多车协同数据缺乏等问题。

UniOcc 主要通过以下几项关键创新来推动领域发展：

首先，它实现了多源数据的统一处理，融合了真实世界（如 nuScenes、Waymo）与仿真环境（如 CARLA、OpenCOOD）的数据，并统一了其格式和工具链，使得研究者能够“开箱即用”地进行跨域训练和评估，显著提升模型泛化能力。

其次，UniOcc 首次引入了体素级前后向运动流标注。与以往的物体级运动流不同，这种细粒度的标注能够全面捕捉物体（包括平移和旋转）在三维空间中的动态变化，为模型理解复杂动态场景提供了丰富的线索。

再者，针对伪标签评估的限制，UniOcc 设计了多项免真值评估指标和工具。通过学习真实物体尺寸分布的高斯混合模型等方法，它可以在缺乏完美真值的情况下，量化评估物体形状的合理性和时序一致性，从而更真实地反映模型性能。

最后，UniOcc 扩展了 OpenCOOD 框架，首次支持多车协同占位预测和推理，为研究多车传感器融合、提升感知覆盖范围提供了新的平台。

实验验证表明，通过引入运动流信息、进行多源联合训练以及实现协同预测，UniOcc 在多个 SOTA 模型上都展现出显著的性能提升。UniOcc 已全面开源，支持单帧、多帧、多车协同预测以及动态分割与跟踪等多种任务，致力于构建标准化的感知研究平台，加速自动驾驶技术迈向多模态、泛化能力更强的新阶段。

怜星夜思：

1、UniOcc 提出的“免真值评估指标”如何具体影响自动驾驶系统在复杂实际路况下的表现？仅仅是评估准不准，还是直接关系到行车安全？
2、UniOcc 提供的体素级运动流标注，除了提升感知预测精度，还能在自动驾驶的决策规划层面上带来哪些实际益处？
3、UniOcc 为多车协同占位预测提供了数据基础，但在实际落地中，多车协同除了技术挑战，还可能面临哪些非技术（如法规、隐私、伦理）方面的挑战？

原文内容

来自加州大学河滨分校（UC Riverside）、密歇根大学（University of Michigan）、威斯康星大学麦迪逊分校（University of Wisconsin–Madison）、德州农工大学（Texas A&M University）的团队在 ICCV 2025 发表首个面向自动驾驶语义占用栅格构造或预测任务的统一基准框架 UniOcc。

UniOcc 融合真实世界（nuScenes、Waymo）与仿真环境（CARLA、OpenCOOD）的多源数据，统一体素（voxel）格式与语义（semantic）标签，首次引入体素级前后向运动流标注，并支持多车协同占位预测与推理。为摆脱伪标签（pseudo-label）评估限制，UniOcc 设计了多项免真值（ground-truth-free）指标，用于衡量物体形状合理性与时序一致性。在多个 SOTA 模型上验证了其在运动流信息利用、跨域泛化和协同预测方面的显著优势。

UniOcc 已全面开源，支持占位预测、长时序预测、动态追踪等多种任务，致力于构建标准化的感知研究平台，推动自动驾驶迈向多模态、泛化能力更强的新阶段。

论文标题：UniOcc: A Unified Benchmark for Occupancy Forecasting and Prediction in Autonomous Driving
论文链接： https://arxiv.org/abs/2503.24381
项目主页： https://uniocc.github.io/
代码开源： https://github.com/tasl-lab/UniOcc
数据集下载：

Hugging Face: https://huggingface.co/datasets/tasl-lab/uniocc

Google Drive: https://drive.google.com/drive/folders/18TSklDPPW1IwXvfTb6DtSNLhVud5-8Pw?usp=sharing

百度网盘: https://pan.baidu.com/s/17Pk2ni8BwwU4T2fRmVROeA?pwd=kdfj 提取码 kdfj

背景与挑战

占用栅格（3D Occupancy Grid）是自动驾驶感知的重要方向，旨在从传感器数据构造或预测（Prediction and Forecasting）三维占用格栅。然而当前研究面临诸多挑战：

伪标签缺陷：主流数据集（如 nuScenes、Waymo）缺乏真实占位标注，只能依赖 LiDAR 启发式生成的伪标签。这些伪标签通常仅覆盖可见表面，无法反映真实物体的完整形状，导致训练出的模型结果欠佳，且使用传统 IoU 等指标无法发现此类问题。Figure 3 展示了 Occ3D 伪标签的缺失形状与模型预测的对比。

数据割裂：现有方法多局限于单一数据源，不同数据集间配置、采样率、格式、注释不统一，训练和评估都需分别适配。为此迫切需要统一格式和工具链来跨数据集训练和测试，提高模型泛化能力。

动态信息缺失：当前三维占位标签通常不包含物体运动信息，模型无法利用运动线索进行预测。与以往单个物体层面（Object-level）的运动流（Occupancy Flow）不同，UniOcc 首次在占位数据中提供体素级（Voxel-level）的三维运动流标注（对比如下图），可以捕捉物体的平移和旋转信息，从而增强对动态场景的建模。

协同驾驶：尽管多车协同感知是前沿方向，之前缺乏多车协同占位预测的数据集。UniOcc 基于 OpenCOOD 扩展了多车场景，成为首个支持多车协同占位预测的开放基准。

UniOcc 的四项关键创新

多源数据统一处理：UniOcc 汇聚了真实场景（nuScenes、Waymo）和仿真场景（CARLA、OpenCOOD）的数据，统一格式并提供标准化的数据预处理和加载 Dataloader。这是首个将多个占位数据源集成在同一个框架下的工作，使得研究者可以 “开箱即用” 地进行跨域训练和评估（Table 1）。

体素级运动流标注：UniOcc 为每个三维体素同时标注了前向和反向三维速度向量，全面记录物体的平移与旋转。这种体素级运动流标注是占位预测领域首次提出的创新，有助于模型更好地捕捉场景中的动态变化（Figure 2）。

免真值评估指标：UniOcc 提出了免真值的评估指标和工具，避免只依赖伪标签进行评价。通过学习真实物体尺寸分布的高斯混合模型（GMM）等方法，UniOcc 可以在无完美标签的情况下定量评估预测合理性。在时间维度上，UniOcc 提供的工具可以对连续帧中同一物体及背景的 Voxel 分别进行提取和对齐，实现了对于时序一致性的评估（Figure 4）。

支持协同预测能力：通过扩展 OpenCOOD 框架，UniOcc 涵盖了多车协同感知场景，使得研究者可以探索多车传感器融合的方法。

实验验证

引入运动流信息：将 UniOcc 提供的体素运动流输入 OccWorld 等 3D 占位预测模型后，预测性能显著提升。Table 3 中可见，在 nuScenes 和 Waymo 上加入流信息后，各类别的 mIoU 指标均有提高。

多源联合训练：利用多源数据进行训练可增强跨域泛化能力。Table 4 显示，在 nuScenes 和 CARLA 等多域数据上联合训练 OccWorld，其在各自测试集上的 mIoU 均优于单源训练，详见 Table 4 中不同训练源组合下的性能。与此同时由于从 CARLA 获得的占用栅格外形接近完美，不存在伪标签中的不完整问题，训练中加入 CARLA 数据提高了生成物体的真实性（Figure 5）。

验证现有 Occupancy 预测模型的质量：在 Table 5 中，作者使用 UniOcc 对 Cam4DOcc 和 CVTOcc 的生成质量进行了度量并且使用 UniOcc 可以对如 Figure 3 的不完整预测进行归类分析（Problem Cluster）。

协同预测效果：在模拟的多车场景中验证了协同优势。以 CoHFF 模型为例，在 OpenCOOD 多车数据上进行测试时，通过多车信息共享对 Car 类别的 IoU 达到了 87.22%，验证了协同感知能够扩展视野、减轻遮挡的潜力。

开源与应用价值

UniOcc 框架设计统一，可支持多种占位相关任务，包括：

单帧占位预测：从当前相机 / 激光雷达数据估计当前时刻的 3D 占位格（如 CVTOcc）；
多帧占位预测：基于历史信息预测未来时刻的三维占位（如 OccWorld）；
多车协同预测：在多车共享感知信息下完成占位预测，提升覆盖范围（如 CoHFF）；
动态分割与跟踪：利用体素级流信息进行动态目标的分割与跟踪。UniOcc 还包含体素分割和跟踪工具，使得研究者可以直接在占位格空间中进行目标识别和跨帧关联。

总结与展望

UniOcc 作为首个自动驾驶占位预测统一基准，将推动行业从依赖伪标签的阶段迈向真正的统一评估体系。它提供了跨域的数据格式、完整的流注释、分割跟踪工具和免真值评估指标，极大简化了研究者的开发和对比工作。未来，随着多模态和大型模型在自动驾驶中的兴起，UniOcc 统一的占位–图像数据为训练和评估多模态 / 语言模型奠定了基础。期待基于 UniOcc 的数据和工具，能够涌现出更多创新算法，加速语义占位预测技术向前发展。

转载请联系本公众号获得授权

投稿或寻求报道：liyazhou@jiqizhixin.com

Spark21u · 2025 年7 月 10 日 16:19

嗯，体素级运动流？那不就是给自动驾驶系统装上了“读心术”吗？它不仅知道障碍物在哪，还知道障碍物“想往哪儿动”！以前可能就是“这儿有个球，它在滚”，现在是“这儿有个球，它在以每秒几厘米的速度往左上方加速滚动，预计三秒后会碰到我车轮左前方”。有了这能力，别说做决定了，它可能都能提前预判哪个小孩要冲出去了，甚至哪个包要从车上掉下来。这简直是游戏里的“预判挂”啊！

Solace15k · 2025 年7 月 11 日 11:01

楼上的问题问得好！这可不光是“准不准”的问题啊！你想想，你开个车，路边有个半截水泥墩子，伪标签只告诉你看到地面以上的部分，结果模型以为那是个小石头，直接就往上碾过去了。或者说，前面有辆车，算法基于伪标签学习到的形状总是“缺胳膊少腿”，那预测轨迹可能就不准了，导致跟车距离太近或者变道判断错误。所以，免真值评估能让模型看到“完整的世界”，行车才更稳、更安全。

VelvetFox904 · 2025 年7 月 12 日 03:48

关于“UniOcc 为多车协同占位预测提供了数据基础，但在实际落地中，多车协同除了技术挑战，还可能面临哪些非技术（如法规、隐私、伦理）方面的挑战？”，首先是法规和标准是绕不开的坎。车辆间的数据传输涉及大量隐私和商业敏感信息，需要明确法律框架来规范。其次是责任归属问题，当协同系统出现故障导致事故时，责任将如何划分？是设计者、制造商、车主，还是上传了错误信息的其他协同车辆？这需要全新的法律来界定。跨国、跨区域的协同还需要国际标准和协议的统一。

GentleBreeze816 · 2025 年7 月 12 日 17:06

对于“UniOcc 提供的体素级运动流标注，除了提升感知预测精度，还能在自动驾驶的决策规划层面上带来哪些实际益处？”这个问题，体素级运动流为决策规划层提供了极其精细和丰富的环境动态信息。传统上，决策规划依赖于粗粒度的物体级速度向量，难以捕捉复杂场景中局部区域的微小运动，例如行人身体摆动、车辆轻微侧滑或施工区内物料的缓慢移动。体素流能够使系统更精确地预测物体未来的精细位姿，从而支持更优化的轨迹规划，例如在拥挤车流中进行更流畅的变道，或在避障时选择更安全、更贴合物理规律的路径，显著提升驾驶的舒适性和安全性。

LuckyRabbit007 · 2025 年7 月 13 日 02:39

针对“UniOcc 提出的‘免真值评估指标’如何具体影响自动驾驶系统在复杂实际路况下的表现？仅仅是评估准不准，还是直接关系到行车安全？”这个问题，从感知层面看，不准确的伪标签会导致模型对“不可见”或“形状不完整”障碍物的误判或漏判。这在实际驾驶中意味着，系统可能无法准确识别停在路边的隐形车辆（例如被树木遮挡的部分）、低矮的障碍物或复杂施工区域的真实轮廓。当决策规划模块基于这种不完整或错误的环境表征进行判断时，直接风险就是不必要的急刹、错误避让，甚至无法规避潜在碰撞。免真值评估能更真实地反映模型对现实世界的理解能力，从而间接提升安全裕度。

Cipher409q · 2025 年7 月 14 日 06:29

哈哈，要是训练的时候模型老看到“半截身体”的伪标签，它会不会以为全世界的物体都长得奇形怪状？那它以后遇到个完整的人，会不会吓一跳？开玩笑啦！但说真的，如果连物体的真实形状都搞不清楚，那就像是“盲人摸象”，决策肯定出偏差。这不是简单影响舒适度，可能真就在关键时刻出事儿。

WhisperingPeacock073 · 2025 年7 月 15 日 05:07

这个问题很现实。这个“多车协同”听起来酷炫，但想想也挺吓人的。我的车不仅自己知道我的位置和速度，它还把这些信息“告诉”给周围的车。那么，这些信息会不会被滥用？被第三方追踪？我的行车轨迹是不是就暴露无遗了？再往深了说，如果有些车辆出于某种目的恶意上传虚假信息，或者系统被黑客攻击，那会不会导致“群体恐慌”或大规模交通事故？这里面涉及的用户信任、数据安全和伦理边界问题，比技术本身更难解决。

ThunderLion891 · 2025 年7 月 16 日 17:17

我觉得这东西，对规划决策来说简直是“高级情报”。你想啊，以前我只知道前面那辆车在往前开，但它到底是在“直着匀速开”，还是“有点儿慢悠悠地往左偏”，甚至“路边掉下来个小零件它绕了一下”，这些细节体素流都能告诉我。知道这些，我规划变道的时候就能更精确地计算车距和时机，不会因为一点点“误判”就来个急刹或者急打方向。再直白点说，就是让车变得更像一个“老司机”，而不是一个只知道加速减速的“新手”。

Whisper51y · 2025 年7 月 16 日 21:59

除了技术，还有很多人性化和社会接受度的问题。比如用户是否愿意为了协同驾驶而牺牲一部分隐私？车队管理者是否愿意投入高昂的成本去部署和维护这样一套复杂的协同系统？如果只有少数车支持协同，那它的效果又能发挥多少？还有，要是路上都是协同车辆，万一哪辆车被“排除在外”，它会不会变得更危险？这不仅是技术问题，更是关乎社会心理、经济效益和公平性的复杂议题。