ORION:华科&小米汽车联手打造的端到端自动驾驶框架,闭环精度提升显著

华科&小米汽车联合打造的自动驾驶框架ORION,采用视觉语言指令指导轨迹生成,在闭环测试中精度暴涨19.61%,代码即将开源。

原文标题:闭环端到端精度暴涨19.61%!华科&小米汽车联手打造自动驾驶框架ORION,代码将开源

原文作者:机器之心

冷月清谈:

本文介绍了华科和小米汽车联合打造的端到端自动驾驶框架ORION。该框架旨在解决传统端到端方法在复杂闭环环境中因果推理能力不足的问题。ORION 创新性地结合了视觉-语言大模型(VLM)和生成模型,利用QT-Former聚合长期历史信息,使VLM能够更好地理解驾驶场景并指导轨迹生成,从而弥合了VLM的语义推理空间和车辆行动空间之间的鸿沟。在Bench2Drive数据集上的测试结果表明,ORION在驾驶得分和成功率方面均超越了现有技术,尤其在超车、紧急刹车和交通标志识别等场景中表现突出。ORION框架的代码、模型和数据集即将开源。

怜星夜思:

1、ORION框架中,QT-Former是如何有效聚合长时历史上下文信息的?相较于直接叠加多帧图像,它有哪些优势?
2、ORION框架利用生成模型对齐了VLM的推理空间和行动空间,为什么说这是一个巧妙的设计?如果没有生成模型,直接让VLM输出轨迹会面临哪些问题?
3、文章提到ORION框架具有可扩展性,可以与多种生成模型兼容。那么,未来ORION框架在哪些方面还有进一步的优化空间?

原文内容


近年来,端到端(End-to-End,E2E)自动驾驶技术不断进步,但在复杂的闭环交互环境中,由于其因果推理能力有限,仍然难以做出准确决策。虽然视觉 - 语言大模型(Vision-Language Model,VLM)凭借其卓越的理解和推理能力,为端到端自动驾驶带来了新的希望,但现有方法在 VLM 的语义推理空间和纯数值轨迹的行动空间之间仍然存在巨大鸿沟。


除此之外,现有的方法常常通过叠加多帧的图像信息完成时序建模,这会受到 VLM 的 Token 长度限制,并且会增加额外的计算开销。


为了解决上述问题,本文提出了 ORION,这是一个通过视觉语言指令指导轨迹生成的端到端自动驾驶框架。ORION 巧妙地引入了 QT-Former 用于聚合长期历史上下文信息,VLM 用于驾驶场景理解和推理,并启发式地利用生成模型对齐了推理空间与动作空间,实现了视觉问答(VQA)和规划任务的统一端到端优化。


图 1:不同的端到端自动驾驶范式的对比


ORION 在具有挑战性的闭环评测 Bench2Drive 数据集上实现了优秀的性能,驾驶得分为 77.74 分,成功率为 54.62%,相比之前的 SOTA 方法分别高出 14.28分和 19.61% 的成功率。


此外,ORION 的代码、模型和数据集将很快开源。



  • 论文标题:ORION: A Holistic End-to-End Autonomous Driving Framework by Vision-Language Instructed Action Generation

  • 论文地址:https://arxiv.org/abs/2503.19755

  • 项目地址:https://xiaomi-mlab.github.io/Orion/

  • 代码地址:https://github.com/xiaomi-mlab/Orion

  • 单位:华中科技大学、小米汽车


我们来看一下 ORION 框架下的闭环驾驶能力:


ORION 检测到骑自行车的人并向左变道避免了碰撞。


图片


ORION 检测到右前方的车辆,先执行减速,然后再改变车道。


图片


ORION 识别停车标志并停车,等待一段时间,然后重新启动成功通过十字路口。


图片


主要贡献


本文提出了一个简单且有效的端到端自动驾驶框架 ORION,主要包含如下几方面的贡献:


  • VLM + 生成模型:利用生成模型弥补了 VLM 的推理空间与轨迹的动作空间之间的差距,从而使 ORION 能够理解场景并指导轨迹生成。

  • QT-Former:引入 QT-Former 聚合历史场景信息,使模型能够将历史信息整合到当前推理和动作空间中。

  • 可扩展性:ORION 可以与多种生成模型兼容,实验证明了所提出框架的灵活性。

  • 性能优异:在仿真数据集 Bench2drive 的闭环测试上取得 SOTA 的性能。


研究动机


经典的 E2E 自动驾驶方法通过多任务学习整合感知、预测和规划模块,在开环评估中表现出优秀的能力。然而,在需要自主决策和动态环境交互的闭环基准测试中,由于缺少因果推理能力,这些方法往往表现不佳。


近年来,VLM 凭借其强大的理解和推理能力,为 E2E 自动驾驶带来了新的解决思路。但直接使用 VLM 进行端到端自动驾驶也面临诸多挑战,例如,VLM 的能力主要集中在语义推理空间,而 E2E 方法的输出是动作空间中的数值规划结果。


一些方法尝试直接用 VLM 输出基于文本的规划结果,但 VLM 在处理数学计算和数值推理方面存在不足,且其自回归机制导致只能推断单一结果,无法适应复杂场景。还有些方法通过设计接口,利用 VLM 辅助经典 E2E 方法,但这种方式解耦了 VLM 的推理空间和输出轨迹的动作空间,阻碍了两者的协同优化。


除此之外,长期记忆对于端到端自动驾驶是必要的,因为历史信息通常会影响当前场景中的轨迹规划。现有使用 VLM 进行端到端自动驾驶的方法通常通过拼接多帧图像来进行时间建模。但这会受到 VLM 的输入 Token 的长度限制,并且会增加额外的计算开销。


为了解决上述问题,本文提出了 ORION。ORION 的结构包括 QT-Former、VLM 和生成模型。 ORION 通过 QT-Former 聚合长时间上下文信息,并巧妙地结合了生成模型和 VLM,有效对齐了推理空间和动作空间,实现了视觉问答(VQA)和规划任务的统一端到端优化。


方法概览


具体来说,ORION 通过以下三大核心模块,显著提升了自动驾驶系统的决策能力:


1. QT-Former:长时序上下文聚合


ORION 引入了 QT-Former,通过引入历史查询和记忆库,有效聚合长时视觉上下文信息,增强了模型对历史场景的理解能力。相比现有方法,QT-Former 不仅减少了计算开销,还能更好地捕捉静态交通元素和动态物体的运动状态。


2. VLM:场景推理与指令生成


ORION 利用 VLM 的强大推理能力,结合用户指令、长时和当前的视觉信息,能够对驾驶场景进行多维度分析,包括场景描述、关键物体行为分析、历史信息回顾和动作推理,并且利用自回归特性聚合整个场景信息以生成规划 token,用来指导生成模型进行轨迹预测。


3. 生成模型:推理与动作空间对齐


ORION 通过生成模型,将 VLM 的推理空间与预测轨迹的动作空间对齐。生成模型使用变分自编码器(VAE)或扩散模型,以规划 token 作为条件去控制多模态轨迹的生成,确保模型在复杂场景中做出合理的驾驶决策。


图 2:ORION 整体架构图


实验结果


本文在 Bench2Drive 数据集上进行闭环评估测试,如表 1 所示,ORION 取得了卓越的性能,其驾驶得分(DS)和成功率(SR)分别达到了 77.74 和 54.62%,相比现在的 SOTA 方法提升了 14.28 DS 和 19.61% SR,展现了 ORION 强大的驾驶能力。


表 1:Bench2Drive 上闭环评估和开环评估的性能对比


此外,如表 2 所示,ORION 还在 Bench2Drive 的多能力评估中表现优异,特别是在超车(71.11%)、紧急刹车(78.33%)和交通标志识别(69.15%)等场景中,ORION 的表现远超其他方法。这得益于 ORION 通过 VLM 对驾驶场景的理解,能够更好地捕捉驾驶场景之间的因果关系。


表 2:Bench2Drive 上多能力评估测试对比


可解释性结果


下图展示了 ORION 在 Bench2Drive 的闭环评估场景中的可解释性结果。ORION 可以理解场景中正确的因果关系,并做出准确的驾驶决策,然后根据推理信息指导规划轨迹预测。


图 3:可解释性结果图


总结


ORION 框架为端到端自动驾驶提供了一种全新的解决方案。ORION 通过生成模型实现语义与动作空间对齐,引入 QT-Former 模块聚合长时序场景上下文信息,并联合优化视觉理解与路径规划任务,在闭环仿真中取得了卓越的性能。


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

我猜想直接让VLM输出轨迹,可能会出现“指哪打哪,但打不准”的情况。VLM能理解要做什么,但没法精细控制车辆的每一个动作。生成模型就像一个“翻译官”,把VLM的指令翻译成车辆能理解的“语言”,保证动作的准确性。说白了,还是术业有专攻。

我觉得QT-Former有点像一个“场景速记员”,它会记住过去发生的重要事情,并在需要的时候快速提取出来。而直接叠加多帧图像就像是把所有监控录像都堆在一起,信息量太大,反而难以找到关键线索。不知道我理解的对不对?

ORION框架的可扩展性确实是一个亮点,这意味着它有很大的潜力可以不断改进和优化。个人认为,未来的优化空间可能包括:1. 探索更先进的生成模型,例如Transformer架构的生成模型,以提高轨迹预测的精度和效率;2. 引入注意力机制,使模型能够更好地关注场景中的关键信息;3. 结合强化学习,使ORION能够通过与环境的交互不断学习和改进自身的驾驶策略。总而言之,ORION的未来可期!

我觉得除了技术层面的优化,还可以考虑将ORION框架与更多的传感器数据融合,例如激光雷达、毫米波雷达等。多传感器融合可以提高系统对环境的感知能力,从而提高驾驶的安全性。此外,还可以探索将ORION应用于不同的驾驶场景,例如城市道路、高速公路等,以验证其泛化能力。

这个设计的巧妙之处在于它弥合了语义理解和数值控制之间的差距。VLM擅长理解场景,但直接输出精确的轨迹坐标存在困难,因为VLM在处理数学计算和数值推理方面存在不足。生成模型则可以将VLM的语义指令转化为具体的行动轨迹,实现了优势互补。如果直接让VLM输出轨迹…emmm,我感觉就像让一个语言学家去开挖掘机,理论知识很丰富,但是实际操作会很僵硬。

从应用角度来看,ORION的优化空间还包括降低计算成本和功耗,使其能够更好地部署在嵌入式平台上。毕竟,自动驾驶系统最终是要落地应用的,成本和功耗是必须要考虑的因素。如果ORION能够在这方面取得突破,那它的商业价值将会大大提升。

QT-Former 的优势在于其高效的时间建模能力。传统方法叠加多帧图像不仅计算成本高,而且容易丢失关键信息。QT-Former 通过选择性地关注和聚合历史信息,能够更准确地把握场景的变化趋势,为后续的决策提供更可靠的依据。这就像人脑的回忆功能,只会记住重要的时间节点。

ORION 框架中的 QT-Former 引入了历史查询和记忆库,这允许它在不增加大量计算开销的情况下,有效地聚合长时视觉上下文信息。相比于直接叠加多帧图像,QT-Former 能够更好地捕捉静态交通元素和动态物体的运动状态,避免了 VLM 的 Token 长度限制,同时还能减少计算负担。个人理解,它其实是在提取关键帧和关键信息,然后进行压缩和记忆。

个人认为,直接让VLM输出轨迹会面临两个主要问题:一是精度问题,VLM可能无法生成足够精确的数值轨迹;二是泛化性问题,VLM的自回归机制可能导致其难以适应复杂多变的驾驶场景。生成模型的使用,可以有效缓解这些问题,提高系统的鲁棒性和可靠性。