地平线AlphaDrive:GRPO强化学习与规划推理赋能自动驾驶大模型

地平线推出AlphaDrive,首个基于GRPO强化学习和规划推理的自动驾驶大模型,显著提升规划性能与训练效率,或将成自动驾驶领域新突破。

原文标题:地平线提出AlphaDrive,首个基于GRPO强化学习和规划推理实现自动驾驶大模型

原文作者:机器之心

冷月清谈:

地平线提出的AlphaDrive是首个基于GRPO强化学习和规划推理实现的自动驾驶大模型,旨在解决端到端模型在处理长尾问题上的不足,以及现有VLM方法在训练策略上的探索不足。AlphaDrive的关键创新包括:针对规划的四种强化学习GRPO rewards(规划准确率、action权重、输出多样性、规划格式);基于知识蒸馏的SFT和RL两阶段推理训练策略。实验结果表明,AlphaDrive在规划准确率和训练效率上均有显著提升,尤其是在真实驾驶场景的大规模数据集上,规划准确率提升了26%,使用1/5训练数据的情况下,性能仍比SFT训练模型高出35%。AlphaDrive的成功验证了强化学习在自动驾驶大模型中的应用潜力,并为未来统一理解、决策、规划的自动驾驶大模型(VLA)的发展方向提供了有益的探索。

怜星夜思:

1、AlphaDrive提出的GRPO强化学习reward机制,具体是如何平衡规划准确率、action权重、输出多样性和规划格式这四个方面的?在实际应用中,哪个reward对性能影响最大,为什么?
2、AlphaDrive采用的基于知识蒸馏的SFT和RL两阶段训练策略,相比于直接使用RL训练,或者没有推理过程,有哪些优势?知识蒸馏在其中起到了什么作用?
3、AlphaDrive目前还是一个VLM(视觉语言模型),未来计划拓展到VLA(视觉语言行动模型),实现一个统一的理解、决策、规划的自动驾驶大模型。你认为VLA相比VLM,最大的挑战是什么?在技术上,有哪些关键问题需要解决?

原文内容


OpenAI 的 o1 和 DeepSeek 的 R1 模型在数学,科学等复杂领域达到甚至超过了人类专家的水平,强化学习训练和推理技术是其中的关键。而在自动驾驶,近年来端到端模型大幅提升了规划控车的效果,但是由于端到端模型缺乏常识和推理能力,在处理长尾问题上仍然效果不佳。

此前的研究尝试将视觉语言模型(VLM)引入自动驾驶,然而这些方法通常基于预训练模型,然后在驾驶数据上简单的采用有监督微调(SFT),并没有在训练策略和针对决策规划这一最终目标进行更多探索。

针对上面的问题,我们提出了 AlphaDrive, 一种针对决策规划的 VLM 的强化学习和推理训练框架。


  • 项目主页:https://github.com/hustvl/AlphaDrive
  • 论文链接:https://arxiv.org/abs/2503.07608

具体而言,AlphaDrive 提出了四种针对规划的强化学习 GRPO rewards。另外,我们提出一种基于 SFT 和 RL 的两阶段规划推理训练策略。在强化学习阶段,AlphaDrive 展出的涌现的多模态规划能力,和 DeepSeek R1 的「Aha Moment」有相似之处,也证明了强化学习在自动驾驶大模型的应用潜力。据我们所知,AlphaDrive 实现了首次将基于 GRPO 强化学习和规划推理引入自动驾驶规划,在规划性能和训练效率上都取得显著的进步。

AlphaDrive 解决的研究问题

当前已有一些将 VLM 应用于自动驾驶的研究,大致可以分为两类,一类使用 VLM 实现对驾驶场景的感知理解,但是其主要关注感知任务;另一类则是直接使用 VLM 实现决策规划,但是不像端到端模型专门用于预测轨迹。大模型的输出空间是语言空间,并不擅长精确的数值预测,因此使用大模型直接预测轨迹可能会导致次优的结果,甚至有安全隐患;另一些工作则利用大模型做高维规划,即通过自然语言的形式规划自车未来的行为,例如「减速,向右变道」。这样可以避免上述的缺陷,但是并没有在训练方法上进行更多探索。它们大多采用 SFT 的训练方式,忽视了不同的训练策略与规划表现间的关系和训练开销问题。因此 AlphaDrive 主要尝试解决如下的问题:

如何进一步提升大模型在自动驾驶决策规划的效果?

采用推理技术的 OpenAI 的 o1 模型在数学,编程等领域能力突出。另外,最近火爆的 DeepSeek 的 R1 模型采用的 GRPO 强化学习技术,不仅让大模型出现了 「涌现智能」的时刻,实现了顶级的性能,同时训练开销远小于其他的同类模型。它们证明了推理技术和强化学习在大模型领域的巨大潜力。

因此,我们想要尝试回答如下问题:如何将在通用大模型领域大放异彩的强化学习和推理技术应用于自动驾驶,尤其是决策规划,从而提升大模型在自动驾驶任务上的表现,并降低训练开销。

如何设计针对驾驶规划的大模型强化学习策略?

通过大量实验,我们发现直接将现有的强化学习技术在自动驾驶规划上效果不佳。我们认为主要有如下原因,首先,针对通用任务的强化学习 reward 设计并不适合于驾驶场景,例如对于视觉目标计数任务,reward 可以简单的设计为判断模型回答的正确与否。但是对于驾驶而言,虽然规划也可以看作为多分类任务,但是由于不同驾驶行为的重要性存在区别,因此不能对于所有驾驶行为都赋予相同权重。

另外,不像数学或者 counting,规划可能并不存在唯一的正确解,例如在一段空旷的直道上,你可以选择匀速前进,也可以选择加速前进。因此硬性的判断模型规划结果和实际的操作是否一致并不是最好的选择。


如何将大模型 Reasoning 技术引入决策规划?

在通用领域,像是数学或者编程,都拥有较多现成的 reasoning 数据可以利用,例如教科书的参考答案或者编程网站。但是在驾驶领域,目前几乎没有现成的决策推理过程的数据,采集这种数据的成本非常高昂,需要大量人工标注,因此推理技术的使用也很难直接复用现有方案。
 

AlphaDrive 的关键创新

  • 我们提出了 AlphaDrive,一个用于自动驾驶高维规划的视觉语言大模型,据我们所知,AlphaDrive 首次将基于 GRPO 的强化学习和规划推理引入基于大模型的自动驾驶任务,大幅提升了模型的规划表现和训练效率。
  • AlphaDrive 提出了四种强化学习 GRPO rewards,分别是规划准确率 reward,action 权重 reward,输出多样性 reward 和规划格式 reward。这些优化的 reward 设计让 GRPO 更适合于自动驾驶规划任务。
  • 我们提出了基于知识蒸馏的 SFT 和 RL 的两阶段推理训练策略,通过使用云端大模型生成的少量高质量规划推理数据,相比于仅使用 RL 进行训练或者没有推理过程,AlphaDrive 达到了更好的规划效果。

AlphaDrive 的实验及应用效果

基于真实驾驶场景的大规模数据集上的实验和消融验证了 AlphaDrive 的先进性。与 SFT 训练的模型相比,AlphaDrive 的规划准确率显著提升了 26%,并且在仅使用 1/5 的训练数据的情况下,性能比 SFT 训练的模型高出 35%。另外,在强化学习阶段,AlphaDrive 展出的涌现的多模态规划能力,和 DeepSeek R1 的「Aha Moment」有相似之处,证明了强化学习在自动驾驶大模型的应用潜力。
 
 


未来探索方向

AlphaDrive 初步探索了大模型强化学习和推理技术在自动驾驶领域的应用。下一步,我们将尝试将 AlphaDrive 从 VLM 拓展到 VLA,实现一个统一的理解、决策、规划的自动驾驶大模型。

参考文献

[1] Guo D, Yang D, Zhang H, et al. Deepseek-r1: Incentivizing reasoning capability in llms via reinforcement learning [J]. arXiv preprint arXiv:2501.12948, 2025.
[2] OpenAI, Learning to reason with LLMs, https://openai.com/index/learning-to-reason-with-llms.
[3] Shao Z, Wang P, Zhu Q, et al. Deepseekmath: Pushing the limits of mathematical reasoning in open language models [J]. arXiv preprint arXiv:2402.03300, 2024.


© THE END 
转载请联系本公众号获得授权
投稿或寻求报道:liyazhou@jiqizhixin.com


SFT提供了一个良好的初始化,避免了RL从随机状态开始探索,这在复杂的自动驾驶环境中至关重要。RL则专注于优化决策策略,弥补了SFT在长期规划上的不足。知识蒸馏的作用在于传递知识,将云端大模型的推理能力迁移到AlphaDrive,加速了模型的学习过程,并提高了模型的泛化能力。

如果没有知识蒸馏,AlphaDrive可能需要花费更多的时间和资源才能达到相同的性能,甚至可能无法收敛。

学术一点说,这涉及到一个多目标优化问题。AlphaDrive在实现中肯定采用了某种加权或者 Pareto 优化的方法。规划准确率是基础,保证安全;Action权重体现了不同行为的风险收益比;输出多样性避免模型陷入局部最优解,提高泛化能力;规划格式则保证输出的可解释性,方便后续模块处理。

具体哪个reward影响最大,没看到源码不好说。但我猜测action权重和规划准确率比较关键,前者引导模型学习安全的驾驶策略,后者保证规划的正确性。输出多样性和规划格式可能更多的是起到辅助作用,提升模型的鲁棒性和可维护性。

我感觉规划格式reward可能被低估了。你想啊,大模型输出的是自然语言,如果格式混乱,下游模块怎么解析?就像人和人说话一样,如果表达不清不楚,别人根本不知道你在说什么。所以,规范的规划格式应该是模型有效决策的基础。

我觉得最大的挑战是“控制”。VLM主要解决的是感知和理解问题,输出的是描述性的语言。而VLA需要直接控制车辆的行动,这需要模型具备更强的精确性和鲁棒性。稍有偏差,就可能导致严重的事故。

关键问题在于:

* 实时性: 如何保证模型能够在毫秒级别的时间内做出决策?
* 可解释性: 如何让模型能够解释自己的决策过程,方便调试和改进?
* 数据 bias: 如何解决训练数据中存在的偏差,避免模型在某些情况下做出错误的决策?

两阶段训练策略,我觉得就像是先打好基础,再重点突破。SFT阶段用大量数据让模型学会基本的驾驶知识和逻辑,RL阶段再通过少量高质量的推理数据,提升模型的高级规划能力。 知识蒸馏相当于请了一个名师来辅导,让小模型(AlphaDrive)学习云端大模型的推理过程,避免了从零开始探索,大大提高了训练效率。

这个问题问到了点子上!AlphaDrive在reward设计上的巧妙之处就在于trade-off。个人理解,这四个reward之间并非简单的线性关系,而是互相影响的。比如,过分强调规划准确率,可能导致模型过于保守,输出多样性降低;而单纯追求输出多样性,又可能牺牲规划的合理性。

Action权重实际上是对不同驾驶行为风险的量化,重要性不言而喻;但如果权重设置不合理,比方说变道超车的权重过高,估计会训练出一个马路杀手,哈哈。

我觉得最关键的可能还是规划准确率,毕竟安全是自动驾驶的底线。在这个基础上,再去提升多样性和效率,才是正路。当然,实际应用中还需要精细的调参,才能找到最佳平衡点。

这让我想起了我小时候学数学,先背公式(SFT),然后做难题(RL),难题做不出来就问学霸(知识蒸馏)。学霸讲题的时候,我不仅学会了这道题,还学会了解题思路,下次遇到类似的题也能自己做了。AlphaDrive也是这个道理,通过学习云端大模型的推理过程,提升了自己的规划能力。

VLA的最大挑战在于如何将视觉、语言和行动三个模态的信息有效地融合起来。这不仅仅是简单地拼接特征,而是要让模型真正理解这三个模态之间的关系,并能够根据场景做出合理的决策。

技术上的关键问题包括:

* 模态对齐: 如何将不同模态的信息对齐到同一个语义空间?
* 因果推理: 如何让模型理解行动与结果之间的因果关系?
* 安全性: 如何保证模型在复杂环境下的安全性?

从VLM到VLA,就像是从“读懂剧本”到“亲自上台演戏”。光理解是不够的,还得演得像,演得好,不出错。 我认为强化学习在VLA中会扮演更重要的角色,因为它可以让模型在与环境的交互中学习,不断优化自己的行动策略。 但同时,也需要解决强化学习中 reward shaping、exploration-exploitation dilemma 等问题。