CarPlanner:基于一致性自回归的自动驾驶强化学习轨迹规划器

CarPlanner提出一种基于一致性自回归的自动驾驶强化学习轨迹规划器,在大规模数据集nuPlan上超越现有方法,提升训练效率和性能。

原文标题:【CVPR2025】CarPlanner: 一种用于自动驾驶大规模强化学习的一致性自回归轨迹规划

原文作者:数据派THU

冷月清谈:

CarPlanner是一种用于自动驾驶的新型轨迹规划器,它采用基于一致性的自回归结构,并利用强化学习(RL)生成多模态轨迹。该规划器旨在解决RL方法在训练效率和处理大规模现实驾驶场景方面所面临的挑战。CarPlanner通过自回归结构实现高效的大规模RL训练,并通过引入一致性来保持时间步之间的一致性,从而确保稳定的策略学习。此外,CarPlanner采用生成-选择框架,结合专家引导的奖励函数和不变视角模块,简化RL训练并提升策略性能。实验结果表明,CarPlanner在训练效率和性能提升方面表现出色,并在nuPlan数据集上超越了基于模仿学习和基于规则的现有方法。

怜星夜思:

1、CarPlanner中提到的“一致性”具体指的是什么?这种一致性对于自动驾驶的安全性有多重要?
2、文章提到CarPlanner在nuPlan数据集上超越了基于模仿学习(IL)和基于规则的方法,这意味着什么?未来RL在自动驾驶领域会完全取代这些传统方法吗?
3、CarPlanner采用了“生成-选择”框架,结合专家引导的奖励函数。 这种框架设计有什么优势? 如果让你来设计自动驾驶的奖励函数,你会考虑哪些因素?

原文内容

来源:专知

本文约1000字,建议阅读5分钟

在本文中,我们提出了CarPlanner,一种基于一致性的自回归规划器,利用RL生成多模态轨迹。


轨迹规划对于自动驾驶至关重要,确保在复杂环境中实现安全高效的导航。尽管最近基于学习的方法,特别是强化学习(RL),在特定场景中展现了潜力,但RL规划器在训练效率和处理大规模现实驾驶场景方面仍面临挑战。
在本文中,我们提出了CarPlanner,一种基于一致性的自回归规划器,利用RL生成多模态轨迹。自回归结构实现了高效的大规模RL训练,而一致性的引入通过保持时间步之间的一致性,确保了稳定的策略学习。此外,CarPlanner采用了一种生成-选择框架,结合专家引导的奖励函数和不变视角模块,简化了RL训练并提升了策略性能。
大量分析表明,我们提出的RL框架有效解决了训练效率和性能提升的挑战,使CarPlanner成为自动驾驶轨迹规划的有前景的解决方案。据我们所知,我们是首个证明基于RL的规划器能够在具有挑战性的大规模现实数据集nuPlan上超越基于模仿学习(IL)和基于规则的最先进方法(SOTAs)的研究。我们提出的CarPlanner在这一高要求数据集中超越了基于RL、IL和规则的SOTA方法。



关于我们

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。




新浪微博:@数据派THU

微信视频号:数据派THU

今日头条:数据派THU


超越IL和基于规则的方法,说明RL在复杂场景下的学习能力和泛化能力更强。以往的IL依赖大量人工标注数据,基于规则的方法难以覆盖所有情况。RL通过与环境交互,可以自主学习更优策略。但要完全取代传统方法,我认为还为时过早。RL的训练成本高,稳定性也有待提高。未来更可能是混合使用,例如用RL学习高层决策,用传统方法进行底层控制。

从技术角度来看, CarPlanner的“一致性” 应该是指在连续的时间步长上,车辆的状态(位置、速度、加速度等)变化需要符合物理规律和人类驾驶习惯。 想象一下,如果无人车突然从60km/h 急刹到0,再瞬间加速到80km/h,虽然技术上可能做得到,但完全不符合驾驶常理,也极其危险。 这种一致性不仅关乎安全,也影响着乘客的舒适度和信任感。 如果能用数学公式或者更严格的约束来量化这种一致性,对提升自动驾驶的可靠性会更有帮助。

这意味着强化学习终于在自动驾驶这个关键领域取得了实质性的突破! 之前大家都在说RL潜力无限,但实际落地效果却一直不如人意。 这次CarPlanner 证明了RL在大规模真实数据集上的有效性。 至于是否会完全取代传统方法,我觉得很难。 模仿学习和基于规则的方法在某些特定场景下依然有优势,效率也更高。 未来更可能是一种融合的趋势, 取长补短, 构建更鲁棒的自动驾驶系统。

一致性可能也指的是规划与实际执行的一致性。我们知道,规划出来的轨迹理想情况下应该被完美执行,但在现实中,车辆的控制系统、路面状况等因素都会影响执行效果。如果规划和执行之间存在较大偏差,自动驾驶系统就需要不断修正,甚至可能导致决策失误。所以,CarPlanner强调的一致性,或许也包含了提升规划轨迹的可执行性,尽量减少与实际执行的误差。

“生成-选择”框架相当于给自动驾驶系统提供了一个“草稿”功能,先尽可能多地尝试不同的方案,然后选择一个最合适的。“专家引导的奖励函数” 则像是请了一个经验丰富的教练来指导,避免走弯路。 如果让我设计奖励函数,我会这么考虑: 1. 安全第一! 碰撞是绝对不能发生的,必须设立最高的惩罚。 2. 遵守交规, 避免违章行为。 3. 效率也很重要, 尽快到达目的地可以节省时间和能源。 4. 乘客的舒适度也需要考虑, 尽量减少急加速、急刹车等不适感。 5. 最后, 还可以考虑一些“社会责任”因素,比如尽量选择对环境影响最小的路线。

奖励函数的设计简直就是灵魂拷问啊!我觉得可以参考游戏里的积分系统。 比如,安全驾驶是基础分,平稳驾驶是加分项,超车和炫技是风险分(搞不好会扣分)。更进一步,可以引入“社会贡献值”,比如主动避让行人、礼让其他车辆等等,鼓励自动驾驶系统做出更符合伦理道德的选择。 不过,这种奖励函数的设计需要非常谨慎,一不小心就可能引导算法走向奇怪的方向(比如为了刷分而做出危险动作)。

这个问题问得好!CarPlanner里的一致性,我的理解是车辆在不同时间步规划的轨迹应该尽量平滑,避免出现突兀的转向或者速度变化。这就像你开车,如果一会儿猛踩油门一会儿急刹车,乘客肯定不舒服,而且也容易出事故。自动驾驶也是一样,不一致的规划可能导致车辆行为无法预测,增加安全风险。我认为一致性是保证自动驾驶车辆行为可预测性和安全性的重要因素。

“生成-选择”框架的优势在于可以先生成多种可能的轨迹,再从中选择最优的。 专家引导的奖励函数可以加快学习速度,避免RL算法陷入局部最优。如果让我设计奖励函数,首先要保证安全,例如避免碰撞、遵守交通规则等。 其次要考虑效率,例如尽快到达目的地、减少不必要的变道等。 还可以加入舒适度指标,例如减少急加速、急刹车等,提升乘客体验。

个人感觉,与其说是取代,不如说是进化。传统方法就像是老司机,经验丰富,但遇到没见过的状况就抓瞎。RL 就像一个不断学习的新手,一开始可能笨手笨脚,但学得越多就越聪明。未来自动驾驶的发展方向,应该是让“老司机”和“新手”互相学习,共同进步,打造更安全、更智能的驾驶体验。说不定以后可以搞一个“老司机模式”和“AI驾驶模式”,让用户自己选择,岂不美哉?