AdaWM:一种基于自适应世界模型的自动驾驶规划方法

AdaWM 通过自适应世界模型解决自动驾驶规划中的预训练-微调性能下降问题,提升了自动驾驶系统性能。

原文标题:【ICLR2025】AdaWM:基于自适应世界模型的自动驾驶规划

原文作者:数据派THU

冷月清谈:

世界模型驱动的强化学习在自动驾驶规划中展现出巨大潜力,但预训练-微调范式中存在性能下降的问题。AdaWM 方法通过识别并解决规划策略和动态模型的不匹配问题来改进这一范式。具体来说,AdaWM 首先量化不匹配程度,然后根据需要选择性地更新策略或模型,并使用高效的低秩更新方法。在 CARLA 自动驾驶任务上的实验结果表明,AdaWM 显著提升了微调过程,实现了更强大和高效的自动驾驶性能。

怜星夜思:

1、文章中提到的“规划策略的不匹配和动态模型的不匹配”具体指什么?能否用更通俗的例子解释?
2、AdaWM 提出的“基于对齐的微调”是如何实现的?它与传统的微调方法有什么区别?
3、除了 CARLA 之外,AdaWM 在其他自动驾驶数据集上的表现如何?未来有哪些可以改进的方向?

原文内容

来源:专知

本文约1000字,建议阅读5分钟

在强化学习中简单地执行这种初始化可能会导致在新任务的在线交互过程中性能显著下降。


世界模型驱动的强化学习(RL)已成为自动驾驶领域一个有前景的方法,它通过学习潜在的动态模型,并利用该模型来训练规划策略。为了加速学习过程,通常采用预训练-微调范式,其中在线强化学习通过一个预训练的模型初始化,并且策略是在离线学习的。然而,在强化学习中简单地执行这种初始化可能会导致在新任务的在线交互过程中性能显著下降。为了解决这一挑战,我们首先分析了性能下降的原因,并识别出了其中的两个主要根本原因:规划策略的不匹配和动态模型的不匹配,这些问题源于分布变化。我们进一步分析了这些因素在微调过程中对性能下降的影响,研究结果表明,微调策略的选择在缓解这些影响方面起到了关键作用。接着,我们提出了AdaWM,一种基于自适应世界模型的规划方法,包含两个关键步骤:(a)不匹配识别,它量化了不匹配的程度并为微调策略提供指导;(b)基于对齐的微调,它根据需要选择性地更新策略或模型,并使用高效的低秩更新方法。通过在具有挑战性的CARLA自动驾驶任务上的大量实验,AdaWM显著改善了微调过程,从而在自动驾驶系统中实现了更强大且高效的性能。



关于我们

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。




新浪微博:@数据派THU

微信视频号:数据派THU

今日头条:数据派THU


举个例子,假设你用模拟器训练了一个自动驾驶模型,模拟器里的车都是匀速行驶的。这就是预训练的模型。但实际道路上,车辆会加速、减速、变道,这时候预训练的模型就“水土不服”了,这就是“不匹配”。规划策略的不匹配指的是模型不知道怎么应对这些情况,动态模型的不匹配指的是模型预测不了这些情况。

传统微调方法就像给老司机重新上一遍驾校,把所有驾驶技巧都重新学一遍。而 AdaWM 则是针对老司机不适应的地方进行专门训练,比如侧方停车、复杂路口处理等,并且训练方式更加高效,不需要从头开始。

“规划策略的不匹配”可以理解为预训练的模型在一个理想化的环境中学习的“开车技巧”,而实际路况复杂多变,预训练的技巧可能就不适用了。 “动态模型的不匹配”可以理解为预训练模型对路况变化的预测与实际情况不符,比如预训练模型预测前方车辆会减速,但实际上它加速了。

改进方向可以考虑结合更多传感器信息,例如激光雷达、摄像头等,以及探索更先进的模型架构,例如 Transformer 等。

针对“文章中提到的“规划策略的不匹配和动态模型的不匹配”具体指什么?能否用更通俗的例子解释?”这个问题,我想补充一点,未来或许可以研究如何将人类驾驶经验融入到 AdaWM 中,进一步提升其性能。

可以理解为,传统的微调是“全面翻新”,而 AdaWM 则是“哪里不匹配修哪里”,更加精准高效。

基于对齐的微调的核心在于“选择性”和“低秩更新”。它会根据不匹配的程度,选择性地更新策略或模型,而不是像传统微调那样一股脑地更新所有参数。 另外,它采用低秩更新方法,只更新模型中关键的部分,从而提高效率。

可以理解为一个老司机习惯了在高速公路上开车,突然让他在城市道路上行驶,他的驾驶习惯(规划策略)和对路况的预判(动态模型)都与实际情况不匹配,需要调整适应。

文章中只提到了 CARLA 数据集,其他数据集的表现需要进一步研究。未来可以探索将 AdaWM 应用于更复杂的场景,例如极端天气、多智能体交互等,并研究如何提高其泛化能力。