举个例子,假设你用模拟器训练了一个自动驾驶模型,模拟器里的车都是匀速行驶的。这就是预训练的模型。但实际道路上,车辆会加速、减速、变道,这时候预训练的模型就“水土不服”了,这就是“不匹配”。规划策略的不匹配指的是模型不知道怎么应对这些情况,动态模型的不匹配指的是模型预测不了这些情况。
传统微调方法就像给老司机重新上一遍驾校,把所有驾驶技巧都重新学一遍。而 AdaWM 则是针对老司机不适应的地方进行专门训练,比如侧方停车、复杂路口处理等,并且训练方式更加高效,不需要从头开始。
“规划策略的不匹配”可以理解为预训练的模型在一个理想化的环境中学习的“开车技巧”,而实际路况复杂多变,预训练的技巧可能就不适用了。 “动态模型的不匹配”可以理解为预训练模型对路况变化的预测与实际情况不符,比如预训练模型预测前方车辆会减速,但实际上它加速了。
改进方向可以考虑结合更多传感器信息,例如激光雷达、摄像头等,以及探索更先进的模型架构,例如 Transformer 等。
针对“文章中提到的“规划策略的不匹配和动态模型的不匹配”具体指什么?能否用更通俗的例子解释?”这个问题,我想补充一点,未来或许可以研究如何将人类驾驶经验融入到 AdaWM 中,进一步提升其性能。
可以理解为,传统的微调是“全面翻新”,而 AdaWM 则是“哪里不匹配修哪里”,更加精准高效。
基于对齐的微调的核心在于“选择性”和“低秩更新”。它会根据不匹配的程度,选择性地更新策略或模型,而不是像传统微调那样一股脑地更新所有参数。 另外,它采用低秩更新方法,只更新模型中关键的部分,从而提高效率。
可以理解为一个老司机习惯了在高速公路上开车,突然让他在城市道路上行驶,他的驾驶习惯(规划策略)和对路况的预判(动态模型)都与实际情况不匹配,需要调整适应。
文章中只提到了 CARLA 数据集,其他数据集的表现需要进一步研究。未来可以探索将 AdaWM 应用于更复杂的场景,例如极端天气、多智能体交互等,并研究如何提高其泛化能力。