ICRA 2025:清华团队提出 AVD2 事故视频生成与描述框架,助力自动驾驶安全

清华团队提出AVD2框架,通过生成事故视频并进行分析,提升自动驾驶对事故场景的理解和预防能力。

原文标题:ICRA 2025|清华x光轮:自驾世界模型生成和理解事故场景

原文作者:机器之心

冷月清谈:

清华大学联合多所高校及光轮智能提出了 AVD2(Accident Video Diffusion for Accident Video Description)框架,旨在提升自动驾驶系统对事故场景的理解和预防能力。该框架通过生成与自然语言描述一致的事故视频,并结合事故原因分析和预防建议,增强了对事故场景的建模能力。AVD2 主要包含视频生成和事故分析两部分。视频生成部分基于 Open-Sora 1.2 模型,经过两阶段微调,可根据事故描述生成逼真的交通事故视频,并使用 RRDBNet 模型进行超分辨率处理以提高视频质量。事故分析部分则结合视频理解和自然语言处理技术,生成车辆行为描述和原因解释(如何规避),并通过多任务学习方法联合训练行为描述、事故原因理解和预防措施任务。此外,团队还构建了 EMM-AU 数据集,为事故分析和预防研究提供支持。实验结果表明,AVD2 在多个指标上优于现有方法,尤其是在描述的准确性和解释的全面性方面。

怜星夜思:

1、AVD2 生成的事故视频逼真度如何?能否应对各种复杂场景,比如雨雪天气、光线不足等?
2、AVD2 的事故分析功能如何评估?除了文章中提到的指标,还有什么其他评价标准?
3、AVD2 未来有哪些应用前景?除了自动驾驶,还能应用于哪些领域?

原文内容

图片
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected][email protected]

近年来,自动驾驶技术快速发展,萝卜快跑已经无缝融入了武汉的交通,不少车企的智驾系统也都上路了。

然而,在复杂交通环境中,如何理解和预防事故仍然是一个巨大挑战。比如前段时间特斯拉 FSD 终于入华。但中国版 FSD 似乎有些「水土不服」,频繁闯红灯、开上人行道、逆行,被网友调侃为「美国司机直接来中国开车」。

同时,现有的方法往往难以准确解释事故发生的原因,并缺乏有效的预防策略。此外,由于事故数据较为稀缺,自动驾驶系统在面对突发情况时往往难以作出合理决策。

为了解决这一问题,光轮智能(Lightwheel)和来自来自清华、香港科技大学、吉林大学、南京理工大学、北京理工大学、复旦大学等的研究团队,提出了AVD2(Accident Video Diffusion for Accident Video Description),提高行业的自动驾驶事故场景的安全能力。

AVD2 是一个创新的事故视频生成与描述框架,旨在提升自动驾驶系统对事故场景的理解。通过生成与自然语言描述和推理高度一致的事故视频,AVD2 增强了对事故场景的建模能力。

同时,该团队还贡献了 EMM-AU(Enhanced Multi-Modal Accident Video Understanding)数据集,以推动事故分析和预防的研究。


  • 项目主页链接:https://an-answer-tree.github.io/

  • 论文链接:https://arxiv.org/abs/2502.14801

  • EMM-AU 数据集链接:https://huggingface.co/datasets/secsecret/EMM-AU/blob/main/Processed_EMM-AU_Dataset.zip

  • 代码链接:https://github.com/An-Answer-tree/AVD2



模型架构

AVD2 框架包含两个主要部分:视频生成和事故分析。通过生成与事故描述一致的高质量视频,并结合自然语言解释,AVD2 能够更深入地理解事故场景。

视频生成

AVD2 的视频生成部分旨在基于输入的事故描述生成具有现实感的交通事故视频。该部分使用了 Open-Sora 1.2 模型,并通过两个阶段的微调来优化模型:

1. 第一阶段 Finetune:基于 MM-AU 数据集 对 Open-Sora 1.2 模型进行预训练,生成与事故场景相关的视频。

2. 第二阶段 Finetune:利用选取的 2,000 个详细事故场景视频进一步微调模型,以确保生成的视频与真实事故场景高度一致。

通过这一过程,AVD2 能够根据描述生成多个具有高保真度的事故视频,用于进一步的事故理解和分析。

  • 生成视频的增强

为了提高视频质量,AVD2 框架采用 RRDBNet 模型,在 Real-ESRGAN 框架下进行超分辨率处理。每个生成的低分辨率视频帧都被提升到更高的分辨率,以增强细节并减少伪影,从而为后续的分析提供高质量的视频数据。

事故分析

AVD2 的事故分析部分结合了视频理解与自然语言处理技术,主要包括两个任务:

  • 车辆行为描述和原因分析(如何规避)

AVD2 生成两个自然语言描述:

1. 车辆行为描述:基于输入的视频,生成描述车辆动作的句子(例如:“车辆右转”)。

2. 原因解释:解释为什么车辆执行这一动作(例如:“因为前方交通信号灯变绿”)。同时进一步给出如何规避事故的发生(例如:“转弯前应环顾四周注意直行车辆”)。

这两个任务共同协作,利用 Vision-Language Transformer(视觉 - 语言 Transformer)来进行多任务学习。模型同时学习生成描述与推理任务,增强了两者之间的关联性,从而提高了整体性能。

  • 多任务学习与文本生成

多任务学习方法使得 AVD2 能够联合训练行为描述任务和事故原因理解任务,以及预防措施任务。

通过这种方式,AVD2 在生成的事故视频基础上,结合视觉特征与文本特征进行分析,不仅可以描述事故发生的过程,还能为事故的预防提供有价值的建议。

AVD2 的整体架构
 
在图中,输入视频通过 SwinBERT 进行处理,生成视频特征,随后这些特征被输入到不同的任务模块中进行预测和描述生成。同时,SCST(自我批判序列训练)机制被用来优化生成文本的质量。

生成与分析模块的协同工作

AVD2 框架中的生成模块与分析模块紧密配合,生成的事故视频不仅为自动驾驶系统提供了训练数据,还为系统提供了关于事故行为的详细解释和原因分析。两者结合,大大提升了系统的透明度和可解释性。

实验结果

该团队通过多种机器评测指标(如 BLEU、METEOR、CIDEr 等)对 AVD2 进行了评估,并与现有的先进方法进行了对比。

以下是 AVD2 与 ADAPT 框架 (Jin et al., 2023) 在描述任务与解释和预防任务上的比较结果:(MM-AU 为原始数据集 (Fang et al., 2024),EMM-AU 为该团队结合生成的事故数据集新提出的数据集,SR 为经过超分处理后的数据集)


如上所示,AVD2 在所有评测指标上优于 ADAPT,尤其是在 CIDEr 指标上,AVD2 在动作描述和原因解释(预防措施)两个方面都表现出了更好的性能。

可视化结果

以下是 AVD2 对事故场景的可视化结果,在此展示两个不同的事故视频及对视频的分析:

第一张图示例:车辆变道未打转向灯,未给优先通行车辆让路,导致了潜在的碰撞风险。

 二张图示例:由于过快的车速,刹车距离不足,造成了跟车过近的危险情况。

未来,该团队将计划进一步优化 AVD2 框架,并将此新技术通过光轮智能的端到端自动驾驶应用于客户的上车训练评测中,以促进自动驾驶技术的安全在产业界真正落地。

参考文献:
[Atakishiyev et al., 2023](https://doi.org/10.1109/IT)
[Jin et al., 2023](https://doi.org/10.1109/ICRA.2023.654567)
[Fang et al., 2024](https://arxiv.org/abs/2403.00436)

© THE END 
转载请联系本公众号获得授权
投稿或寻求报道:[email protected]

还可以结合实际应用场景进行评估,看看 AVD2 能否帮助自动驾驶系统有效避免事故发生。毕竟最终目的是为了提高安全性,而不是单纯追求指标上的好看。

我觉得逼真度应该和训练数据有关,如果 EMM-AU 数据集里包含了各种复杂场景的数据,那么生成的视频就更可能覆盖这些场景。不过,实际情况还得看后续的测试结果。

除了自动驾驶,我觉得 AVD2 还可以应用于驾驶员培训、交通事故分析等领域,提供更直观的案例分析和安全教育。

就算生成的视频很逼真,也只是一种模拟。现实中的情况千变万化,AVD2 能否准确捕捉所有细节并生成完全符合实际的视频,我觉得还需要打个问号。

如果 AVD2 的事故分析功能足够强大,或许还可以用于保险理赔等领域,提供更科学的事故责任认定依据。

AVD2 的视频生成技术也可以应用于其他领域,比如虚拟现实、游戏开发等,创造更逼真的场景和体验。

文章提到了 BLEU、METEOR、CIDEr 等指标,这些都是常用的机器翻译评价指标,可以用来评估文本生成的质量。但对于事故分析这种复杂任务,可能还需要考虑其他指标,比如分析的准确性、解释的合理性等。

我觉得可以考虑引入人工评估,比如请专家对 AVD2 生成的分析结果进行评分,这样可以更全面地评价其性能。

关于 AVD2 生成视频的逼真度,文章中提到了使用 RRDBNet 模型进行超分辨率处理,增强细节并减少伪影,看起来效果应该不错。但能否应对雨雪天气、光线不足等复杂场景,文章似乎没有明确说明,可能需要进一步研究。