北航开源TinyLLaVA-Video-R1:小模型也能在视频问答中实现突破

北航开源TinyLLaVA-Video-R1,展示了小尺寸模型在视频问答中通过强化学习实现性能突破的潜力,并复现了“Aha Moment”。

原文标题:北航推出全开源TinyLLaVA-Video-R1,小尺寸模型在通用视频问答数据上也能复现Aha Moment!

原文作者:机器之心

冷月清谈:

北京航空航天大学的研究团队开源了小尺寸视频推理模型TinyLLaVA-Video-R1,该模型基于Qwen2.5-3B和SigLIP,仅有3.6B参数。研究表明,在通用问答数据集上使用强化学习能有效提升小尺寸模型的性能。TinyLLaVA-Video-R1通过引入少量人工标注的CoT数据进行冷启动,并结合长度奖励、答案错误惩罚以及为GRPO的优势计算引入微小噪声等方法,在多个benchmark上超越了使用相同数据进行监督微调的模型。此外,该模型还能在训练和测试中展现自我反思与回溯行为,为资源有限的研究者提供了一个有价值的平台。

怜星夜思:

1、TinyLLaVA-Video-R1 仅使用了 3.6B 的参数,就能在某些 benchmark 上超越 7B+ 的模型,你认为这种小模型超越大模型的关键因素是什么?
2、文章中提到 TinyLLaVA-Video-R1 在训练过程中能够复现“Aha Moment”,你认为这种自我反思和回溯能力对于视频推理模型来说有什么意义?
3、研究团队提到未来将引入高质量视频推理数据与强化学习算法改进,你认为在视频推理领域,高质量的数据应该具备哪些特点?

原文内容


当前,基于强化学习提升多模态模型的推理能力已经取得一定的进展。但大多研究者们选择 7B+ 的模型作为基座,这对于许多资源有限的科研人员而言仍存在显著的门槛。


同时,在视频推理领域,由于高质量强推理性数据较为稀少,通用问答数据较难激发模型的深层次逻辑推理能力,因此先前一些初步尝试的效果大多不尽如人意。


近日,北京航空航天大学的研究团队推出小尺寸视频推理模型 TinyLLaVA-Video-R1,其模型权重、代码以及训练数据全部开源!


该工作验证了小尺寸模型在通用问答数据集上进行强化学习也能有不错的效果,与使用相同数据进行监督微调的模型相比,TinyLLaVA-Video-R1 在多个 benchmark 上都有性能提升。同时,模型还能在训练与测试的过程中多次展现自我反思与回溯行为!



  • 论文标题:TinyLLaVA-Video-R1: Towards Smaller LMMs for Video Reasoning

  • 论文地址:https://arxiv.org/abs/2504.09641

  • Github:https://github.com/ZhangXJ199/TinyLLaVA-Video-R1


在推特上,HuggingFace AK 也连续两次转发推荐了这篇文章:



为什么选择 TinyLLaVA-Video 作为 Base Model?


图表 1 TinyLLaVA-Video 整体框架

虽然现有的开源视频理解模型基座具有强大的理解与感知能力,但由于其训练数据不透明,使用开源视频数据进行后训练可能会引入不可控的变量,从而影响实验结果和结论的可靠性。


因此,北航团队选择训练过程完全可溯源的 TinyLLaVA-Video 作为 Base Model,该模型采用 Qwen2.5-3B 作为语言模型,SigLIP 作为视觉编码器。虽然 TinyLLaVA-Video 仅有 3.6B 的参数,且在预训练阶段为了控制训练时长并未使用大量数据,但其仍能在多个 Benchmark 上能够优于现有的多个 7B+ 模型。


TinyLLaVA-Video-R1 主要做了什么?


引入少量人工标注的高质量冷启动数据

该工作发现,受限于小尺寸模型的能力,当直接使用 TinyLLaVA-Video 作为基础模型,随着训练的进行,模型有一定的概率学会「偷懒」,所有的响应虽然符合格式要求,但并不给出思考过程,响应均为<think> </think> <answer> option </answer>,同时在 Qwen2-VL-2B 上进行实验也得到相似的实验现象。

而当使用人工标注的 16 条 CoT 数据为模型进行冷启动后,在实验的过程中就不再出现这样的现象,同时,模型也将更快学会遵守格式要求。因此该工作认为,冷启动对于小尺寸模型推理是必要的,即使是极少量的冷启动数据,对于稳定模型训练也是很有帮助的。


引入长度奖励与答案错误惩罚


现有的许多推理工作仅仅设置格式奖励而没有添加长度奖励,但受限于小尺寸语言模型的能力,在这种设置下进行训练并不会使模型的响应长度增加,甚至出现一点下降。


在引入连续长度奖励后,模型的响应长度在训练过程中显著增加,如图所示。然而在这种设置下,模型为了增加响应长度而进行了一些无意义的推理,这不仅没有提高性能,反而导致训练时间显著增加。



因此,TinyLLaVA-Video-R1 进一步将答案错误惩罚纳入总奖励,观察到模型响应的质量有所提升,并且在整个训练过程中输出长度和奖励也能够保持增长。


为 GRPO 的优势计算引入微小噪声

同时,TinyLLaVA-Video-R1 在实验中也观察到了优势消失的问题:当集合中的所有响应都是正确的,并且给予相同的奖励时,它们计算出的优势会消失到零。这一现象影响了策略更新,降低了样本效率。为了最大化对每个样本的利用,TinyLLaVA-Video-R1 在优势计算时引入了额外的高斯噪声图片,尽管这种噪声仅引起轻微的扰动,但它能够确保组内响应优势的多样性。

验结果



首先,TinyLLaVA-Video-R1 验证了使用强化学习能够明显提升模型性能,与使用相同数据进行监督微调的 TinyLLaVA-Video-SFT 相比,TinyLLaVA-Video-R1 在多个 benchmark 中均有更佳的表现。



同时,TinyLLaVA-Video-R1 能够理解和分析视频内容,逐步评估每个选项,并最终给出答案。与仅输出最终答案的模型相比,该模型能够生成有意义的思考过程,使其回答更加可解释且有价值。这也是视频推理模型相对于传统视频理解模型的重要提升与优势。



与其他使用强化学习提升模型推理能力的工作相似,北航团队也在 TinyLLaVA-Video-R1 上复现了「Aha Moment」,即模型在思考的过程中引发紧急验证等行为。实验结果也验证了,即使使用弱推理的通用视频数据对小尺寸模型进行训练,也能够引发模型的回溯与自我反思。


后续,北航团队也将进一步研究小尺寸视频推理模型,未来工作将包括引入高质量视频推理数据与强化学习算法改进。


同时,TinyLLaVA 系列项目也始终致力于在有限计算资源下研究小尺寸模型的训练与设计空间,坚持完全开源原则,完整公开模型权重、源代码及训练数据,为资源有限的研究者们理解与探索多模态模型提供平台。


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

我认为"Aha Moment"对于视频推理模型意义重大,它意味着模型不再仅仅是机械地执行指令,而是具备了一定的认知能力。 具体来说:

1. 提高模型的可解释性: 通过观察模型的回溯和反思过程,我们可以更好地理解模型的推理逻辑,从而提高模型的可信度。
2. 增强模型的鲁棒性: 自我反思能够帮助模型发现并纠正错误,从而提高模型在复杂环境下的适应能力。
3. 提升模型的泛化能力: 通过模拟人类的思考过程,模型能够更好地理解视频内容,从而在未知的视频场景中表现出更好的泛化能力。

总的来说,“Aha Moment”是模型向智能迈进的重要一步。

我认为视频推理领域的高质量数据应该具备以下几个特点:

1. 复杂场景: 视频内容不应过于简单,需要包含丰富的场景元素、人物互动和事件发展,以考察模型的理解和推理能力。
2. 多模态信息关联: 数据需要包含视频、音频、文本等多模态信息,并且这些信息之间存在复杂的关联关系,考察模型的多模态融合能力。
3. 强逻辑推理需求: 需要设计一些需要进行深层次逻辑推理才能回答的问题,而不仅仅是简单的信息提取。
4. 明确的标注和解释: 数据需要有准确的标注,并且对于标注的原因和推理过程进行解释,以便模型学习。
5. 多样性和覆盖性: 数据需要覆盖不同的场景、主题和视角,以保证模型的泛化能力。

总的来说,高质量的视频推理数据应该能够充分考察模型在复杂环境下的理解、推理和判断能力。

高质量的视频推理数据就像是一部引人入胜的电影,需要有跌宕起伏的剧情、鲜明的人物形象和出人意料的转折。更重要的是,它需要引导模型去思考“为什么”,而不是简单地回答“是什么”。这包括:

* 因果关系: 事件之间的因果联系是否明确?
* 时间顺序: 事件发生的先后顺序是否清晰?
* 人物动机: 人物的行为是否符合逻辑?

只有当模型能够理解这些深层次的信息,才能真正实现视频推理。

“Aha Moment”就像是模型突然灵光一现,找到了解决问题的关键。这种能力让模型不仅仅是被动地接收信息,而是能够主动地思考和探索。对于视频推理模型来说,这意味着它能够更深入地理解视频内容,从而做出更准确的判断。它能够帮助模型在遇到困难时回头检查自己的思路,从而避免错误的结论,就像我们人类在解决问题时会进行反思一样。

我觉得吧,高质量的视频推理数据,就像是给 AI 上了一堂生动的“情商课”。它不仅仅要包含视觉信息,还要包含情感、意图和社交互动。比如,一个眼神、一个微笑,都可能传递重要的信息。只有当 AI 能够理解这些微妙的情感信号,才能真正理解人类的行为。

当然,这只是我的一个想法,要实现起来可能还很困难。但我觉得这是未来视频推理数据发展的一个重要方向。

我认为这主要归功于以下几点:

1. 模型架构的优化选择: TinyLLaVA-Video-R1 选择了 Qwen2.5-3B 作为语言模型,SigLIP 作为视觉编码器,可能这两个组件在效率和性能上达到了很好的平衡,使得小模型也能发挥出更大的潜力。
2. 训练策略的精细化设计: 引入人工标注的冷启动数据、长度奖励、错误惩罚以及优势计算噪声等策略,共同提升了模型的训练效果和泛化能力。
3. 数据质量的重要性: 虽然数据量不大,但数据质量高,针对性强,能够有效激发小模型的推理能力。

当然,Benchmark 的选择也很重要,可能 TinyLLaVA-Video-R1 在某些特定类型的视频推理任务上更具优势。