北航开源轻量级视频理解模型TinyLLaVA-Video,性能超越部分7B模型

北航开源轻量级视频理解模型TinyLLaVA-Video,参数量小于4B,性能却优于一些7B模型,代码、模型和数据均开源。

原文标题:北航推出TinyLLaVA-Video,有限计算资源优于部分7B模型,代码、模型、训练数据全开源

原文作者:机器之心

冷月清谈:

北航团队推出了一款名为TinyLLaVA-Video的轻量级视频理解模型,该模型代码、模型权重以及训练数据全部开源。该模型采用精简的架构设计和相对较小的训练数据集,旨在降低计算资源需求,使资源有限的研究者也能进行视频理解研究。

TinyLLaVA-Video基于TinyLLaVA_Factory项目,沿用Vision Tower+Connector+LLM的框架结构,并采用两阶段训练策略(预训练对齐和监督微调)。其核心模块,如语言模型和视觉编码器,均使用开源模型,保证了实验的可复现性。模型通过一个简单的视频级Resampler作为Connector来对齐视觉和语言信息,从而减少输入到语言模型的Visual Token数量,支持灵活的视频采样策略。

虽然模型尺寸较小,但TinyLLaVA-Video在多个视频理解基准测试集上,例如MLVU和Video-MME,表现优于同等训练数据量下的7B参数量以上的模型。项目还进行了大量的实验,探索了不同配置对模型性能的影响,例如不同的语言模型、视觉编码器以及视频采样帧数等,为后续研究提供了参考。

怜星夜思:

1、TinyLLaVA-Video 使用简单的 Resampler 来处理长序列信息,相比其他更复杂的处理方式,这种简化会不会损失一些重要的视频细节信息?
2、TinyLLaVA-Video 的开源对于视频理解领域的研究有什么意义?除了降低门槛之外,还有什么其他潜在的影响?
3、文章提到 TinyLLaVA-Video 仍然具有组件化与可扩展性等优点,使用者可以根据自身需求进行定制与拓展研究。除了替换语言模型和视觉编码器外,还有哪些可以定制化的方向?

原文内容

图片

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected][email protected]

近年来,随着多模态大模型的崛起,视频理解技术取得了显著进展。但是目前主流的全开源视频理解多模态模型普遍具有 7B 以上的参数量,这些模型往往采用复杂的架构设计,并依赖于大规模训练数据集。受限于高昂的计算资源成本,模型训练与定制化开发对于资源有限的科研人员而言仍存在显著的门槛。


近日,北京航空航天大学的研究团队基于 TinyLLaVA_Factory 的原项目,推出小尺寸简易视频理解框架 TinyLLaVA-Video,其模型,代码以及训练数据全部开源。在计算资源需求显著降低的前提下,训练出的整体参数量不超过 4B 的模型在多个视频理解 benchmark 上优于现有的 7B + 模型。同时,由于 TinyLLaVA-Video 衍生自 Tinyllava_Factory 代码库,因此项目仍然具有组件化与可扩展性等优点,使用者可以根据自身需求进行定制与拓展研究。



  • 论文地址:https://arxiv.org/abs/2501.15513
  • Github 项目:https://github.com/ZhangXJ199/TinyLLaVA-Video

全开源项目,支持定制与拓展

区别于众多仅开源模型权重的项目,TinyLLaVA-Video 秉承了 TinyLLaVA_Factory 全面开源的理念。该项目不仅公开了完整的模型权重、训练代码和训练数据集,也延续了原有的模块化设计架构,研究人员可根据具体实验需求,灵活替换语言模型、视觉编码器等核心组件,并可自定义训练策略。这种开放性设计不仅降低了小规模研究团队进入视频理解研究领域的门槛,还为未来的轻量级视频理解模型的训练范式与架构创新探索提供了实验平台。


在模型架构方面,TinyLLaVA-Video 沿用 LLaVA 类多模态模型常见的 Vision Tower+Connector+LLM 框架,并同样保持预训练对齐与监督微调的两阶段训练策略。项目中采用的所有预训练模型组件均遵循开源协议,包括如 Qwen2.5-3B 等语言模型和 SigLIP 等视觉编码器此类核心模块,确保了实验的可复现性,为研究者提供了可靠的基准参考。同时,研究人员可以方便地替换模型组件,更改训练策略,定制符合自身需求的视频理解模型。

在训练数据方面,TinyLLaVA-Video 基于开源的 LLaVA-Video-178K 和 Valley 数据集进行实验。同时,为进一步精简数据集,提高训练数据的质量并控制计算资源成本,项目对训练数据进行了多步筛选与过滤,最终得到 397k 的预训练数据与 491k 的监督微调数据。这使得研究者即便仅具备有限的计算资源,也能在合理的训练时间内复现实验结果并开展进一步研究。经过处理的数据标注信息(annotation)也已经完整公开于 HuggingFace 平台,这也为后续研究提供了高质量的数据基础。

小尺寸简易框架,依然保持高性能

以往的视频理解方法受限于语言模型的输入长度限制,往往面临两难选择:要么通过设计复杂的模型架构来处理长序列信息,要么牺牲视频信息的完整性而限制采样帧数。因此,如何处理长时序视觉序列,并平衡计算资源与性能之间的矛盾,成为轻量级视频理解模型亟待解决的问题。

为在保持模型结构轻量化的同时解决长序列信息处理的问题,TinyLLaVA-Video 对于经过 Vision Tower 处理后的整体视频序列,使用简单的视频级 Resampler 作为 Connector 来对齐视觉和语言,从而能极大地减少输入至语言模型的 Visual Token 的数量。这种处理方式可以使得模型支持灵活的视频采样策略,研究者可以根据视频类型与使用需求进行 fps 采样或均匀帧采样,设置不同的视频采样帧数。


虽然简化模型架构并控制训练数据的规模,但是 TinyLLaVA-Video 的表现依然非常可观。实验结果表明,整体参数不超过 4B 的模型在包含 MLVU、Video-MME 在内的多个视频理解基准测试集上的表现优于同等训练数据量级下的 7B + 模型,充分验证了该框架的有效性。


此外,该研究也进行了大量实验,系统性地探索了不同配置下的模型性能,包括选择不同的语言模型、视觉编码器以及采样不同的帧数等设置的影响(实验设置与结果详见技术报告)。这些实验结果揭示了在不同参数设定下,模型在视频理解任务中的表现,为研究者提供了优化模型结构的实证数据。这些探索不仅提升了 TinyLLaVA-Video 的适用性,也为后续研究提供了重要的参考依据。


TinyLLaVA-Video 的研究表明,小尺寸视频理解模型在计算成本有限的环境下仍具有广阔的发展空间。未来,计算资源有限的研究者们可以基于该工作,进一步优化模型结构和训练策略,以推动小尺寸视频理解模型的持续发展,为资源受限环境下的多模态研究提供更多可能性。

TinyLLaVA 系列项目始终致力于在有限计算资源下研究小尺寸模型的训练与设计空间,坚持完全开源原则,完整公开模型参数、源代码及训练数据。同时,项目采用模块化设计理念,确保项目的可拓展性,方便资源有限的研究者们通过实践来理解与探索多模态大模型。

© THE END 
转载请联系本公众号获得授权
投稿或寻求报道:[email protected]


我觉得TinyLLaVA-Video的开源意义重大。首先,它确实降低了研究门槛,让更多资源有限的研究者可以参与进来。其次,它提供了一个很好的基线模型,方便大家进行比较和改进。更重要的是,它的开源代码和数据可以促进社区的合作和交流,加速技术的进步。说不定以后还能衍生出更多有趣的项目。

我觉得一个重要的影响是,它可能会改变视频理解领域的研究范式。以前大家都在追求更大的模型和更多的数据,现在TinyLLaVA-Video证明了,小模型也能取得不错的效果。这可能会促使大家更多地关注模型效率和轻量化设计。

我觉得这个问题得看具体应用场景。如果只是需要理解视频的整体内容,那么损失一些细节信息可能是可以接受的。但如果需要对视频进行精细分析,比如动作识别或事件检测,那么这种简化就可能带来问题。我觉得未来可以针对不同类型的任务,研究更合适的 Connector 设计。

定制化方向很多啊!可以根据应用场景修改视频采样策略,比如针对动作密集的视频提高采样率。还可以尝试不同的数据增强方法,提高模型的鲁棒性。甚至可以修改模型的损失函数,针对特定任务进行优化。

“使用者可以根据自身需求进行定制与拓展研究”,我觉得除了替换语言模型和视觉编码器,还可以尝试不同的 Connector 设计,比如更复杂的注意力机制或者图神经网络。还可以探索不同的训练策略,比如多任务学习或者自监督学习。另外,针对特定领域的视频数据进行微调也是一个很有潜力的方向。

关于这个问题,我的看法是,虽然 Resampler 简化了处理过程,但它必然会损失一部分时间上的细节信息。关键在于这种损失是否会显著影响最终的理解结果。TinyLLaVA-Video 的实验结果似乎表明,至少在某些 benchmark 上,这种损失是可以接受的。当然,对于一些对时间细节敏感的任务,这种简化可能就不太适用了。

有没有可能这种简单的 Resampler 反而有助于模型学习更全局的特征表示?毕竟模型的容量有限,太关注细节反而容易过拟合。当然,这只是我的一个猜测,需要更多实验来验证。

我觉得可以考虑结合其他模态的信息,比如音频或者文本描述,构建更全面的视频理解模型。还可以研究更轻量化的视觉编码器,进一步降低计算成本。甚至可以探索模型压缩和量化技术,在不损失太多性能的前提下,进一步减小模型的体积。

开源能够推动创新!TinyLLaVA-Video 的开源可以让更多人参与到模型的改进和应用中,集思广益,说不定能发现一些之前被忽略的可能性。而且,开源也方便了商业应用的落地,可以促进相关产业的发展。