字节跳动发布升级版视频理解大模型「眼镜猴」Tarsier2

字节跳动发布升级版视频理解大模型Tarsier2,在视频描述和问答等任务上表现出色,超越现有开源和部分闭源模型。

原文标题:年末重磅!ByteDance Research视频理解大模型「眼镜猴」正式发布

原文作者:机器之心

冷月清谈:

字节跳动研究团队最新发布了第二代视频理解大模型——眼镜猴(Tarsier2),该模型在视频描述、问答等任务上取得了显著提升,甚至超越了部分闭源模型。Tarsier2是一个7B大小的轻量级模型,支持动态分辨率,可以理解长达几十分钟的视频,尤其擅长处理几十秒的短视频。其核心优势在于预训练和后训练阶段的优化:预训练阶段使用了4000万个互联网视频-文本数据,并通过分镜、过滤、合并等步骤筛选高质量数据;后训练阶段则包括SFT和DPO两个步骤,SFT阶段使用带有子事件定位信息的数据进行训练,DPO阶段则采用自动化构造的正负样本进行训练,以提高描述的准确性和完整性,减少幻觉。Tarsier2在19个视频理解公开基准上进行了测试,并在多个榜单上取得了SOTA成绩,超越了同规模的开源模型以及一些闭源模型。除了通用视频理解任务,Tarsier2还在机器人、智能驾驶等下游任务中展现出强大的泛化能力。

怜星夜思:

1、Tarsier2 模型相比其他视频理解模型,最大的优势是什么?除了文章中提到的,还有什么潜在的应用场景?
2、Tarsier2 模型是如何处理长视频的?它对长视频的理解能力如何?
3、Tarsier2 模型的开源对视频理解领域的研究和应用会带来哪些影响?

原文内容

机器之心发布
机器之心编辑部


最近,ByteDance Research 的视频理解大模型眼镜猴(Tarsier) 迎来了巨大更新,发布了第二代模型 Tarsier2 及相关技术报告。研究团队此前发布的 Tarsier-7B/34B 在视频描述领域已经是最强开源模型,仅次于闭源模型 Gemini-1.5-Pro 和 GPT-4o。那么这次新版 Tarsier2 又会带给我们什么样的惊喜呢?


直接上强度!来看看 Tarsier2 对下面这两个影视名场面的理解如何:


《燕子,没有你我怎么活》


《曹操盖饭》


可以看到,Tarsier2 不仅对于视频中人物动作捕捉得细致入微(如小岳岳追车、跪地,曹操盖饭、挥手),还可以充分结合视频中的字幕信息,从而进一步分析人物的动机 / 心理,理解人物关系和情节发展。


既然如此复杂的影视片段能够分析清楚,Tarsier 最擅长的视频描述任务自然也不在话下:


Tarsier2 视频描述效果合集


无论是真人还是动画、横屏还是竖屏、多场景还是多镜头,Tarsier2 总是能敏锐地捕捉视频中的核心视觉元素动态事件,使用简练的语言表述出来,并且很少产生幻觉。这么看来,Tarsier2 已经可以和 GPT-4o 扳一扳手腕了。


图片


“火眼金睛” 是怎么炼成的?


Tarsier2 是一个 7B 大小的轻量级模型,支持动态分辨率,能够看得懂长达几十分钟的视频,尤其擅长对几十秒的短视频片段进行分析。研究团队公开了详尽的技术报告,相关数据、代码和模型也在持续开源中:



  • 论文地址:https://arxiv.org/abs/2501.07888

  • 项目仓库:https://github.com/bytedance/tarsier

  • HuggingFace:https://huggingface.co/omni-research


Tarsier2 强大的视频理解能力主要得益于预训练后训练两个阶段的精益求精


预训练


Tarsier2 在 4000 万个互联网视频 - 文本数据上进行预训练。不同于文本模型只需要互联网上的单语语料就可训练,视频理解模型严重依赖高质量的视频 - 文本对齐数据。因此,如何大规模地获取对齐数据是模型训练的最大难点。团队主要通过以下两个途径来解决:


  • 数据收集方面:Tarsier2 海量收集互联网上的视频 - 文本数据。这些数据分布广泛,涵盖电影、电视剧、短视频等各种来源,涉及人机交互、自动驾驶等多个领域。值得一提的是,Tarsier2 筛选了一大批影视剧解说的视频。这些视频不仅能够帮助模型学会简单的动作、事件,还能辅助模型理解更高层次的情节信息。

  • 数据筛选方面:Tarsier2 设计了一套严谨的流程,来筛选高质量训练数据。每条数据都会经历 “分镜 → 过滤 → 合并” 3 个阶段。“分镜” 阶段,视频会被切分成多个单一镜头片段;“过滤” 阶段针对不同的数据使用不同的模型过滤低质数据,如过滤掉动态性太差的、文本和画面无关的等;“合并” 阶段再将剩下的相邻的视频片段合在一起,增加视频的复杂度。


后训练


后训练分为 SFT 和 DPO 两个阶段。


SFT:这一阶段,模型在人工标注的视频描述数据上进行训练。这个阶段的描述数据也是大有讲究。Tarsier2 提出在视频描述中引入针对每个子事件的具体定位信息(即明确每个事件源自哪些帧),以强化模型对时序信息与视觉特征的关注度,增强文本与视觉信号的对齐。


SFT数据样例


DPO:这一阶段,模型在自动化构造的正负样本上进行 DPO 训练。其中,正样来源于模型对原始视频的预测结果;负样本来源于模型对经过预先设计的随机扰动的视频的预测结果。这种直观高效的构造方式使得模型能够在描述视频时,“又准确又全面”,减少描述中存在的幻觉。


是骡子是马,牵出来溜溜!


俗话说,“光说不练假把式”,Tarsier2 在多达 19 个视频理解公开基准上进行了性能测试,和最新最强的 10+ 个开源模型(Qwen2-VL、InternVL2.5、LLaVA-Video 等)以及闭源模型(Gemini-1.5, GPT-4o)来了场 “硬碰硬”。


Tarsier2 在包括视频描述、短 / 长视频问答在内的通用视频理解任务上表现亮眼。在视频描述评测集 DREAM-1K 上,Tarsier2 相比 GPT-4o 提升 +2.8%,相比 Gemini-1.5-Pro 提升 +5.8%;在人工评估中,Tarsier2-7b 相比 GPT-4o 优势占比 +7.8%,相比 Gemini-1.5-Pro 优势占比 +12.3%。


视频描述质量人工评估结果


此外,Tarsier2 更是在 10+ 个视频理解公开榜单上,超越了 Qwen2-VL-7B、InternVL2.5-8B 等同规模的模型,取得了 SOTA 成绩:


Tarsier2在广泛的视频理解任务上树立了新的标杆

除了胜任各种通用视频理解任务,Tarsier2 作为基座模型在机器人、智能驾驶等下游任务场景中也展现出了极强的泛化能力。在机器人领域,Tarsier2 能为指定的任务生成详细的步骤指令。在智能驾驶方面,Tarsier2 也能够帮助车辆识别道路情况,并辅助进行决策。


机器人场景。


智能驾驶场景。


向更强的智能进发


Tarsier 在生成详细且准确的视频描述方面超越了现有的闭源和开源工作,更是在广泛的视频理解任务中树立了新的标杆。文本、语音、图片、视频多模态深度融合是当下人工智能发展的核心趋势与关键方向,Tarsier2 在这条道路上已经迈出了坚实的步伐。期待未来 Tarsier2 能在多模态融合的浪潮中持续领航,为人工智能的发展带来更多惊喜与突破 。





© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

我觉得对于长视频的处理,Tarsier2 应该会结合一些时序建模的技术,比如 Transformer-XL 或类似的结构,来捕捉长距离的依赖关系。至于理解能力,我觉得它应该可以捕捉到视频中的主要情节和关键信息,但对于一些细枝末节的处理可能还有待提高。

开源之后,各种基于 Tarsier2 的应用估计会层出不穷,比如更智能的视频剪辑工具、更精准的视频检索系统等等,想想就激动!

文中提到了 Tarsier2 支持动态分辨率,我猜可能是通过某种机制将长视频分割成多个短片段进行处理,然后再整合结果。至于对长视频的理解能力,文中没有详细说明,可能还需要更多测试数据来验证。

文章里提到的 SFT 和 DPO 训练方法,我觉得是它成功的关键,这能让模型的描述更准确,更全面。至于应用场景,我觉得可以用于医疗领域,比如分析手术视频,辅助医生进行诊断。

开源绝对是好事!这会降低研究门槛,让更多人参与到视频理解领域的研究中来,加速技术的进步。而且开源也能促进模型的改进,毕竟大家都可以贡献代码和数据。

我觉得Tarsier2 最大的优势在于它对视频理解的精细程度,它不仅能识别动作,还能理解人物动机、心理,甚至情节发展,这在之前的模型里比较少见。至于应用场景,我觉得可以考虑用在教育领域,比如分析学生的课堂表现,或者生成更具互动性的学习视频。

我感觉它处理长视频应该也像处理文本一样,分段处理,然后理解上下文,不过视频的上下文更复杂,可能需要更高级的算法。我觉得它的长视频理解能力应该还不错,毕竟它可以处理几十分钟的视频,但具体效果如何,还得看实际测试。

开源虽然好,但也需要注意一些潜在的风险,比如模型被滥用,生成一些有害的内容。所以,我觉得在开源的同时,也需要制定相应的规范和监管措施。

它在轻量级模型上的出色表现很吸引我。7B 的大小,却能处理长视频,还能保持高性能,这在实际应用中非常有价值,部署成本更低。我觉得它可以应用于体育赛事分析,比如自动生成比赛精彩集锦,或者分析运动员的技术动作。