TRACE:利用因果事件建模增强视频大模型的时间定位能力

TRACE技术通过因果事件建模提升视频大模型时间定位能力,为长视频内容检索带来突破。

原文标题:TRACE:因果事件建模助力视频理解大模型的时间定位能力

原文作者:机器之心

冷月清谈:

香港中文大学(深圳)唐晓莹课题组联合腾讯 PCG 发布 TRACE 技术,旨在解决长视频内容检索中时间定位效率低下的问题。该技术通过因果事件建模,将视频理解大模型的输出拆解为「时间戳 - 显著性分数 - 文本描述」三元事件单元,构建视频的结构化表征,并通过因果推理链重构视频逻辑骨架。TRACE 采用自回归模型,并为时间和分数设计了专用 tokenizer,提高模型理解和生成时间戳的能力。实验结果表明,TRACE 在 zero-shot 和 fine-tune 任务中均取得了优于其他模型的成绩,尤其在 Youcook2 数据集上取得了 SOTA 效果。TRACE 的核心创新在于用因果事件建模和任务分治策略,为 AI 理解视频内容提供了一种新的途径。

怜星夜思:

1、TRACE模型中使用的“因果事件建模”具体是如何提升视频理解的?相比于传统的逐帧分析,这种方法有哪些优势和局限性?
2、TRACE模型中,时间和分数使用了专用的tokenizer,这种设计对模型性能有什么影响?如果不使用专用tokenizer,效果会差很多吗?
3、TRACE模型在zero-shot任务中表现出色,这意味着什么?在实际应用中,zero-shot能力有多重要?

原文内容


论文第一作者为香港中文大学(深圳)理工学院在读博士生郭永新,指导老师为通讯作者为香港中文大学(深圳)理工学院 / 人工智能学院助理教授唐晓莹,课题组研究方向包括大模型、联邦学习、充电智能优化与博弈等。


下班回家后你正深陷于一部两小时的综艺节目中,渴望找到那些让人捧腹的爆笑片段,却如同大海捞针。或者,在紧张刺激的足球赛中,你渴望捕捉到那决定性的绝杀瞬间,但传统 AI 视频处理技术效率低下,且模型缺乏泛化能力。为解决这些问题,香港中文大学(深圳)唐晓莹课题组联合腾讯 PCG 发布 TRACE 技术,通过因果事件建模为视频理解大模型提供精准的时间定位能力。




  • 文标题:TRACE: Temporal Grounding Video LLM via Causal Event Modeling

  • VTG-LLM: Integrating Timestamp Knowledge into Video LLMs for Enhanced Video Temporal Grounding

  • 论文地址:https://arxiv.org/pdf/2410.05643

  • https://arxiv.org/pdf/2405.13382

  • Github:https://github.com/gyxxyg/TRACE


一. 背景


在长视频内容检索的研究领域中,用户常面临时间线导航效率低下的困境。传统的视频检索方法采用逐帧分析的线性处理策略,如同逐帧查字典,效率低下且泛化能力差。而现有的多模态大模型,虽然泛化能力更强,但是效果仍然差强人意。


我们认为这背后的矛盾本质上源于视频理解大模型的输出依然使用自然语言建模,无法清晰准确地描述视频本身的结构。TRACE 的绝妙之处是给视频事件构建结构化表征,将每个模型的输出表示为一系列事件,进一步把每个事件拆成三元组「时间戳 - 显著性分数 - 文本描述」,通过因果推理链重构视频逻辑骨架。


TRACE 技术突破了传统方法的局限,不再依赖没有清晰结构的文字描述,而是通过事件级别的因果建模,显著提升了时序理解与定位精度,为视频内容检索实现了 “大海捞针”。


二. 方法


TRACE 方法引入了结构化建模创新:把视频理解大模型的输出拆解成「时间戳 - 显著性分数 - 文本描述」三元事件单元,实现因果事件建模 —— 通过视觉输入、文本指令和已有事件预测下一个事件


图片

I:文本指令,F:视频帧的输入,tk, sk 和 ck:时间戳、显著性分数和文本描述。


我们通过条件概率分解发现,因果事件建模可表示为自回归模型,具有特殊的 token 顺序。基于这一发现,我们提出了视频大模型 TRACE(Temporal grounding via Causal Event modeling)。而且,TRACE 还为时间和分数设计了专用的 tokenizer,就像给它们创建了特定的表征系统。这样,模型就能更准确地理解和生成时间戳和显著性分数了,并为每个任务设计不同的编码器和解码器头,解码器头能根据任务自动切换,从而提高整体性能和适应性。



针对时间和分数的特殊编码器


我们为时间和分数设计专用 tokenizer:时间用 6 位编码(例:[10.23, 125.37]→<0><0><1><0><.><2><sep><0><1><2><5><.><4><sync>),分数用 3 位编码(例:[4.5] →<4><.><5><sync>)。每个词库含 13个token,包括10个数字token以及三个特殊token:<.><sep><sync > ,通过组合实现精确数值表达。


通过切换 head 来生成不同的任务


在推理阶段,模型通过 < sync > 令牌切换任务专用解码器:依次生成时间→分数→描述,每个任务配备独立解码头。<sync > 出现时自动切换解码任务。



视频帧的特征编码


TRACE 使用 CLIP ViT-L 从每帧提取大量的原始 token,然后通过基于 slot 的 token 压缩方案将每一帧压缩为 8 个 token。这些精炼后的 token 既保留了关键视觉信息的完整性,又有效地将时间感知元素融入特征表征中。



训练策略和数据


模型 backbone 模型基于 Mistral-7B 架构,分两阶段训练:


  1. 第一阶段:训练视觉压缩模块 + 任务头(抽 128 帧,学习率 1e-3)

  2. 第二阶段:冻结上述模块,专注调 LLM 基座(同抽 128 帧,学习率 5e-6)



三. 评测


zero-shot


我们在三大 zero-shot 任务测试表现:


  1. Dense video caption:Youcook2

  2. Moment retrieval:Charades-STA

  3. Video highlight detection:QVHighlights



从表中可以看出,TRACE 模型都取得了 “碾压” 其他通用 video LLM 的效果,比 Temporal grouding LLM 有更大优势。


Ablation study


在 zero-shot 模式下,我们测试了 causal event modeling 和 independent encoder/heads 等关键模块在消融实验下的结果,如下表所示。



实验结果验证了我们提出的因果事件建模以及对时间 / 分数使用独立的编解码器的有效性。另外,从结果中我们还可以发现,随着采样帧数的增加,模型的效果随之增加。


Fine tune


在实验中,我们还比较了 TRACE 与其他模型在 finetune 之后的效果。



在评测中,TRACE 相比 TimeChat 等模型有了巨大的提升,在 Youcook2 数据集上取得了 SOTA 效果。无论是 zero-shot 任务还是 finetune 后的效果,TRACE 都取得了优于其他模型的成绩。


四.结语


总之,TRACE 用 “因果事件建模” 撕开了长视频的迷雾,以 “任务分治” 策略破解了效率与精度的不可能。它为 AI 理解视频的方式提供了一种新的可能 —— 不是囫囵吞枣,而是逻辑推演 。


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

我的理解是,对于模型来说,时间和分数这类数值数据,如果不特殊处理,可能就被当成普通的文本信息来处理了,会损失很多重要的信息。有了专用tokenizer,模型就能更精确地理解这些数值数据的含义,比如大小、范围等等。我觉得效果肯定会有影响,但具体影响多大,可能需要实际测试才能知道。

从学术角度来说,因果事件建模通过结构化表征视频内容,避免了传统方法依赖于没有清晰结构的文字描述的弊端。优势在于能够更精确地进行时序理解和定位,提高视频内容检索的准确性。局限性可能在于对事件的定义和提取依赖于模型的性能,如果模型对事件的理解出现偏差,会导致因果关系的错误推断,从而影响最终效果。此外,该方法可能更适用于事件驱动型视频,对于注重氛围和情感表达的视频,效果可能有限。

我觉得吧,这个专用tokenizer就像是给时间和分数穿上了定制的衣服,让模型能一眼认出它们,并且知道它们的重要性。如果不穿这身衣服,时间和分数可能就被淹没在其他信息里了,模型就很难准确地理解和处理它们了。效果肯定会差不少,毕竟专业的工具干专业的事嘛!

Zero-shot表现好,说明这个模型很聪明,没见过也能理解。就像一个学霸,没做过的题也能举一反三!实际应用中当然重要啦,这意味着我们不需要为每一种视频都准备大量的数据来训练模型,省时省力!

我觉得zero-shot能力就像是AI的快速学习能力,不用提前喂很多数据,就能直接上手干活。这在实际应用中非常重要,因为我们不可能收集到所有类型视频的数据,如果模型只能处理它见过的视频,那就太局限了。有了zero-shot能力,AI就能更好地适应各种各样的视频内容,应用范围也就更广了。

从机器学习的角度来看,zero-shot能力代表了模型的泛化能力,即模型在没有见过特定任务的训练数据的情况下,仍然能够完成该任务。这意味着模型具有更强的适应性和灵活性,可以应对各种不同的视频理解场景。在实际应用中,zero-shot能力可以大大降低模型的训练成本和部署难度,尤其是在数据稀缺或者任务类型繁多的情况下,zero-shot能力尤为重要。

我理解的因果事件建模,就是把一个长视频拆解成一个个小事件,然后分析这些事件之间的关系,有点像讲故事一样,知道发生了什么,为什么发生,以及接下来会发生什么。好处是电脑更容易理解视频的内容,定位关键信息也更快。但缺点也很明显,如果事件拆解得不好,或者事件之间的关系没搞清楚,那就可能完全误解视频的内容。

感觉因果事件建模有点像是在视频里提炼关键剧情节点,然后把这些节点按照时间顺序和逻辑关系串起来。传统的逐帧分析就像是看电影的每一帧画面,而TRACE就像是只看剧情简介和关键片段。优势在于大大减少了计算量,提高了效率,而且能更好地抓住视频的主线。局限性可能在于会忽略一些细节信息,对一些细节控来说可能不够过瘾。

从技术角度分析,专用tokenizer的设计旨在更好地表征时间和分数,提高模型对这些数值信息的敏感度。这种设计能够使模型更准确地理解和生成时间戳和显著性分数,从而提升时间定位的精度。如果不使用专用tokenizer,模型可能难以有效区分不同时间点和事件的重要性,导致性能下降。具体的性能差异可能需要通过消融实验进行量化分析。