FAR:基于长短时上下文的自回归视频生成模型,实现短视频和长视频预测SOTA

NUS团队提出FAR模型,解决长上下文视频生成难题。采用长短时上下文建模和多层KV Cache机制,实现短视频、长视频预测SOTA,代码已开源。

原文标题:迈向长上下文视频生成!NUS团队新作FAR同时实现短视频和长视频预测SOTA,代码已开源

原文作者:机器之心

冷月清谈:

新加坡国立大学ShowLab团队提出了名为FAR的帧自回归模型,旨在解决长上下文视频生成中的挑战。该模型通过区分长视频生成和长上下文视频生成,着重于利用历史上下文信息,确保长时序一致性。FAR采用长短时上下文建模,使用非对称的patchify策略,减少视觉token数量,提高计算效率。此外,多层KV Cache机制进一步提升了长视频生成的效率。实验结果表明,FAR在短视频生成方面收敛速度更快、性能更优,在长视频建模中实现了显著的长时序一致性,并在world modeling场景中展现出出色的长期记忆效果。

怜星夜思:

1、FAR模型中提到的“长上下文视频生成”与“长视频生成”的区别是什么?为什么强调前者更重要?
2、文章中提到FAR模型在world modeling场景中实现了近乎完美的长期记忆效果,这对未来的游戏AI或者机器人技术有什么潜在的应用价值?
3、FAR模型通过长短时上下文建模来提高效率,这个思路在其他领域有没有借鉴意义?比如自然语言处理或者推荐系统?

原文内容


本文由 NUS ShowLab 主导完成。第一作者顾宇超为新加坡国立大学 ShowLab@NUS 在读博士生,研究方向是视觉生成,在 CVPR、ICCV、NeurIPS 等国际顶级会议与期刊上发表多篇研究成果。第二作者毛维嘉为新加坡国立大学 ShowLab@NUS 二博士生,研究方向是多模态理解和生成,项目负责作者为该校校长青年教授寿政。



  • 论文标题:Long-Context Autoregressive Video Modeling with Next-Frame Prediction

  • 论文链接:https://arxiv.org/abs/2503.19325

  • 项目主页:https://farlongctx.github.io/

  • 开源代码:https://github.com/showlab/FAR


背景:长上下文视频生成的挑战


目前的视频生成技术大多是在短视频数据上训练,推理时则通过滑动窗口等策略,逐步扩展生成的视频长度。然而,这种方式无法充分利用视频的长时上下文信息,容易导致生成内容在时序上出现潜在的不一致性


解决这一问题的关键在于:高效地对长视频进行训练。但传统的自回归视频建模面临严重的计算挑战 —— 随着视频长度的增加,token 数量呈爆炸式增长。 视觉 token 相较于语言 token 更为冗余,使得长下文视频生成比长上下文语言生成更为困难。


本文针对这一核心挑战,首次系统性地研究了如何高效建模长上下文视频生成,并提出了相应的解决方案。


我们特别区分了两个关键概念:


  • 长视频生成:目标是生成较长的视频,但不一定要求模型持续利用已生成的内容,因此缺乏长时序的一致性。这类方法通常仍在短视频上训练,通过滑动窗口等方式延长生成长度。

  • 长上下文视频生成:不仅要求视频更长,还要持续利用历史上下文信息,确保长时序一致性。这类方法需要在长视频数据上进行训练,对视频生成建模能力提出更高要求。


长上下文视频生成的重要性:


最近的工作 Genie2 [1] 将视频生成用于 world modeling /game simulation 的场景中,展现出非常令人惊艳的潜力。然而,现有基于滑窗的生成方法通常缺乏记忆机制,无法有效理解、记住并重用在 3D 环境中探索过的信息,比如 OASIS [2]。这种缺乏记忆性的建模方式,不仅影响生成效果,还可能导致对物理规律建模能力的缺失。这可能正是当前长视频生成中常出现非物理现象的原因之一:模型本身并未在大量长视频上训练,i2v(image-to-video)+ 滑动窗口的方式难以确保全局合理性。


FAR 的创新设计与分析


1)帧自回归模型(FAR)


FAR 将视频生成任务重新定义为基于已有上下文逐帧(图像)生成的过程。为解决混合自回归与扩散模型在训练与测试阶段存在的上下文不一致问题,我们在训练过程中随机引入干净的上下文信息,从而提升模型测试时对利用干净上下文的稳定性。


FAR 的训练测试流程;测试时对干净上下文的生成结果。


2) 长短时上下文建模


我们观察到,随着上下文帧数量的增加,视频生成中会出现视觉 token 数量急剧增长的问题。然而,视觉 token 在时序上具有局部性:对于当前解码帧,其邻近帧需要更细粒度的时序交互,而远离的帧通常仅需作为记忆存在,无需深入的时序交互。基于这一观察,我们提出了 长短时上下文建模。该机制采用非对称的 patchify 策略:短时上下文保留原有的 patchify 策略,以保证细粒度交互;而长时上下文则进行更为激进的 patchify,减少 token 数量,从而在保证计算效率的同时,维持时序模拟的质量。


FAR 的长视频训练测试流程


长短时上下文的非对称 patchify 带来的 token 减少以及训练效率提升


3) 用于长上下文视频生成的多层 KV Cache 机制


针对长短时上下文的非对称 patchify 策略,我们提出了相应的多层 KV-Cache 机制。在自回归解码过程中,当某一帧刚离开短时上下文窗口时,我们将其编码为低粒度的 L2 Cache(少量 token);同时,更新仍处于短时窗口内帧的 L1 Cache(常规 token)。最终,我们结合这两级 KV Cache,用于当前帧的生成过程。


值得强调的是,多层 KV Cache 与扩散模型中常用的 Timestep Cache 是互补的:前者沿时间序列方向缓存 KV 信息,后者则在扩散时间步维度上进行缓存,共同提升生成效率。


针对长短时上下文策略的多层 KV Cache


长视频生成的效率提升


FAR 相对于 SORA 类 VideoDiT 的潜在优势


1)收敛效率:在相同的连续潜空间上进行实验时,我们发现 FAR 相较于 Video DiT 展现出更快的收敛速度以及更优的短视频生成性能。           


FAR 与 Video DiT 的收敛对比


2)无需额外的 I2V 微调:FAR 无需针对图像到视频(I2V)任务进行额外微调,即可同时建模视频生成与图像到视频的预测任务,并在两者上均达到 SOTA 水平。


条件 / 非条件视频生成的评测结果


基于条件帧的视频预测的评测结果


3)高效的长视频训练与长上下文建模能力:FAR 支持高效的长视频训练以及对长上下文建模。在基于 DMLab 的受控环境中进行实验时,我们观察到模型对已观测的 3D 环境具有出色的记忆能力,在后续帧预测任务中首次实现了近乎完美的长期记忆效果。




总结


我们首次系统性地验证了长上下文建模在视频生成中的重要性,并提出了一个基于长短时上下文的帧自回归模型 ——FAR。FAR 不仅在短视频生成任务中,相较于 Video DiT 展现出更快的收敛速度与更优性能,同时也在长视频的 world modeling 场景中,首次实现了显著的长时序一致性。此外,FAR 有效降低了长视频生成的训练成本。在当前文本数据趋于枯竭的背景下,FAR 为高效利用现有海量长视频数据进行生成式建模,提供了一条具有潜力的全新路径。


参考文献:

【1】Genie 2: https://deepmind.google/discover/blog/genie-2-a-large-scale-foundation-world-model/

【2】Oasis: https://oasis-model.github.io/


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

简单来说,长视频生成就像是“快放”,而长上下文视频生成更像是“精放”。快放只是单纯的播放,内容上没有啥逻辑联系。精放不仅播放了,而且前后内容会联动。在模型训练层面,长上下文视频生成能够帮助模型学习到环境的物理规律,这对于模拟真实世界至关重要。

长上下文视频生成更侧重于理解和记忆,想象一下,让你描述昨天一天的经历,和描述上周一上午发生的事情,哪个需要更好的记忆力?长上下文视频生成就是要让模型记住更长时间发生的事情,并且能够合理的利用这些信息,确保视频的整体连贯性。

长上下文视频生成更强调对历史信息的记忆和利用,要保证长时间的一致性,所以它需要在长视频数据上训练,这对于模型本身的要求更高。而长视频生成可能只是把短视频拼接起来,无法保证视频整体的合理性。就像写小说,长篇小说需要前后呼应,伏笔和呼应,而把短篇小说堆积起来只能说是合集。

长期记忆效果意味着模型可以更好地理解和预测环境的变化。这对于游戏AI来说,意味着更智能的决策和更真实的世界模拟;对于机器人技术而言,则意味着更强的环境适应性和更高效的自主行为能力。想象一下《西部世界》里的场景,感觉不远了。

这玩意儿如果真的靠谱,那以后游戏里的AI NPC就厉害了!想想看,NPC能记住你之前做过的所有事情,并且根据你的行为做出更真实的反应,甚至会记仇!这可比现在那些只会套路对话的NPC有趣多了。

推荐系统也可以借鉴这种思路。用户最近的行为可以作为“短时上下文”,进行精细化分析,预测用户接下来最可能感兴趣的商品。而用户过去较久远的行为可以作为“长时上下文”,用于挖掘用户的长期兴趣和偏好,两者结合,就能做出更精准的推荐。

我觉得这个思路在自然语言处理中肯定有借鉴意义!比如,处理长文本时,可以对近期的词语进行更细致的分析,而对较早的词语进行更粗略的记忆,这样能提高处理效率,同时捕捉到关键信息。

在机器人领域,如果机器人能够记住并理解它在环境中交互的历史,就能更好地完成复杂任务。例如,在仓库中,机器人可以记住货物的位置和搬运路线,从而更高效地完成拣货任务。这绝对是机器人走向智能化的重要一步!

本质上,这是一种资源分配的优化策略。在任何需要处理序列数据的任务中,都可以考虑根据数据的时间距离或重要性,采用不同的处理粒度。例如,在金融风控中,可以对近期的交易数据进行更严格的监控,而对较早的数据进行定期回顾,从而及时发现潜在的风险。