伯克利博士论文解读:利用视频生成学习世界知识

伯克利博士论文研究如何通过视频生成模型学习世界知识,并提出了高效的架构和下游应用方案。

原文标题:【伯克利博士论文】通过视频生成学习关于世界的知识

原文作者:数据派THU

冷月清谈:

这篇伯克利博士论文探讨了如何利用视频生成模型学习世界的知识。作者首先指出了视频数据高维度带来的计算瓶颈,并提出了一系列解决方案,例如VideoGPT、TECO和ElasticTok等更高效的视频生成架构,以降低计算成本并扩展到更长视频序列。论文还探讨了如何将视频生成模型扩展到更长的上下文,例如Large World Model,它可以处理数百万个标记的语言、视频和图像混合数据。最后,论文展示了视频生成模型在下游任务中的应用,例如使用VIPER进行强化学习,以及使用MoCA进行复杂的视频编辑。

怜星夜思:

1、论文中提到的几种视频生成模型(VideoGPT, TECO, ElasticTok)各自有什么优缺点?它们之间有什么联系和演进关系?
2、如何理解“通过视频生成学习世界的知识”?除了论文中提到的应用,还能有哪些潜在的应用场景?
3、论文中提到了视频数据高维度带来的挑战,除了文中提到的方法,还有哪些技术可以用来解决这个问题?

原文内容

来源:专知

本文约1000字,建议阅读5分钟

在本论文中,我将展示我的研究,旨在解决视频生成模型的基本架构和扩展中的核心瓶颈,以及这种视频模型在下游任务中的应用。


通过视频生成学习世界的知识

学习大规模视频生成模型为通过互联网规模的视频数据学习视觉世界提供了一个关键途径。学习生成准确的视频需要模型对现实世界的概念有深刻理解,如运动、物理、物体交互和三维一致性。在本论文中,我将展示我的研究,旨在解决视频生成模型的基本架构和扩展中的核心瓶颈,以及这种视频模型在下游任务中的应用。

论文的第一部分,我将通过开发各种方法,解决视频生成模型中的计算瓶颈,学习良好压缩的时空层次表示。具体来说,我首先介绍VideoGPT,在该方法中,我们通过一个简单的3D CNN自编码器来学习一个压缩的潜在空间,该自编码器同时在空间和时间上对视频的像素表示进行下采样——这样,当在该潜在空间中学习视频生成模型时,可以大幅节省计算量。接下来,我研究了在TECO中实现更高效的视频生成架构,该架构能够扩展到长时间序列的视频。我随后介绍了ElasticTok,这是一种通过利用自适应表示和可变长度编码更高效地编码视频数据的方法。

接下来,我将重点讨论扩展到更长上下文的算法方法。在Large World Model中,我们展示了稳定训练长上下文模型的核心训练方法,使用的是混合了语言、视频和图像数据,能够处理多达数百万个标记的训练数据。

最后,我将展示两项关于探索使用预训练视频生成模型进行下游任务的研究。在第一篇论文中,我介绍了VIPER,在该方法中,我们使用视频预测模型的似然度作为奖励信号来学习强化学习代理。接着,我介绍了MoCA,我们展示了视频生成模型可以用来执行复杂的视频编辑任务。

引言
学习具有一般智能的系统需要对底层物理世界有深入的理解,包括运动、物理学、物体交互和三维理解等概念。最近,基于简单生成建模目标的语言模型扩展取得了令人惊讶的成果,能够应对诸如数学、科学和编程等难度较高的任务。类比地,我们能否利用大规模生成模型在视频数据上,为人工智能系统获取有关物理概念的知识?直观地讲,准确地生成短视频需要理解基本的运动和简单的三维一致性,例如当相机稍微向左或向右平移时的变化。生成更长的视频则需要学习数据中的长期依赖关系,比如在电影中编排一致的叙事,或在生成房屋虚拟导览时保持全球三维一致性。
生成模型的前期研究已经提供了大多数扩展所需的工具。Transformers [267] 是强大且通用的机器学习架构,已经证明在多种模态下有效,如语言、音频、视频和蛋白质。这些模型也很容易通过常见的模型或激活分片技术(如 FSDP [68]、张量并行 [228] 和流水线并行 [110])在数千个计算芯片上进行扩展训练。最后,最近在生成建模训练目标(如离散标记的自回归模型或扩散模型)上的进展,展示了在建模高度复杂分布方面的能力。
然而,视频数据的极高维度仍然是视频生成模型中的一个关键瓶颈——一个1080p高清、24FPS、长一分钟的视频需要大约90亿个浮点数来表示,或者需要36GB的存储空间才能加载到计算设备上。这导致了计算开销极大的模型,使得其扩展成本更高。语言模型中的标记化方法已经证明在降低数据维度方面非常有效,使得4K标记大约可以编码6页文本内容,但类似数量的视频标记最多只能表示几秒钟的视频数据。当视频分辨率或时长更大时,即便是在现有的大规模计算集群上,这种方法变得更加昂贵。因此,开发更高效的视频生成架构变得至关重要,这些架构不仅能够扩展到高分辨率和长视频,同时还能够建模这些复杂的视觉分布。
此外,如何利用通过视频生成模型学习到的世界知识仍然不够明确,因为与语言模型一样,如何有效地提示这些模型来完成更通用的任务更为困难。
1.1 贡献
在本论文中,我提出了在视频生成方法的可扩展性设计方面的核心贡献,以及视频生成模型在下游任务中的应用。
第二章专注于开发一种简单而可扩展的视频生成方法。第三章研究了长视频生成的问题,以及在建模更长视频中的全局依赖性时的架构设计选择。第四章旨在推动先前视频自编码器架构的核心基础,并通过自适应标记化技术使模型能够扩展到更长的序列,包括图像和视频数据。
第五章重点研究了如何扩展到更长的视频和上下文长度,并在算法和训练方面做出改进,以稳定和高效地联合训练语言和视频的组合。
论文的最后一部分探讨了如何在下游应用中利用预训练的视频生成模型。第六章使用视频生成作为奖励模型来学习强化学习代理,第七章则对现有的视频生成模型进行微调,以执行复杂的视频编辑任务。



关于我们

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。




新浪微博:@数据派THU

微信视频号:数据派THU

今日头条:数据派THU


除了压缩和硬件,我觉得还可以考虑改进模型架构,比如使用轻量级的网络结构,或者使用知识蒸馏的方法,将大型模型的知识迁移到小型模型中,从而降低计算成本。

从论文描述来看,VideoGPT像个baseline,奠定了基础;TECO在其上针对长视频做了改进;ElasticTok则更进一步,引入了更先进的技术,应该效果更好,但复杂度也更高。这就像游戏版本更新迭代一样,不断优化和改进。

对于视频数据高维度带来的挑战,除了论文中提到的方法,还可以考虑更高效的压缩算法,例如基于深度学习的视频压缩技术。此外,还可以探索更高效的硬件架构,例如专门为视频处理设计的芯片,以提升计算效率。

我觉得可以理解为让AI像婴儿一样通过观察“视频”学习世界,就像我们小时候通过观察周围环境学习一样。潜在应用场景?我觉得可以用于预测未来事件,比如预测交通拥堵、天气变化等等。

“通过视频生成学习世界的知识”指的是模型通过学习生成逼真的视频,内化了对现实世界的理解,例如物理规律、物体交互等等。我觉得除了强化学习和视频编辑,还可以用于虚拟现实、游戏开发、机器人训练等场景,提供更真实的模拟环境。

关于VideoGPT、TECO 和 ElasticTok 的联系,我认为它们是逐步改进和演化的关系。VideoGPT 使用 3D CNN 自编码器进行压缩,但可能在长视频上效率不够高。TECO 则针对长视频进行了架构优化,提升了效率。ElasticTok 进一步引入了自适应表示和可变长度编码,使模型更灵活,能处理更长序列。它们的共同目标都是提高视频生成的效率和可扩展性。

我觉得可以从数据表示的角度入手,比如使用矢量量化的方法,将高维视频数据压缩成低维的离散表示。还可以结合一些降维技术,比如PCA或者t-SNE,来降低数据的维度。

VideoGPT简单直接,但效率是硬伤,TECO针对长视频做了改进,但可能灵活性不足。ElasticTok感觉是集大成者,效率和灵活性都兼顾了,不过具体实现和效果还得看论文细节。

就像我们通过看视频学习做菜一样,AI也可以通过生成视频来学习“世界”的运作方式。除了论文提到的,我觉得还可以用于艺术创作,比如自动生成电影、动画等等,想想就刺激!