伯克利博士论文研究如何通过视频生成模型学习世界知识,并提出了高效的架构和下游应用方案。
原文标题:【伯克利博士论文】通过视频生成学习关于世界的知识
原文作者:数据派THU
冷月清谈:
怜星夜思:
2、如何理解“通过视频生成学习世界的知识”?除了论文中提到的应用,还能有哪些潜在的应用场景?
3、论文中提到了视频数据高维度带来的挑战,除了文中提到的方法,还有哪些技术可以用来解决这个问题?
原文内容
来源:专知本文约1000字,建议阅读5分钟
在本论文中,我将展示我的研究,旨在解决视频生成模型的基本架构和扩展中的核心瓶颈,以及这种视频模型在下游任务中的应用。
通过视频生成学习世界的知识
学习大规模视频生成模型为通过互联网规模的视频数据学习视觉世界提供了一个关键途径。学习生成准确的视频需要模型对现实世界的概念有深刻理解,如运动、物理、物体交互和三维一致性。在本论文中,我将展示我的研究,旨在解决视频生成模型的基本架构和扩展中的核心瓶颈,以及这种视频模型在下游任务中的应用。
论文的第一部分,我将通过开发各种方法,解决视频生成模型中的计算瓶颈,学习良好压缩的时空层次表示。具体来说,我首先介绍VideoGPT,在该方法中,我们通过一个简单的3D CNN自编码器来学习一个压缩的潜在空间,该自编码器同时在空间和时间上对视频的像素表示进行下采样——这样,当在该潜在空间中学习视频生成模型时,可以大幅节省计算量。接下来,我研究了在TECO中实现更高效的视频生成架构,该架构能够扩展到长时间序列的视频。我随后介绍了ElasticTok,这是一种通过利用自适应表示和可变长度编码更高效地编码视频数据的方法。
接下来,我将重点讨论扩展到更长上下文的算法方法。在Large World Model中,我们展示了稳定训练长上下文模型的核心训练方法,使用的是混合了语言、视频和图像数据,能够处理多达数百万个标记的训练数据。
最后,我将展示两项关于探索使用预训练视频生成模型进行下游任务的研究。在第一篇论文中,我介绍了VIPER,在该方法中,我们使用视频预测模型的似然度作为奖励信号来学习强化学习代理。接着,我介绍了MoCA,我们展示了视频生成模型可以用来执行复杂的视频编辑任务。