NeurIPS 2024最佳论文解读:基于多尺度预测的视觉自回归模型VAR

NeurIPS 2024最佳论文提出视觉自回归模型VAR,通过多尺度预测高效生成高质量图像,为图像生成领域带来新方向。

原文标题:NeurIPS 2024最佳论文,扩散模型的创新替代:基于多尺度预测的视觉自回归架构

原文作者:数据派THU

冷月清谈:

NeurIPS 2024最佳论文提出了一种名为视觉自回归模型(VAR)的图像生成方法。与主流的扩散模型不同,VAR采用自回归的思路,并通过多尺度预测来解决传统自回归模型的缺陷。

传统自回归模型将图像转换为一维序列逐个像素生成,存在二维结构信息损失、泛化能力受限、空间信息缺失以及计算效率低下的问题。VAR模型则将图像表示为多尺度token图,并从低分辨率到高分辨率逐步生成,从而保留了图像的二维结构信息和空间关系,并提升了计算效率。

VAR模型采用两阶段训练策略:首先训练多尺度VQVAE模型将图像编码为多尺度token图,然后训练VAR Transformer模型根据低分辨率token图预测更高分辨率的token图。

实验结果表明,VAR模型在图像生成质量和速度方面均优于现有的扩散Transformer模型,并且在图像修复、扩展等零样本任务中表现出色。虽然VAR模型在图像生成领域取得了突破,但仍存在一些局限性,例如尚未实现文本引导图像生成和视频生成,模型也较为复杂。

怜星夜思:

1、VAR 模型相比于扩散模型,除了效率和质量,还有什么其他的潜在优势?
2、文章提到 VAR 模型的计算复杂度为 O(n⁴),这个是怎么计算出来的?与扩散模型的复杂度相比如何?
3、VAR 模型目前还不能进行文本引导的图像生成,未来如何将文本信息融入到 VAR 模型中是一个值得研究的方向。大家有什么想法?

原文内容

来源:Deephub Imba

本文约3200字,建议阅读5分钟

本文介绍了视觉自回归建模:基于下一尺度预测的可扩展图像生成。


本文将详细解读NeurIPS 2024最佳论文:"Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction(视觉自回归建模:基于下一尺度预测的可扩展图像生成)"。

该论文提出了视觉自回归建模(Visual Autoregressive Modeling,VAR)方法,在图像生成领域实现了重要突破。VAR通过精确捕捉图像结构特征,实现了高效率、高质量的图像生成。该方法对当前以扩散模型为主导的图像生成领域提出了新的技术方向,为自回归模型开辟了新的发展空间。本文将从技术原理、实现方法、应用场景及局限性等方面进行详细分析。

图像生成的两大技术路线:扩散模型与自回归模型


图像生成技术主要包含两个主要分支。第一个分支是扩散模型(Diffusion Models),其核心原理是通过逐步添加噪声并随后反向去噪来生成图像。近年来扩散模型在图像生成领域取得了显著进展,并成为主流技术方案。

第二个分支是自回归模型(Autoregressive Models,AR Models)。这类模型采用逐步构建的方式生成图像,即基于已生成的部分预测图像的下一个组成部分。自回归模型是GPT等大型语言模型的核心技术,同时在图像生成领域也取得了重要进展。自回归模型通常基于卷积神经网络或Transformer架构实现。本文重点讨论的VAR模型即属于自回归模型家族。

传统自回归模型的技术局限


传统自回归模型将二维图像转换为一维token序列,并按照光栅扫描模式顺序预测这些token。这种方法存在以下技术局限:


  • 二维结构信息损失:图像token在水平和垂直方向上均存在关联性,但传统自回归模型的顺序生成机制难以有效建模这种二维依赖关系,影响了图像结构的完整性建模。
  • 泛化能力受限:顺序生成模式导致模型对生成顺序具有强依赖性。例如一个按照从上到下顺序训练的模型,在要求反向生成时性能会显著降低。
  • 空间信息缺失:将二维图像压缩为一维序列的过程中,相邻token之间的空间关系信息会丢失,这限制了模型对图像结构的理解和重建能力。
  • 计算效率低下:传统自回归模型的计算复杂度随图像token数量呈O(n⁶)增长,这种复杂度使得高分辨率图像的生成在计算资源方面面临严峻挑战。


VAR:基于下一尺度预测的技术创新


VAR模型通过引入"下一尺度预测"范式来解决传统自回归模型的技术局限。该方法将图像表示为多尺度token图,并采用从低分辨率到高分辨率的粗细层次结构进行自回归生成。


  • 多尺度VQVAE架构:VAR首先采用向量量化变分自编码器(Vector Quantized Variational Autoencoder,VQVAE)将图像编码为多尺度token图。VQVAE能够将图像的高维特征向量量化为离散码向量。系统在不同分辨率层次提取的特征图通过码本量化得到对应的token图表示。
  • VAR Transformer结构:VAR Transformer模块基于已生成的低分辨率token图预测下一个更高分辨率的token图。系统支持每个分辨率层次的token图并行生成,显著提升了计算效率。训练过程中采用块状因果掩码确保token图的生成仅依赖于较低分辨率的信息。

VAR系统工作机制


  1. 多尺度VQVAE编码环节:输入图像经由多尺度VQVAE编码器处理,生成多个分辨率层次的特征图,随后将各特征图量化为相应的token图表示。
  2. VAR Transformer生成过程:VAR Transformer从最低分辨率token图开始,逐步自回归地生成更高分辨率的token图序列。在每个生成步骤中,系统输入已有的全部token图及其位置编码信息。
  3. 多尺度VQVAE解码过程:生成的多尺度token图通过多尺度VQVAE解码器重建为最终图像。解码器利用token图的索引信息从码本中检索相应的码向量,并通过插值和卷积操作重建图像。

图片

技术说明:在公式1中,图像片段序列的生成概率被定义为各个片段条件概率的乘积,表示为P(x₁, x₂, …, xₜ) = ∏ P(xᵢ | x₁…xᵢ₋₁)。其中xᵢ表示单个图像片段,t代表片段总数。

VAR的技术优势


VAR系统在多个方面突破了传统自回归模型的局限:

  • 数学建模优化:VAR通过粗细层次的生成机制有效解决了二维结构建模问题,通过整体token图的预测处理了复杂的依赖关系。
  • 泛化性能提升:VAR系统通过学习图像的整体结构特征,在各类输入场景下表现稳定,包括零样本图像修复和扩展任务。
  • 空间信息保持:VAR在处理token图的过程中保持二维图像结构完整,多尺度架构有效捕捉了空间层次关系。
  • 计算效率提升:VAR通过分辨率内的并行token生成和递归尺度扩展,将计算复杂度降低至O(n⁴),显著提升了系统效率。
  • 图像质量改进:VAR在图像质量和推理速度方面均超越了现有的扩散Transformer模型。


VAR系统的训练与推理



VAR系统采用两阶段训练策略:

  1. 多尺度VQVAE训练阶段(第一阶段):使用原始图像数据训练多尺度VQVAE模型。训练目标是最小化重建图像与原始图像之间的误差,同时生成多分辨率token图。在训练过程中,系统同步优化码本以提升特征表示能力。
  2. VAR Transformer训练阶段(第二阶段):利用训练完成的VQVAE模型将图像转换为token图序列,随后训练VAR Transformer模型。VAR Transformer学习利用已有的低分辨率token图预测下一级token图,训练过程中采用因果掩码确保预测只依赖已知信息。

VAR系统的推理过程包含以下步骤:

  1. 多尺度VQVAE编码步骤:利用训练好的VQVAE模型将输入图像编码为多尺度token图序列。
  2. VAR Transformer生成步骤:从最低分辨率token图开始,VAR Transformer逐级生成更高分辨率的token图。
  3. 多尺度VQVAE解码步骤:利用多尺度VQVAE解码器将生成的token图序列重建为最终输出图像。


实验验证与扩展性分析


论文通过系统实验验证了VAR模型的性能优势。在ImageNet数据集上的测试表明,VAR在图像生成质量和速度方面均优于现有扩散Transformer模型。实验结果同时展示了VAR性能随模型规模增长的良好扩展特性。


实验还证实了VAR系统在图像修复、扩展等零样本任务中的出色泛化能力,表明该模型不仅能够生成图像,还能深入理解图像结构特征。


技术局限与未来发展方向


VAR系统虽然实现了重要突破,但仍存在以下技术局限:

  • 文本引导图像生成能力:当前VAR系统尚未实现文本条件下的图像生成功能。未来研究需要着重扩展模型的多模态处理能力。
  • 视频生成应用:VAR在视频生成领域的应用潜力有待探索。后续研究需要探索VAR框架在时序数据生成中的扩展应用。
  • 模型复杂性:VAR采用的两阶段训练策略(VQVAE和Transformer)增加了系统复杂度,需要进一步研究简化训练流程和提升学习效率的方法。


总结


VAR系统在图像生成领域实现了方法论层面的重要创新,成功克服了传统自回归模型的多项技术局限。通过引入"下一尺度预测"范式,VAR不仅能够精确捕捉图像结构特征,还实现了高效率的高质量图像生成。VAR在可扩展性和零样本泛化能力方面的优势,预示着该技术将对图像生成领域产生深远影响。

论文地址:
https://arxiv.org/abs/2404.02905

编辑:王菁



关于我们

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。



新浪微博:@数据派THU

微信视频号:数据派THU

今日头条:数据派THU

或许可以借鉴 Stable Diffusion 的思路,先用文本生成一个低分辨率的图像,然后用 VAR 模型 upscale 到高分辨率,这样就能结合文本信息进行图像生成了。

我觉得可以参考一下 ControlNet 或者 T2I-Adapter 之类的技术,将文本信息作为条件输入到 VAR Transformer 中,引导图像的生成过程。

我想到的是在 VQVAE 的编码阶段就加入文本信息,让生成的 token 图包含文本的语义信息,这样 VAR Transformer 就可以根据这些 token 生成符合文本描述的图像了。

从论文中提到的零样本图像修复和扩展来看,VAR 模型对图像结构的理解应该更深入一些,这或许能帮助我们更好地理解图像的语义信息,并应用于图像理解、分析等领域。

O(n⁴) 的计算复杂度应该和多尺度 token 图的生成方式有关,但具体推导过程论文里没细说,可能需要去看一下源码或者补充材料。至于跟扩散模型的复杂度对比,论文里只是说 VAR 模型更快,并没有给出具体的数字。

有没有可能 VAR 模型更适合生成一些具有特定结构的图像,比如人脸、建筑物等?因为它的生成过程考虑了图像的二维结构信息,可能对这类图像的生成效果更好。

有没有大佬可以详细解释一下 VAR 模型的计算复杂度分析?我想深入了解一下它的效率优势。

我觉得 VAR 模型在可控性方面可能会有更大的潜力。因为它本质上还是逐级生成的,所以理论上我们可以更精细地控制每一步的生成过程,从而实现更精细的图像编辑或控制。

扩散模型的计算复杂度我记得是和去噪步数相关的,一般来说去噪步数越多,生成质量越高,但计算成本也越高。VAR 模型的复杂度主要体现在 Transformer 的计算上,估计跟 token 数量和网络层数有关。