FlowMo：一种无需卷积和GAN的先进图像Tokenizer

almosthuman2014 · 2025 年3 月 20 日 14:06

斯坦福大学李飞飞团队提出FlowMo，一种新型图像Tokenizer，无需卷积和GAN，在ImageNet-1K数据集上实现了领先的重建性能。

原文标题：李飞飞、吴佳俊团队新作：不需要卷积和GAN，更好的图像tokenizer来了

原文作者：机器之心

原文链接： http://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650961031&idx=3&sn=d49b4812712e0b7a01423f463cd90680&

冷月清谈：

李飞飞、吴佳俊团队提出了一种新的图像 tokenization 方法 FlowMo，它是一种基于 Transformer 的扩散自编码器。FlowMo 分为两个训练阶段：第一阶段学习捕捉图像的多种重建结果，第二阶段选择最接近原图的重建方案。该方法在 ImageNet-1K 数据集上取得了领先的重建性能，且无需使用卷积、对抗损失等传统方法。FlowMo 的核心在于其两阶段训练策略，包括模式匹配预训练和模式寻求后训练，以及修正流损失、感知损失和熵损失等多种损失函数的结合。实验结果表明，FlowMo 在多个比特率下均优于当前最先进的 tokenizer，并在消融实验中验证了关键设计的有效性。

怜星夜思：

1、FlowMo 提出的两阶段训练策略，在模式匹配预训练和模式寻求后训练之间有什么根本区别？为什么这种策略能提升图像 tokenization 的效果？
2、FlowMo 在 ImageNet-1K 数据集上表现出色，那么它在处理其他类型的图像（例如医学图像、遥感图像）时，可能会遇到哪些挑战？又该如何进行改进以适应这些新场景？
3、文章提到 FlowMo 无需卷积和 GAN，这与传统的图像 tokenization 方法有何不同？这种设计思路的优势和局限性分别是什么？

原文内容

机器之心报道

机器之心编辑部

当我们看到一张猫咪照片时，大脑自然就能识别「这是一只猫」。但对计算机来说，它看到的是一个巨大的数字矩阵 —— 假设是一张 1000×1000 像素的彩色图片，实际上是一个包含 300 万个数字的数据集（1000×1000×3 个颜色通道）。每个数字代表一个像素点的颜色深浅，从 0 到 255。

为了更加高效地从成千上万张图像中学习，AI 模型需要对图片进行压缩。比如当前最先进的图像生成模型，第一步就是一个名叫 tokenization 的操作，用于执行此操作的组件叫 tokenizer。tokenizer 的主要目标是将原始图像压缩到一个更小、更易处理的潜在空间，使得生成模型能够更高效地学习和生成。因此，如何得到更好的 tokenizer 是该领域的研究者非常关心的问题。

在一篇新论文中，来自斯坦福大学李飞飞、吴佳俊团队的研究者提出了一种名叫「FlowMo」的改进方案（论文一作是斯坦福大学计算机科学博士生 Kyle Sargent）。

FlowMo 的训练分为两个阶段：第一阶段先学习如何全面捕捉图像的多种可能重建结果，第二阶段则学习如何从这些可能中选择最接近原图的重建方案。这种方法既保证了图像重建的多样性，又确保了重建质量，使得 FlowMo 在 ImageNet-1K 数据集上展现出了领先的重建性能。

论文标题：Flow to the Mode: Mode-Seeking Diffusion Autoencoders for State-of-the-Art Image Tokenization
论文地址：https://arxiv.org/pdf/2503.11056v1
项目主页：https://kylesargent.github.io/flowmo

研究背景

自从 VQGAN 和潜在扩散模型等视觉生成框架问世以来，最先进的图像生成系统通常采用两阶段设计：先将视觉数据压缩到低维潜在空间进行 tokenization，再学习生成模型。

Tokenizer 训练一般遵循标准流程，即在均方误差（MSE）、感知损失和对抗损失的组合约束下压缩并重建图像。扩散自编码器曾被提出作为学习端到端感知导向图像压缩的方法，但在 ImageNet-1K 重建这一竞争性任务上尚未达到最先进水平。

李飞飞团队提出了 FlowMo，一种基于 Transformer 的扩散自编码器，它在多种压缩率下实现了图像 tokenization 的新性能标准，且无需使用卷积、对抗损失、空间对齐的二维潜在编码，或从其他 tokenizer 中蒸馏知识（这与传统的基于 GAN 的 tokenizer，如 VQGAN，非常不同）。

研究的关键发现是 FlowMo 训练应分为模式匹配预训练阶段和模式寻求后训练阶段。此外，研究者进行了广泛分析，并探索了基于 FlowMo tokenizer 的生成模型训练。

图 1：无论是在低比特率训练（FlowMo-Lo）还是高比特率训练（FlowMo-Hi）下，FlowMo 模型都实现了最先进的 image tokenization 性能。

作者强调，尽管基于 GAN 的 tokenizer 在图像 tokenization 任务上已经取得了很好的性能，但 FlowMo 提供了一种简单且不同的方法。

FlowMo 方法

众所周知，基于 Transformer 的扩散自编码器包含编解码结构，因此 FlowMo 也是由编码器 e_θ 和解码器 d_θ 组成，其核心架构遵循了 MMDiT，在 Transformer 的架构中学习一维潜在空间。

图 2：FlowMo 架构概览

首先，编码器将输入图像转换为潜空间向量 c，然后解码器则根据潜空间 c 学习重建图像的条件分布，与旨在产生单一确定性输出的传统方法不同，FlowMo 的解码器会生成可能的重建分布，从而更好地捕捉图像重建中固有的模糊性。

FlowMo 架构的主要包括以下四点：

基于 Transformer 的设计：编码器和解码器都使用 Transformer 架构，从而能够更有效地处理图像数据。
一维潜空间表示：FlowMo 产生紧凑的潜在表示，使其适用于下游生成建模任务。
量化层：编码器的输出被量化以创建离散 token，从而实现更高效的压缩。
扩散过程：解码器使用扩散过程逐渐将随机输入去噪为高质量重建。

在 FlowMo 架构中的一个核心创新点是其两阶段训练策略，这一策略使得重建分布偏向于原始图像具有高度感知相似性的模式。

阶段 1A：模式匹配预训练

图 3：FlowMo 的训练过程结合了基于流的损失和感知损失，以引导模型实现高质量的重建。

在阶段 1A 中，FlowMo 通过联合训练编码器与解码器，以实现两个核心目标：最大化潜在编码的信息量，并使其重建分布与真实分布相匹配。这一训练过程巧妙地结合了多种损失函数，展现出其独特的技术优势：

修正流损失（Rectified flow loss）：引导扩散过程向目标图像分布靠拢，确保生成结果的准确性；
感知损失（Perceptual loss）：保证了重建图像在视觉上与原始图像高度相似；
熵损失（Entropy loss）：鼓励生成多样化的潜在编码，避免模式单一化；
承诺损失（Commitment loss）：使得编码器输出与量化表示尽可能接近，进一步优化了模型的稳定性与效率。

具体而言，FlowMo 作为扩散自动编码器进行端到端训练，以优化解码器输出上的修正流损失 L_flow，在过程中使用了 L_perc 来监督图像生成中的去噪预测，同时在潜空间 c 上，作者还结合了 LFQ 的熵损失和承诺损失来进行训练。其中损失函数的数学表达式如下所示：

结合这些损失函数，并最终得到了第一阶段的损失表达式：

阶段 1B：模式探索后训练

在第二阶段中，FlowMo 的核心目标是优化解码器分布 pθ(x∣c)，以寻找那些在感知上与原始图像高度相似的模式。为实现这一目标，FlowMo 采用了创新的训练策略：首先冻结编码器，随后在 Lflow 的基础上，联合训练解码器，并引入受扩散模型训练后的 x_0 来生成目标 Lsample。这一过程通过以下步骤实现：

概率流 ODE：通过少量步骤的概率流常微分方程（ODE）集成；
感知损失计算：在生成样本后，模型会计算其与原始图像之间的感知损失，确保重建结果在视觉上与原始图像保持一致；
解码器参数更新：基于感知损失，FlowMo 对解码器参数进行优化。

图 4：模式搜索训练过程，编码器处于冻结状态（雪花表示），而解码器则进行微调以提高感知质量。

如上图所示，其中 FlowMo 通过冻结编码器，集中精力优化解码器，使其在重建图像时更加注重感知相似性，从而进一步提升生成图像的质量与真实感。对概率流 ODE 进行积分的 n 步样本感知损失 Lsample 如下所示：

第二阶段模式探索损失如下所示：

采样过程

为了生成重构图像，FlowMo 通过求解概率流 ODE，对给定一维潜空间 c 的重建图像的多模态分布进行采样

FlowMo 采样方法的一项关键创新是使用「移位」采样器。FlowMo 不使用统一的时间步长间隔，而是采用可调的移位超参数，将采样步骤集中在扩散过程的某些区域，从而提高感知质量。

采样过程需要多次前向通过解码器模型，这在计算上很昂贵，但可以产生高质量的结果。

实验结果分析

主要结果

FlowMo 在多个比特率设置下（0.07 BPP 和 0.22 BPP）与当前最先进的 tokenizer 进行了比较，在重建 FID（rFID）、PSNR 和 SSIM 指标上均取得了最佳结果。在 0.07 BPP 设置下，FlowMo-Lo 的 rFID 为 0.95，相比 OpenMagViT-V2 的 1.17 有显著提升；在 0.22 BPP 设置下，FlowMo-Hi 的 rFID 为 0.56，略优于 LlamaGen-32 的 0.59。

表 1. tokenization 结果。

消融实验分析

研究团队进行了大量消融实验，分析了 FlowMo 设计中的关键决策：噪声调度、量化策略、模型架构和后训练策略等。结果表明，thick-tailed logit-normal 噪声分布、shifted sampler 和后训练阶段对模型性能至关重要。

图 5：噪声调度导致失真的可视化案例。

特别是，没有模式寻求后训练阶段，FlowMo-Lo 的 rFID 会从 0.95 下降到 1.10，FlowMo-Hi 的 rFID 会从 0.56 下降到 0.73。

表 2：后训练消融实验结果。

生成任务验证

在生成任务中，基于 FlowMo 训练的 MaskGiT 在某些指标上表现优于基于 OpenMagViT-V2 训练的模型，但在 FID 上略逊一筹（4.30 vs 3.73）。这表明 tokenizer 质量与下游生成模型质量之间存在复杂关系，需要进一步研究。

表 3：生成模型指标对比。

图 6：生成图像对比。

转载请联系本公众号获得授权

投稿或寻求报道：liyazhou@jiqizhixin.com

Caliber237r · 2025 年3 月 21 日 09:21

我觉得这是一种“扬长避短”的策略。卷积和GAN虽然在图像处理领域取得了很大的成功，但它们也存在一些固有的问题。FlowMo 选择避开这些“坑”，转而利用 Transformer 和扩散模型的优势，这是一种非常聪明的做法。当然，这种做法也可能会带来一些新的问题，例如模型的解释性可能会降低，需要更多的实验来验证其有效性。

Glyph270t · 2025 年3 月 21 日 12:30

ImageNet-1K主要还是自然图像，如果迁移到医学图像或者遥感图像，可能面临数据分布差异带来的挑战。医学图像可能需要关注微小病灶的细节，遥感图像可能需要处理大尺度和多光谱信息。改进方向可以是：1）使用迁移学习，在ImageNet预训练模型的基础上，用特定领域的图像数据进行fine-tune；2）调整模型架构，例如引入注意力机制来关注重要区域，或者增加对多尺度信息的处理能力；3）针对特定领域的图像特点，设计新的损失函数。

Void912s · 2025 年3 月 22 日 17:20

传统的图像 tokenization 方法，像 VQGAN，依赖卷积和GAN来学习图像的潜在表示。FlowMo 则完全基于 Transformer 和扩散模型，这是一种范式的转变。优势在于：1）Transformer 有更强的全局建模能力，可以捕捉图像中长距离的依赖关系；2）扩散模型的生成能力更强，可以生成更多样化的图像；3）避免了 GAN 训练不稳定的问题。局限性在于：1）Transformer 的计算复杂度较高，需要更大的计算资源；2）扩散模型的采样速度较慢，影响生成效率；3）目前在某些生成指标上可能还不如 GAN，需要进一步优化。

CrystalBear411 · 2025 年3 月 24 日 00:11

这个问题问得好！我觉得主要区别在于目标导向不同。预训练像是打基础，目的是尽可能全面地捕捉图像的所有可能重建结果，确保信息量的完整性；后训练则是在此基础上做精细化调整，更注重重建结果与原图在感知上的相似度，类似于精装修。两阶段结合，既保证了信息完整，又提升了重建质量，所以效果更好。

HiddenPanda648 · 2025 年3 月 24 日 20:05

大胆猜测一下，FlowMo 在处理医学图像时可能会遇到过拟合问题，因为医学图像的数据量通常较小，而且标注成本很高。可以尝试使用数据增强技术来扩充训练数据，或者采用半监督学习的方法，利用大量的无标注医学图像来提升模型的泛化能力。遥感图像的话，可能需要考虑地理信息的引入，以及不同传感器之间的校准问题。

Crest196j · 2025 年3 月 26 日 03:34

预训练是为了“广撒网”，让模型见识各种各样的可能性，学习图像的general pattern；后训练则是“精确定位”，让模型学会pick出最像原图的那个pattern。一个负责coverage，一个负责precision，配合起来效果自然更好啦！

LuckyRabbit007 · 2025 年3 月 27 日 00:45

从优化的角度看，预训练阶段更像是全局优化，旨在找到一个比较好的初始解空间。而后训练阶段则是在这个解空间内进行局部优化，更加关注感知相似性。这种分阶段的优化策略可以避免模型陷入局部最优，从而获得更好的tokenization效果。

Torrent81h · 2025 年3 月 27 日 03:04

抛弃卷积和GAN，拥抱Transformer和Diffusion Model，这就像是图像tokenization领域的一场“技术革命”。卷积擅长提取局部特征，GAN 擅长生成逼真图像，但它们都有各自的局限性。Transformer的自注意力机制能够更好地捕捉全局信息，而扩散模型则能够生成更多样化的图像，这使得FlowMo在图像重建和生成方面具有更大的潜力。当然，新的技术也意味着新的挑战，例如Transformer的计算成本较高，扩散模型的推理速度较慢，这些都需要在未来的研究中进一步解决。

SummerSun956 · 2025 年3 月 27 日 11:11

我觉得最大的挑战是领域知识的缺失。FlowMo 在 ImageNet 上学到的特征可能不适用于医学或遥感图像。例如，医学图像中一些细微的纹理变化可能具有重要的诊断意义，而这些纹理在自然图像中并不常见。因此，需要结合领域专家的知识，对 FlowMo 的结构或训练方式进行调整，使其能够更好地捕捉这些关键特征。