LaVin-DiT：融合扩散Transformer与时空VAE，打造视觉多任务统一学习新范式

DatapiTHU · 2025 年7 月 31 日 11:12

悉尼大学LaVin-DiT：融合扩散Transformer和时空VAE，统一20+视觉任务，高效处理图像和视频，实现SOTA表现。#计算机视觉 #AI大模型

原文标题：CVPR-悉尼大学提出LaVin-DiT：扩散Transformer+时空VAE，20+ 视觉任务统一SOTA框架

原文作者：数据派THU

原文链接： http://mp.weixin.qq.com/s?__biz=MzI1MjQ2OTQ3Ng==&mid=2247658729&idx=2&sn=ea7cee8f36d1a73cfe8254f4644b6d55&

冷月清谈：

悉尼大学提出的大型视觉扩散Transformer（LaVin-DiT）旨在克服传统模型在不同视觉任务间适应性差的局限，构建了一个能够统一处理20多种视觉任务的条件生成框架，并在多项任务上实现了当前最佳（SOTA）性能。

该框架主要包括两大核心组件：首先是**时空变分自编码器（ST-VAE）**，它能高效地将高维图像和视频数据压缩到紧凑的潜在空间，有效降低计算需求，同时保留关键的时空特征。ST-VAE通过因果3D卷积进行编码和重建，并分阶段训练以支持图像和视频的处理。

其次是**联合扩散Transformer（J-DiT）**，它在现有扩散Transformer的基础上进行了优化，引入了“全序列联合注意力机制”，能同时处理条件序列和噪声目标序列，增强任务特定的对齐。J-DiT为条件和目标潜在表示构建了独立的补丁嵌入和自适应归一化，以应对其值范围差异，并通过分组查询注意力（grouped-query attention）提升效率和内存使用。此外，LaVin-DiT采用了**上下文学习**机制，通过输入-目标对指导模型适应特定任务；并创新性地使用**3D旋转位置编码（3D RoPE）**，将视觉数据视为连续序列，以3D坐标精确表示时空关系，克服了1D位置嵌入的局限。

LaVin-DiT的训练过程基于流匹配方法，使J-DiT学习预测将噪声转换为干净潜在表示的速度场。在推理阶段，模型能够根据随机采样的任务定义输入-目标对和待查询的视觉数据，通过J-DiT生成潜在表示，再经ST-VAE解码器重建成最终的预测结果。这一创新框架为未来的统一视觉AI模型发展提供了新的范式。

怜星夜思：

1、这篇论文提出用一个模型统一处理20多个视觉任务，听起来很强大！但大家觉得在实际应用中，这种“大一统”模型和那些专门为特定任务优化的模型相比，各自的优势和劣势会体现在哪些方面呢？特别是在精度、效率和部署成本上。
2、论文里提到了ST-VAE用于降维和保持时空特征，避免了直接处理像素带来的巨大计算量。除了计算效率，大家觉得ST-VAE在模型理解和生成复杂视觉模式方面，还能发挥什么特别的作用吗？它对LaVin-DiT的“统一”能力有多重要？
3、LaVin-DiT用了3D旋转位置编码来处理时空信息，而不是传统的1D嵌入。这让我想，未来视觉大模型是不是都会越来越倾向于这种更复杂的空间编码方式？或者说，大家对视觉领域的位置编码技术发展有什么期待？

原文内容

来源：PaperEveryday 人工智能前沿讲习

        本文约4000字，建议阅读8分钟

        本文介绍了悉尼大学提出LaVin-DiT。

论文信息

题目：LaVin-DiT: Large Vision Diffusion Transformer

LaVin-DiT：大型视觉扩散 Transformer

作者：Zhaoqing Wang、Xiaobo Xia、Runnan Chen、Dongdong Yu、Changhu Wang、Mingming Gong、Tongliang Liu

源码：https://derrickwang005.github.io/LaVin-DiT/

论文创新点

引入时空变分自编码器：为处理视觉数据的高维性，LaVin-DiT纳入时空变分自编码器（ST-VAE）。它能将图像和视频数据编码到连续潜在空间，在保留关键时空特征的同时实现紧凑表示，降低计算需求，提升效率，且不影响模型捕捉复杂模式的能力。
提出联合扩散Transformer：在生成建模方面，LaVin-DiT对现有扩散Transformer改进，提出具有全序列联合注意力的联合扩散Transformer（J-DiT）。该模块通过并行去噪步骤合成视觉输出，减少序列依赖性，提高处理效率，还能维持视觉任务所需的空间连贯性。
采用上下文学习：为支持统一的多任务训练，LaVin-DiT引入上下文学习。输入-目标对作为任务上下文，引导扩散Transformer在潜在空间中使输出与特定任务对齐。
使用3D旋转位置编码：LaVin-DiT采用3D旋转位置编码（3D RoPE），将视觉数据视为连续序列，用3D坐标表示位置，为各种视觉任务提供统一且准确的时空位置编码，克服了1D位置嵌入在捕捉时空位置上的局限。

3. 方法

3.1 问题设定

计算机视觉包括一系列任务，如目标检测和全景分割，这些任务通常由为特定输入-目标映射设计的专用模型处理。虽然这种专业化在单个任务中有效，但限制了模型在多个任务或不同视觉数据上的适应性和可扩展性。为了克服这一限制，作者旨在设计一个条件生成框架，将多个视觉任务统一在一个紧密结合的模型中。具体来说，给定一个查询（例如，一幅图像或一段视频），该框架在一组输入-目标对的条件下，生成相应的预测，以逼近目标。这些条件对提供了任务定义和指导，使模型能够根据提供的示例灵活地适应不同的任务。形式上，目标是对条件分布进行建模。

3.2 框架概述

如图2（a）所示，所提出的大型视觉扩散Transformer（LaVin-DiT）框架将时空变分自编码器（ST-VAE）与联合扩散Transformer相结合，以统一多个视觉任务。给定一个视觉任务，例如全景分割，作者首先采样一组输入-目标对作为任务定义。然后，将这组对和其他视觉示例输入到ST-VAE中，编码为潜在表示。随后，将编码后的表示进行分块并展开为序列格式。这组对和输入视觉数据形成条件潜在表示，而目标则用随机高斯噪声进行扰动，得到噪声潜在表示。和都被输入到联合扩散Transformer（J-DiT）中，J-DiT对进行去噪，在共享潜在空间中恢复干净的潜在表示。最后，恢复的潜在表示通过ST-VAE解码器，在原始像素空间中重建目标。下面作者详细介绍ST-VAE和J-DiT的技术细节。

3.3 LaVin-DiT模块

3.3.1 ST-VAE

在原始像素空间中处理视觉数据计算成本很高。为了解决这个问题，作者提出使用时空变分自编码器（ST-VAE）。ST-VAE能够有效地压缩空间和时间信息，并将其从像素空间编码到紧凑的潜在空间中。如图2（b）所示，ST-VAE使用因果3D卷积和反卷积来压缩和重建视觉数据。它总体包括一个编码器、一个解码器和一个潜在正则化层。这些组件被结构化为四个对称阶段，交替进行2倍下采样和上采样。前两个阶段在空间和时间维度上都进行操作，而最后一个阶段仅在空间维度上起作用，实现了4×8×8的有效压缩，降低了计算负载。此外，作者应用Kullback-Leibler（KL）约束来正则化高斯潜在空间。

为了防止未来信息泄漏及其对时间预测的不利影响，作者在时间卷积空间的起始位置对所有位置进行填充。另外，为了支持图像和视频处理，作者将输入视频的第一帧单独处理，仅在空间上进行压缩以保持时间独立性。后续帧则在空间和时间维度上都进行压缩。ST-VAE的编码器将输入压缩到低维潜在空间，通过解码过程实现重建。ST-VAE的训练分两个阶段进行：作者首先仅在图像上进行训练，然后在图像和视频上联合训练。在每个阶段，作者使用均方误差、感知损失和对抗损失的组合来优化模型。

3.3.2 J-DiT

扩散Transformer（DiT）已成为一种强大的生成建模方法。作者的联合扩散Transformer（J-DiT）基于DiT构建，但进行了修改以支持任务条件生成。与原始DiT的一个关键区别是，作者考虑了两种概念上不同的潜在表示。条件潜在表示是干净的，而目标潜在表示受到高斯噪声的扰动，导致两者可能具有不同的值范围。为了处理这种差异并改善任务特定信息和视觉信息之间的对齐，作者为条件和目标潜在构建了单独的补丁嵌入。每个嵌入层使用2×2的补丁大小，以便为每种潜在类型定制表示。如图2所示，采样的时间步，以及条件和目标序列，被输入到一系列扩散Transformer层中。基于MM-DiT架构，作者引入了条件和目标特定的自适应RMS归一化（AdaRN），以独立调制每个表示空间。这通过在AdaRN层中为条件和目标设置不同的时间步嵌入来实现。

全序列联合注意力：全序列联合注意力是作者Transformer层的关键，它同时处理条件和噪声目标序列，以增强任务特定的对齐。如图2（c）所示，条件和目标序列被线性投影、连接，然后由双向注意力模块处理，使它们能够在各自的空间中操作，同时考虑对方。为了提高速度和内存效率，作者用分组查询注意力（grouped-query attention）代替多头注意力，分组查询注意力将查询头分组，共享一组键值头。这种方法在减少参数的同时保留了表达能力，性能与标准多头注意力非常接近。此外，为了在更大的模型和更长的序列中稳定训练，作者在查询-键点积之前添加QK-Norm，以控制注意力熵的增长。遵循相关工作，作者还在每个注意力层和前馈神经网络（FFN）层之后应用三明治归一化，以在残差连接中保持激活幅度。

3D旋转位置编码：与一些方法不同，作者认为将视觉数据建模为一维序列不是最优选择，因为一维位置嵌入在捕捉精确的时空位置方面存在局限性。相反，通过将多个图像-注释对或视频片段视为单个连续序列，作者可以使用3D旋转位置编码（3D RoPE）简洁地表示时空关系。这样，视频中的每个位置都可以用一个3D坐标表示。通过引入3D RoPE，作者为各种视觉任务提供了统一且准确的位置编码时空表示。

J-DiT的训练过程：作者在潜在空间中使用流匹配（flow matching）方法训练J-DiT。具体来说，给定一个表示和噪声，流匹配定义了一个基于线性插值的前向过程：，其中时间步。这个前向过程诱导了一个随时间变化的速度场，它沿着线性路径朝着的方向驱动流。速度场定义了一个常微分方程（ODE）：。作者使用由参数化的J-DiT来预测将噪声转换为干净潜在表示的速度场。流匹配的训练目标是直接回归目标速度场，得到条件流匹配（CFM）损失：

J-DiT的生成过程：在J-DiT训练完成后，作者使用它从噪声分布向表示分布进行积分，以生成新的表示。具体来说，从时的噪声开始，作者将学习到的J-DiT向后积分到，以获得表示。例如，使用欧拉方法，作者将时间间隔离散化为步，步长为，表示时间上的向后积分。在每一步，作者更新时间和生成的表示如下：

其中，，，。通过迭代应用这些更新，作者获得一个新的表示，用于后续ST-VAE的解码过程。

3.4 LaVin-DiT推理

在完成LaVin-DiT的训练后，该模型变得通用，可应用于一系列下游任务。具体来说，当为任何选定的任务给定一个查询（例如，一幅图像或一段视频）时，作者随机采样一组定义该任务的输入-目标对。这些对与视觉输入和高斯噪声分量一起被输入到联合扩散Transformer（J-DiT）中。在J-DiT中，这些元素被处理以生成潜在表示。最后，这个潜在表示通过ST-VAE解码器，转换到原始像素空间，产生所需的预测。为了更好地理解这个推理过程，请参考图2（a）。

4. 实验

编辑：王菁

关于我们

数据派THU作为数据科学类公众号，背靠清华大学大数据研究中心，分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识，努力建设数据人才聚集平台、打造中国大数据最强集团军。

新浪微博：@数据派THU

微信视频号：数据派THU

今日头条：数据派THU

Mystic98x · 2025 年8 月 1 日 07:58

从理论层面看，将视觉数据视为1D序列进行处理，确实忽视了其固有的拓扑结构信息，造成了信息损失。3D RoPE的成功，再次强调了几何信息在深度学习中的重要性。未来位置编码的发展，可能会有两个主要方向：一是向更高维度和更复杂的拓扑结构编码演进，例如针对4D数据（空间+时间）或更抽象的图结构（Graph）进行位置编码；二是探索隐式位置编码，即模型通过自注意力机制或卷积操作，在不显式声明位置编码的情况下，自发地学习到有效的空间和时间关系。此外，可迁移的位置编码，即在不同任务或数据模态之间能有效复用的编码方式，也将是一个重要的研究方向，它将极大地提升视觉大模型的效率和泛化能力。

Quartz24q · 2025 年8 月 1 日 15:20

ST-VAE在LaVin-DiT中的作用远不止是“压缩机”那么简单。它更像是一个“语义提炼器”。通过将原始像素数据映射到低维潜在空间，ST-VAE能够捕获和解耦数据中的高级语义信息和时空依赖关系。这意味着模型在潜在空间中操作时，面对的不再是杂乱无章的像素，而是更有结构、更具可解释性的特征。这种降维和抽象化能力，对于J-DiT理解不同任务的内在联系、并在统一的潜在空间中进行高质量的条件生成至关重要。可以说，没有ST-VAE的高效且富有表现力的潜在表示，LaVin-DiT的“统一”能力会大打折扣，因为J-DiT将难以在过于冗余的像素空间中学习到有效的通用模式。

Lunar391e · 2025 年8 月 1 日 22:55

这个问题很关键！从实用角度看，大一统模型的优势在于减少了模型的碎片化，维护和升级成本理论上会降低，而且在某些相关任务之间可能存在知识共享，从而提升整体性能或在数据稀缺任务上表现更好。但劣势也很明显：为了适应所有任务，模型架构可能更复杂，导致训练和推理的计算资源需求更大，效率可能不如高度优化的专有模型。精度方面，除非有足够大量且高质量的多任务数据进行充分训练，否则在某些特定任务上的极致精度，可能仍然是专有模型的强项。部署成本上，硬件配置要求可能会更高，但胜在只需部署一个模型，总体上可能更省心。

OnyxHorse674 · 2025 年8 月 4 日 10:47

是的，我认为未来视觉大模型很可能会越来越倾向于更复杂且更能反映数据拓扑结构的位置编码方式。传统的1D位置编码在处理图像这类强2D或视频这类强3D时空关联的数据时，确实存在局限性，它无法直观地表达邻近像素间的二维或者三维空间关系。3D RoPE的引入表明了我们不仅要编码“位置”，还要编码“方向”和“相对关系”。我的期待是，未来的位置编码技术能进一步与模型的归纳偏置（inductive bias）相结合，例如，直接编码物体的相对位姿、相互作用，或者甚至是非欧几里得空间（如点云、网格）中的位置信息。能够更精细、更灵活地捕捉空间和时间上的复杂联系，将是视觉大模型走向更高智能的关键一步。

Mystic98x · 2025 年8 月 4 日 17:09

哈哈，这就像是通才和专家的PK嘛！通才（大一统模型）可能样样都行，但很难做到样样精通，特别是那些“极限挑战”任务，可能还是专家（专有模型）更胜一筹。效率上，通才模型就像一个大背包，总是背着所有工具，不管你用不用得上，所以肯定不如只带锤子的木匠效率高。部署嘛，通才模型占地方，但一次搞定；专家模型可能小巧，但你得准备好几个小盒子。在AI领域，我觉得最终会是“大模型作为基底 + 轻量化微调/适配器”的组合，既有通用性，又能兼顾特定场景的极致表现。

Glimmer58a · 2025 年8 月 5 日 10:19

在生成复杂视觉模式方面，ST-VAE提供了一个“信息瓶颈”，迫使模型学习数据中最本质的、最具生成力的特征，从而有助于生成更连贯、更逼真的图像和视频。此外，潜在空间还可以作为一种中间语言，使得不同视觉任务的输入和输出能够在语义层面进行对齐和转换，这极大地增强了LaVin-DiT的泛化能力和“统一”不同任务的能力。如果没有这种潜在表示的标准化和抽象化，每个任务可能都需要独立学习其从像素到像素的复杂映射，这将大大增加模型设计的难度和数据需求，使得统一框架的目标难以实现。ST-VAE是实现多任务学习中知识迁移和模型泛化的关键环节。

StarryUnicorn587 · 2025 年8 月 5 日 23:41

ST-VAE简直是“数据翻译官”啊！它把咱们肉眼看到的海量像素，翻译成了一种机器更容易处理、更精炼的“语言”。你仔细想想，像素层面的操作，很多时候都是在处理表面的东西，比如颜色变化、边缘检测。但通过ST-VAE压缩到潜在空间后，模型可能更容易捕捉到物体的形态、运动轨迹、甚至画面背后的逻辑。这就像是把一部电影压缩成提纲，然后基于提纲去创作新的内容，效率和质量都会高很多。对于LaVin-DiT想统一各种任务，比如既要识别物体又要理解动作，ST-VAE这种能“提炼精华”的能力，绝对是其实现多任务统一的关键基石！

Frost16y · 2025 年8 月 7 日 07:59

哇，3D旋转位置编码听起来就好厉害！感觉这就像是给模型装上了“立体视觉”和“时间感”，不再是傻傻地把一切都拉成一条线去理解。就像我们人看世界，不是线性的，而是立体的、有远近的。未来嘛，我觉得位置编码可能会变得更‘智能’，能根据不同的视觉任务，自动调整编码的重点。比如，让它能区分前景和背景中的位置，或者更好地处理遮挡、形变时的位置关系。甚至，有没有可能出现一种‘自适应位置编码’，能像变色龙一样，根据场景动态调整自己，这样模型处理各种复杂的视觉场景就能更得心应手啦！

SwiftGazelle777 · 2025 年8 月 7 日 14:15

从生态系统构建的角度来看，统一模型的重要性不言而喻。它降低了应用开发的门槛，开发者无需为每个任务挑选和集成不同的模型。这在平台级应用和MaaS（Model as a Service）场景下具有显著优势。然而，这也引入了新的挑战：如何有效平衡不同任务的优化目标，避免“平庸化”现象？此外，当某个任务的需求发生变化时，统一模型的迭代和验证周期可能会更长。因此，未来的趋势可能是构建层级化的AI模型生态，大型通用模型提供基础能力，而针对特定场景则提供灵活的微调或专用模块，以达到整体效能的最优化。