Personalize Anything:基于DiT位置解耦的免训练个性化图像生成

Personalize Anything无需训练,基于DiT位置解耦特性实现个性化图像生成,支持高保真细节还原和精细位置控制,为图像生成带来新范式。

原文标题:挖掘DiT的位置解耦特性,Personalize Anything免训练实现个性化图像生成

原文作者:机器之心

冷月清谈:

清华大学、北京航空航天大学的研究团队提出了Personalize Anything,一个无需训练即可进行个性化图像生成的新框架。该框架基于对DiT(Diffusion Transformer)架构中位置编码的深刻理解,通过时间步适应标记替换和特征扰动等创新技术,实现了高保真度的概念主体还原和精细的位置控制。Personalize Anything 不仅在单物体定制、多物体组合和物体-场景组合等任务上表现出色,而且具备强大的扩展能力,能够应用于布局引导生成、图像修复和外推等多种实际场景,为可控生成的研究开辟了新的方向。

怜星夜思:

1、Personalize Anything 依赖 DiT 架构的特性,那么未来如果出现新的更先进的图像生成架构,这个方法还能适用吗?或者说,它能给我们提供哪些通用的启发?
2、文章中提到了时间步适应标记替换机制,为什么在去噪过程的早期阶段要直接替换标记,而在后期又转为传统的注意力共享机制?
3、Personalize Anything 在多物体组合方面表现出色,那么在实际应用中,如何确定物体之间的层级关系?例如,如何让模型知道哪个物体应该在前面,哪个物体应该在后面?

原文内容


本文的主要作者来自北京航空航天大学、清华大学和中国人民大学。本文的第一作者为清华大学硕士生封皓然,共同第一作者暨项目负责人为北京航空航天大学硕士生黄泽桓,团队主要研究方向为计算机视觉与生成式人工智能。本文的通讯作者为北京航空航天大学副教授盛律。


个性化图像生成是图像生成领域的一项重要技术,正以前所未有的速度吸引着广泛关注。它能够根据用户提供的独特概念,精准合成定制化的视觉内容,满足日益增长的个性化需求,并同时支持对生成结果进行细粒度的语义控制与编辑,使其能够精确实现心中的创意愿景。随着图像生成模型的持续突破,这项技术已在广告营销、角色设计、虚拟时尚等多个领域展现出巨大的应用潜力和商业价值,正在深刻地改变着我们创造和消费视觉内容的方式。

然而当人们对个性化图像生成的期望不断上升时,传统的个性化图像生成方法面临着以下几个挑战:①细节还原瓶颈(如何更精准地还原物体细节,尤其是在多物体的情况下)② 交互控制难题(如何在进行个性化生成的同时,支持对物体位置等空间因素的精准控制)③ 应用拓展受限(如何将个性化和编辑统一在同一框架,以满足更多应用需求)。这些挑战严重制约着个性化图像生成技术的进一步突破,亟需构建更高效的生成框架。

因此,清华大学、北京航空航天大学团队推出了全新的架构设计 ——Personalize Anything,它能够在无需训练的情况下,完成概念主体的高度细节还原,支持用户对物体进行细粒度的位置操控,并能够扩展至多个应用中,为个性化图像生成引入了一个新范式。

总结而言,Personalize Anything 的特点如下:

  • 高效的免训练框架:无需训练,具备较高的计算效率,仅需一次反演(inversion)和一次推理过程
  • 高保真度与可控性:在保持高精度细节的同时兼顾了物体姿态的多样性,并支持位置控制
  • 高扩展性:同时支持多种任务,包括多物体处理、物体与场景的整合、inpainting 和 outpainting 等


  • 论文标题:Personalize Anything for Free with Diffusion Transformer

  • 论文链接:https://arxiv.org/abs/2503.12590

  • 项目主页:https://fenghora.github.io/Personalize-Anything-Page/

  • 代码仓库:https://github.com/fenghora/personalize-anything


效果展示:无需训练,支持个性化、多物体组合、编辑

Personalize Anything 能够在多种任务上表现出色,可以对多组物体与场景进行组合,并同时自由控制主体位置,这是以往个性化图像生成模型难以做到的。


下面图像中依次展示了 Personalize Anything 在布局引导生成、inpainting、outpainting 三种任务上的表现。可以看到,Personalize Anything 在多种任务上都能够生成贴合文本的高质量图像。


技术突破:从 DiT 架构的新发现到个性化任意内容

个性化图像生成的传统方法通常需要对定制概念进行微调,或者在大规模数据集上进行预训练,这不仅消耗大量计算资源,还影响模型的泛化能力。最近,无需训练的方法尝试通过注意力共享机制来避免这些问题,但这些方法难以保持概念的一致性。此外,由于这些方法主要针对传统的 UNet 架构设计,无法应用于最新的 DiT 架构模型,导致它们无法应用在更大规模和更好效果的图像生成模型上。

注意力共享机制不适用于 DiT 架构

在了解 Personalize Anything 技术细节前,先来看看为什么传统无需训练的方法不能够应用在 DiT 架构的图像生成模型上。


如上文所述,传统无需训练的方法多通过注意力共享机制,也就是在运算自注意力时,将概念图像特征直接与生成图像特征进行拼接,但是经由团队实验发现,对于 DiT 架构而言,由于位置编码的影响,当去噪图像和参考图像共用同一套位置编码时,会导致过度关注,从而在生成的图像中产生重影(图 a);当调整参考图像的位置编码避免冲突时,生成图像的注意力几乎不出现在参考图像中,导致主体一致性较弱(如图 b 和图 c),这限制了传统方法在 DiT 架构上的应用。

通过上述实验发现,DiT 中显式编码的位置信息对其注意力机制具有强烈影响 —— 这与 U-Net 隐式处理位置的方式存在根本差异。这使得生成的图像难以在传统的注意力共享中正确地关注参考对象的标记。

DiT 架构的新启发:标记替换引发主体重建


基于对 DiT 架构显式位置编码的认识,团队继续对 DiT 的特征表示进行了探索。团队发现,将参考图像未带位置编码的标记替换进去噪图像的指定位置,能够重建出良好的主体图像。而传统 Unet 架构所具有的卷积操作会导致位置编码与图像特征混杂在一起,导致在进行特征替换时影响最后的图像质量。

这一发现使团队意识到,简单但有效的特征替换,对于 DiT 架构而言是一个可行的个性化图像生成方法。

定制任意内容:时间步适应替换策略与特征扰动


基于上述发现,团队将特征替换引入个性化图像生成方法中,并创新地提出了时间步适应标记替换机制 (Timestep-adaptive Token Replacement) 。

在整个流程中,首先对参考图像进行反演,并通过 mask 获取参考图像未带位置编码的标记。在去噪过程的早期阶段,为了保留物体特征细节,将参考图像主体的标记直接替换进生成图像中。而在后期,则转为传统的注意力共享机制。这种时间适应特征替换机制能够增图像生成后概念主体的多样性,同时减少生成图像的割裂感。

为了进一步保证概念主体姿态的多样性,团队又额外提出了特征扰动,旨在通过对概念图像特征进行重排,或者调整 mask,来控制特征替换时的概念图像特征代表的物体姿态等,从而为生成的图像引入多样性。

更多应用:无缝扩展至布局引导、多物体组合、编辑等


Personalize Anything 除了在核心任务上表现出色,还具有强大的扩展能力,可以应用于更复杂的实际场景。首先,可以通过自由选择特征注入的位置,来实现位置引导的生成;其次,框架支持对多物体进行自由组合,采取顺序注入的方式,支持物体间层级关系的控制;并且 Personalize Anything 支持用户将将图像视为整体,允许用户保留部分图像内容,同时对另一部分进行可控编辑。这种灵活的可扩展性为未来的研究和应用开辟了更为广阔的前景。

卓越性能:在保真度和多功能性等多个维度上表现突出

团队从单物体定制,多物体组合,物体 - 场景组合这三个任务入手,与众多优秀的开源模型进行定性定量的对比。可以看到 Personalize Anything 的结果基本都优于现有方法,并在后续的人类偏好测试中取得了显著优势。

单物体个性化生成



多物体组合生成




物体 - 场景组合



未来展望

Personalize Anything 研究团队揭示了 DiT 中位置解耦表示的性质,为免训练的图像空间操纵、个性化生成奠定基础。团队期待 DiT 的几何编程原理能够进一步拓展到视频、3D 生成等领域,实现更复杂、更精细的场景构建与编辑。希望通过深入研究和广泛应用,让这一思路激发更多可控生成的研究,推动 AI 在创意内容生成、虚拟现实、数字孪生等领域的广泛应用。


© THE END 
转载请联系本公众号获得授权
投稿或寻求报道:liyazhou@jiqizhixin.com

可以考虑借鉴游戏引擎中的图层概念。每个物体都属于一个图层,图层之间有优先级关系。在生成图像时,按照图层的优先级顺序进行渲染,就可以确定物体之间的层级关系。这种方法比较灵活,可以支持复杂的场景 composition。

这个问题问到了点子上! 个人理解,早期直接替换标记是为了快速建立概念主体的框架,保证细节的高度还原。但如果一直替换,可能会导致生成图像过于僵硬,缺乏多样性。后期转为注意力共享,则可以引入更多的随机性和创造性,让概念主体与周围环境更好地融合,避免“割裂感”。

从工程角度来看,可以将 Personalize Anything 的方法模块化。例如,将时间步适应替换策略和特征扰动等模块抽象出来,使其能够适配不同的生成架构。当然,这需要对不同架构的特性进行深入研究,并进行适当的调整和优化。总的来说,挑战与机遇并存。

我觉得可以从频率的角度来理解。早期阶段关注的是高频信息,即概念主体的细节特征,因此需要直接替换。而后期阶段关注的是低频信息,即整体的视觉效果和风格,因此采用注意力共享来调整。这两种机制的结合,可以实现细节和整体的平衡。

我倾向于认为这是一种trade-off。直接替换能保证保真度,但会损失多样性;注意力共享能增加多样性,但可能会降低保真度。时间步适应策略就是为了在这两者之间找到一个平衡点,让模型在不同的阶段侧重不同的目标。

这是个很有意思的问题,感觉涉及到一些常识推理。一种比较直接的方法是在prompt中明确指定层级关系,例如“a cat in front of a house”。另一种方法是利用mask,先生成背景,再逐步添加前景物体,这样可以通过遮挡关系来确定层级。当然,更高级的方法可能需要引入3D信息或者深度估计,让模型能够自动推断物体之间的空间关系。

这个问题很有意思!虽然 Personalize Anything 目前是基于 DiT 架构,但其核心思想——即对生成模型内部机制的理解和利用(比如这里的位置编码),具有普适性。即使未来出现新的架构,我们仍然可以借鉴这种思路,去挖掘新架构的特性,并设计相应的个性化生成方法。从这个角度讲,Personalize Anything 提供了一种“由内而外”解决问题的思路,这比单纯依赖某种特定架构更有价值。

我觉得可以尝试用不同的prompt引导模型。例如,先用一个prompt生成整体场景,然后再用不同的prompt分别生成每个物体,并指定其位置和大小。最后将这些物体合成到一起,就可以实现对物体层级关系的控制。这种方法需要一些prompt engineering技巧。

我觉得关键在于“解耦”的思想。DiT 的位置解耦是 Personalize Anything 的基础,那么未来新的架构是否也有类似的解耦特性?或者说,我们能否主动设计具有解耦特性的架构?如果能做到,那么 Personalize Anything 的方法就可以迁移过去。所以,未来的重点可能在于如何让生成模型具有更好的可解释性和可控性。