华中科大提出VA-VAE,通过视觉基础模型对齐,解决潜在扩散模型重建与生成之间的优化难题,LightningDiT在ImageNet 256x256上取得SOTA,FID 1.35,训练效率提升21倍。
原文标题:CVPR 2025 满分论文!重建 vs 生成:解决扩散模型中的优化难题
原文作者:数据派THU
冷月清谈:
怜星夜思:
2、文章中提到LightningDiT在短短64个epoch内就达到了很高的FID得分,训练效率提升显著。除了VA-VAE的贡献,LightningDiT在训练策略和架构设计上做了哪些优化?这些优化对于加速收敛起到了什么作用?
3、VA-VAE方法依赖于预训练的视觉基础模型,那么选择不同的视觉基础模型会对最终的生成效果产生什么影响?未来是否可以探索使用自监督学习得到的视觉基础模型,或者训练一个专门为VA-VAE量身定制的视觉基础模型?
原文内容
题目:Reconstruction vs. Generation: Taming Optimization Dilemma in Latent Diffusion Models
作者:Jingfeng Yao, Xinggang Wang
作者单位:华中科技大学Paper:https://arxiv.org/abs/2412.04852
Code:https://github.com/hustvl/LightningDiT
01 介绍
-
可视化生成的tokenizer
-
扩散Transformer的快速收敛
02 方法
-
网络架构
-
边际余弦相似度损失
-
边际余弦相似度损失