LightGen:低成本文生图方案媲美SOTA模型,港科大等机构开源

港科大等开源LightGen,一种极低成本的文生图方案,通过知识蒸馏和直接偏好优化,在资源有限的情况下实现了媲美SOTA模型的图像生成效果。

原文标题:无需百卡集群!港科等开源LightGen: 极低成本文生图方案媲美SOTA模型

原文作者:机器之心

冷月清谈:

香港科技大学联合Everlyn AI和UCF提出了一种名为LightGen的新型高效图像生成模型。该模型旨在有限的资源下快速生成高质量图像。LightGen借助知识蒸馏(KD)和直接偏好优化(DPO)策略,有效压缩了大规模图像生成模型的训练流程,降低了数据规模与计算资源需求。实验结果表明,LightGen在图像生成任务中达到甚至超出了部分SOTA模型的性能,同时将传统上需要数千GPU days的预训练过程缩短至仅88个GPU days。LightGen的成功表明,通过关注数据多样性、小型化模型架构和优化训练策略,可以在极少量数据和计算资源的情况下达到最先进模型的性能表现。

怜星夜思:

1、LightGen在降低文生图模型训练成本方面取得了显著进展。你认为这种低成本方案的普及,会对哪些行业或应用场景带来变革?
2、LightGen使用了知识蒸馏(KD)和直接偏好优化(DPO)两种技术。你认为这两种技术在LightGen中分别起到了什么作用?如果让你设计一种新的优化方法,你会考虑哪些方面?
3、文章提到LightGen在特定任务上超越了SOTA模型,但整体性能只是接近。未来LightGen或类似的模型,在哪些方面还有提升空间?

原文内容


LightGen 主要作者来自香港科技大学和 Everlyn AI, 第一作者为香港科技大学准博士生吴显峰,主要研究方向为生成式人工智能和 AI4Science。通讯作者为香港科技大学助理教授 Harry Yang 和中佛罗里达副教授 Sernam Lim。


共同一作有香港科技大学访问学生白亚靖,香港科技大学博士生郑皓泽,Everlyn AI 实习生陈浩东,香港科技大学博士生刘业鑫。还有来自香港科技大学博士生王子豪,马煦然,香港科技大学访问学生束文杰以及 Everlyn AI 实习生吴显祖。


文本到图像(Text-to-Image, T2I)生成任务近年来取得了飞速进展,其中以扩散模型(如 Stable Diffusion、DiT 等)和自回归(AR)模型为代表的方法取得了显著成果。然而,这些主流的生成模型通常依赖于超大规模的数据集和巨大的参数量,导致计算成本高昂、落地困难,难以高效地应用于实际生产环境。


为了解决这一难题,香港科技大学 Harry Yang 教授团队联合 Everlyn AI 和 UCF,提出了一种名为 LightGen 的新型高效图像生成模型,致力于在有限的数据和计算资源下,快速实现高质量图像的生成,推动自回归模型在视觉生成领域更高效、更务实地发展与应用。



  • 论文标题:LightGen: Efficient Image Generation through Knowledge Distillation and Direct Preference Optimization
  • 论文链接:https://arxiv.org/abs/2503.08619
  • 模型链接:https://huggingface.co/Beckham808/LightGen
  • 项目链接:https://github.com/XianfengWu01/LightGen

LightGen 借助知识蒸馏(KD)和直接偏好优化(DPO)策略,有效压缩了大规模图像生成模型的训练流程,不仅显著降低了数据规模与计算资源需求,而且在高质量图像生成任务上展现了与 SOTA 模型相媲美的卓越性能。


LightGen 相较于现有的生成模型,尽管参数量更小、预训练数据规模更精简,却在 geneval 图像生成任务的基准评测中达到甚至超出了部分最先进(SOTA)模型的性能。

此外,LightGen 在效率与性能之间实现了良好的平衡,成功地将传统上需要数千 GPU days 的预训练过程缩短至仅 88 个 GPU days,即可完成高质量图像生成模型的训练。

方法描述

LightGen 采用的训练流程主要包括以下关键步骤:

1. 数据 KD:利用当前 SOTA 的 T2I 模型,生成包含丰富语义的高质量合成图像数据集。这一数据集的图像具有较高的视觉多样性,同时包含由最先进的大型多模态语言模型(如 GPT-4o)生成的丰富多样的文本标注,从而确保训练数据在文本和图像两个维度上的多样性。

2.DPO 后处理:由于合成数据在高频细节和空间位置捕获上的不足,作者引入了直接偏好优化技术作为后处理手段,通过微调模型参数优化生成图像与参考图像之间的差异,有效提升图像细节和空间关系的准确性,增强了生成图像的质量与鲁棒性。

通过以上方法,LightGen 显著降低了图像生成模型的训练成本与计算需求,展现了在资源受限环境下获取高效、高质量图像生成模型的潜力。

实验分析

作者通过实验对比了 LightGen 与现有的多种 SOTA 的 T2I 生成模型,使用 GenEval 作为 benchmark 来验证我们的模型和其他开源模型的性能。



结果表明,我们的模型在模型参数和训练数量都小于其他模型的的前提下,在 256×256 和 512×512 分辨率下的图像生成任务中的表现均接近或超过现有的 SOTA 模型。

LightGen 在单物体、双物体以及颜色合成任务上明显优于扩散模型和自回归模型,在不使用 DPO 方法的情况下,分别达到 0.49(80k 步训练)和 0.53 的整体性能分数。在更高的 512×512 分辨率上,LightGen 达到了可比肩当前 SOTA 模型的成绩,整体性能分数达到 0.62,几乎超过所有现有方法。特别地,加入 DPO 方法后,模型在位置准确性和高频细节方面的表现始终稳定提升,这体现了 DPO 在解决合成数据缺陷上的有效性。

消融实验


消融实验结果显示,当数据规模达到约 100 万张图像时,性能提升会遇到瓶颈,进一步增加数据规模带来的收益很有限。因此,我们最终选择了 200 万张图像作为最优的预训练数据规模。

上图 (b) 探讨了不同训练迭代次数对 GenEval 在 256 与 512 分辨率下性能的影响。值得注意的是,在 256 像素阶段,仅经过 80k 训练步数便能达到相当不错的性能,这突显了数据蒸馏方法在训练效率上的优势。

总结与展望

LightGen 研究有效地降低了 T2I 模型训练的资源门槛,证明了通过关注数据多样性、小型化模型架构和优化训练策略,可以在极少量数据和计算资源的情况下达到最先进模型的性能表现。未来研究可进一步探索该方法在其他生成任务(如视频生成)上的应用,推动高效、低资源需求的生成模型进一步发展,以实现更加广泛的技术普及与落地应用。

© THE END 
转载请联系本公众号获得授权
投稿或寻求报道:[email protected]

从技术角度来看,我认为LightGen的提升空间主要集中在以下几个方面:一是模型架构的优化,可以尝试引入更先进的 Transformer 结构或者Attention机制;二是训练策略的改进,可以尝试更有效的正则化方法或者优化算法;三是数据增强技术的应用,可以利用更多的数据来提高模型的泛化能力。此外,还可以探索将LightGen与其他技术结合,比如3D建模、视频生成等等,拓展其应用范围。

我赞同楼上的观点,低成本文生图的普及绝对会推动很多行业的创新。除了刚才提到的,我觉得游戏行业也会迎来新的发展机遇。游戏开发商可以利用LightGen快速生成游戏素材,比如角色、场景、道具等等,大大缩短开发周期,降低开发成本。还有电商行业,可以利用它生成更具吸引力的商品展示图,提高用户购买意愿。甚至在医疗领域,医生可以利用它生成病灶图像,辅助诊断。但正如楼上所说,技术发展的同时,也需要关注伦理和安全问题,防范潜在的风险。

楼上的分析很到位!我补充一点,DPO还可以看作是一种“对齐”策略,让模型生成的图像更符合人类的审美偏好。毕竟,生成图像最终还是要给人看的,符合人类的审美才能更好地应用。如果让我设计新的优化方法,我会考虑结合生成对抗网络(GAN)的思想,引入一个判别器来评估生成图像的质量,不断优化生成器,从而提高生成图像的逼真度和多样性。不过,GAN的训练比较困难,容易出现模式崩塌等问题,需要仔细调参。

我觉得提升空间还是很大的!首先,在生成图像的精细度上,LightGen还有进步空间,比如细节的刻画、光影的处理等等。其次,在生成图像的多样性和创造性上,还可以进一步探索,让模型能够生成更多意想不到的图像。最后,在模型的泛化能力上,也需要加强,让模型能够适应不同的场景和任务。总而言之,未来的路还很长,需要研究者们不断努力!

从学术角度看,KD和DPO分别解决了不同的问题。KD解决了数据和算力不足的问题,DPO解决了合成数据和真实数据之间的 gap 问题。如果让我设计新的优化方法,我会尝试将强化学习(RL)引入到图像生成过程中。可以将生成图像的过程看作是一个 Agent 与环境交互的过程,Agent 的目标是生成高质量的图像,环境是人类的反馈。通过 RL,可以不断优化 Agent 的策略,从而生成更符合人类偏好的图像。这种方法的难点在于如何设计合适的奖励函数,以及如何解决 RL 的探索问题。

这个问题很有意思!我觉得LightGen这种低成本方案如果普及开来,肯定会给很多行业带来变革。比如,小型创业公司或者个人开发者,以前可能因为算力或者数据的原因,没法尝试文生图,现在有了LightGen,门槛就大大降低了,他们可以更容易地开发出各种创意应用,像个性化头像生成、定制化营销素材等等。另外,教育领域也能受益,学生们可以利用它来辅助学习,比如生成历史场景图、生物结构图等等,想想都觉得很有趣!不过,成本降低也可能带来一些问题,比如版权问题、虚假信息等等,这些都需要我们提前考虑。

我来试着分析一下KD和DPO的作用。我认为KD主要负责“学习”,让LightGen这个小模型尽可能地学到SOTA大模型的知识和能力,相当于站在巨人的肩膀上。而DPO更像是“精修”,弥补KD带来的不足,比如高频细节和空间位置的缺陷,让生成的图像更加逼真。如果让我设计新的优化方法,我会考虑引入注意力机制,让模型更关注图像的关键区域,提高生成图像的质量和相关性。当然,可解释性也很重要,这样才能更好地理解模型的工作原理。

我比较关注LightGen在实际应用中的表现。虽然它在某些基准测试中表现不错,但实际应用场景往往更加复杂和多样。因此,我认为未来LightGen的提升方向应该是提高其鲁棒性和适应性,使其能够更好地应对实际应用中的各种挑战。比如,可以尝试在更多的数据集上进行训练,或者引入一些对抗训练的方法,提高模型的抗干扰能力。

从更学术的角度来看,LightGen的意义在于它探索了一种更加高效的模型训练范式。传统的深度学习模型往往需要海量数据和强大的计算资源,这限制了很多研究者和开发者的参与。LightGen通过知识蒸馏和直接偏好优化,降低了对数据和算力的需求,这使得更多人可以参与到AI研究和应用中来。这种 democratizing AI 的趋势,我认为是未来AI发展的重要方向。当然,随之而来的问题,比如模型的可解释性、安全性等等,也需要引起我们的重视。