港科大等开源LightGen,一种极低成本的文生图方案,通过知识蒸馏和直接偏好优化,在资源有限的情况下实现了媲美SOTA模型的图像生成效果。
原文标题:无需百卡集群!港科等开源LightGen: 极低成本文生图方案媲美SOTA模型
原文作者:机器之心
冷月清谈:
怜星夜思:
2、LightGen使用了知识蒸馏(KD)和直接偏好优化(DPO)两种技术。你认为这两种技术在LightGen中分别起到了什么作用?如果让你设计一种新的优化方法,你会考虑哪些方面?
3、文章提到LightGen在特定任务上超越了SOTA模型,但整体性能只是接近。未来LightGen或类似的模型,在哪些方面还有提升空间?
原文内容
LightGen 主要作者来自香港科技大学和 Everlyn AI, 第一作者为香港科技大学准博士生吴显峰,主要研究方向为生成式人工智能和 AI4Science。通讯作者为香港科技大学助理教授 Harry Yang 和中佛罗里达副教授 Sernam Lim。
共同一作有香港科技大学访问学生白亚靖,香港科技大学博士生郑皓泽,Everlyn AI 实习生陈浩东,香港科技大学博士生刘业鑫。还有来自香港科技大学博士生王子豪,马煦然,香港科技大学访问学生束文杰以及 Everlyn AI 实习生吴显祖。
文本到图像(Text-to-Image, T2I)生成任务近年来取得了飞速进展,其中以扩散模型(如 Stable Diffusion、DiT 等)和自回归(AR)模型为代表的方法取得了显著成果。然而,这些主流的生成模型通常依赖于超大规模的数据集和巨大的参数量,导致计算成本高昂、落地困难,难以高效地应用于实际生产环境。
为了解决这一难题,香港科技大学 Harry Yang 教授团队联合 Everlyn AI 和 UCF,提出了一种名为 LightGen 的新型高效图像生成模型,致力于在有限的数据和计算资源下,快速实现高质量图像的生成,推动自回归模型在视觉生成领域更高效、更务实地发展与应用。
-
论文标题:LightGen: Efficient Image Generation through Knowledge Distillation and Direct Preference Optimization
-
论文链接:https://arxiv.org/abs/2503.08619
-
模型链接:https://huggingface.co/Beckham808/LightGen
-
项目链接:https://github.com/XianfengWu01/LightGen