港科大博士论文：如何增强扩散模型采样并通过架构研究解读自监督学习

DatapiTHU · 2025 年1 月 26 日 16:25

港科大博士论文探究增强扩散模型采样及自监督学习架构，提出跳跃调优等方法提升性能。

原文标题：【HKUST博士论文】增强扩散采样与通过架构研究解读自监督学习

原文作者：数据派THU

原文链接： http://mp.weixin.qq.com/s?__biz=MzI1MjQ2OTQ3Ng==&mid=2247652086&idx=3&sn=11770b3742ae196cd0e45bb2a1cafae3&

冷月清谈：

这篇港科大博士论文深入研究了扩散模型和自监督学习模型，识别了现有瓶颈并提出了改进方案。

在扩散模型方面，论文重点研究了分类器引导采样过程和扩散UNet架构。针对分类器引导采样，提出了分类器平滑性和调整引导方向等关键设计方案，显著提高了ImageNet数据集上的FID指标。针对扩散UNet架构，论文识别出跳跃连接设计中存在的噪声引入问题，并提出了一种名为“跳跃调优”的无训练方法来解决这个问题，大幅提升了FID。

在自监督学习方面，论文提出了名为“表示评估设计”的通用投影头设计，提升了多种自监督学习模型的下游性能。此外，论文还将自监督学习应用于生物学领域，开发了CellContrast方法，用于学习单细胞基因数据的空间信息。

最后，论文探讨了自监督学习与扩散模型之间的互利关系，利用文本-图像对齐的自监督学习模型CLIP引导扩散模型进行零-shot生成，提升了采样效率。

怜星夜思：

1、论文中提到的“跳跃调优”方法，除了FID指标外，还有哪些指标可以评估其有效性？实际应用中，这种无训练的方法相比需要训练的方法有哪些优势和劣势？
2、论文将自监督学习应用于生物学领域，开发了CellContrast方法。除了单细胞基因数据，这项技术还能应用于哪些生物学数据分析？未来有哪些潜在的研究方向？
3、论文提到利用CLIP引导扩散模型进行零-shot生成，相比之前的方法效率更高。这种方法的局限性是什么？未来如何进一步提升零-shot生成的效率和质量？

原文内容

来源：专知
本文约1000字，建议阅读5分钟
我们对扩散模型和自监督学习模型进行了深入分析，识别了现有的瓶颈。

神经网络在复杂的无监督任务中表现出色，包括使用扩散模型进行高质量样本生成和通过自监督学习（SSL）模型进行语义特征提取。扩散模型和自监督学习（SSL）在各自的目标上表现出色：生成高质量样本和学习表示。大量的研究工作已致力于提升扩散生成质量并深入理解自监督学习。此外，研究者们也在探索扩散与自监督学习模型之间的协同效应。然而，这些模型的复杂性带来了对其进行解读、识别瓶颈并提出设计方案以实现持续改进的挑战。

在我们的研究中，我们对扩散模型和自监督学习模型进行了深入分析，识别了现有的瓶颈。这一分析促使我们开发出一致且高效的设计，以提升扩散生成性能并改善自监督学习模型所学特征的质量。此外，我们通过利用自监督学习来引导扩散模型进行零-shot采样，研究了扩散和自监督学习模型之间的互利关系。

在扩散模型的研究中，我们全面调查了分类器引导采样过程和扩散UNet架构。对于分类器引导采样过程，我们提出了关键设计方案，包括分类器平滑性和调整的引导方向，以促进高质量的采样。因此，我们将现成的ResNet分类器集成到扩散采样中，使ImageNet数据集上的FID指标从5.91显著提高到2.19。关于扩散UNet架构，我们在现有的跳跃连接设计中识别出瓶颈效应，过多的噪声被引入采样过程。我们引入了一种简单且无训练的方法，称为跳跃调优（Skip-Tuning），以解决这一问题。该方法有效地防止了噪声污染生成样本，较基准模型在FID上实现了近乎100%的显著提升。

在我们的自监督学习研究中，我们对自监督学习中的投影头设计提供了架构见解，并提出了一种通用设计——表示评估设计（RED）。该设计持续提升了各种自监督学习模型的下游性能，如SimCLR、MoCo-V2和SimSiam。此外，我们将自监督学习方法应用于生物学领域，开发了CellContrast，这是一种自监督学习方法，能够有效学习单细胞基因数据的空间信息。CellContrast在下游任务中显著超越了相关的监督学习方法。凭借我们深入的见解，我们进一步探讨了自监督学习与扩散模型之间的互利关系。具体来说，我们利用文本-图像对齐的自监督学习模型CLIP来引导扩散模型进行零-shot生成，而无需额外的训练。与之前的方法相比，我们的方法在采样效率上表现得更加优越。

https://lbezone.hkust.edu.hk/bib/991013340348903412

关于我们

数据派THU作为数据科学类公众号，背靠清华大学大数据研究中心，分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识，努力建设数据人才聚集平台、打造中国大数据最强集团军。

新浪微博：@数据派THU

微信视频号：数据派THU

今日头条：数据派THU

LaughingDolphin634 · 2025 年1 月 29 日 06:29

我想到的是，可以结合一些生物学的先验知识来设计自监督学习任务，这样可能能够学到更有生物学意义的特征。另外，未来可以尝试将自监督学习用于预测基因表达、蛋白质相互作用等。

StormyRaven098 · 2025 年1 月 29 日 13:32

我觉得CellContrast的应用可以扩展到其他类型的组学数据，例如蛋白质组学、代谢组学等，甚至可以结合多组学数据进行分析。潜在的研究方向包括：开发更强大的自监督学习模型以捕捉更复杂的生物学模式；探索如何将自监督学习与其他机器学习方法结合，例如图神经网络；将自监督学习应用于药物发现和疾病诊断等领域。

GoldenEagle888 · 2025 年1 月 30 日 22:20

我认为CLIP引导的零-shot生成方法的局限性在于其依赖于CLIP模型的泛化能力。如果CLIP模型在某些特定领域的表现不够好，那么零-shot生成的质量也会受到影响。未来可以考虑开发更强大的文本-图像对齐模型，或者结合其他类型的自监督学习方法来提升零-shot生成的效率和质量。

IronKnight238 · 2025 年1 月 31 日 03:56

关于“跳跃调优”的有效性评估，除了FID，还可以考虑Inception Score (IS)、Precision and Recall (PR)以及CLIP Score等指标。这些指标可以从不同角度衡量生成图像的质量和多样性。实际应用中，无训练方法的优势在于节省计算资源和时间，但也可能在性能提升方面不如需要训练的方法。选择哪种方法取决于具体的应用场景和性能要求。

Celeste49f · 2025 年1 月 31 日 15:50

我想到的是，目前的零-shot生成方法对计算资源的要求仍然较高。未来可以研究如何降低计算成本，例如开发更高效的扩散模型或压缩CLIP模型等，让零-shot生成技术更容易普及。

Blaze03m · 2025 年2 月 1 日 18:50

除了其他组学数据，我觉得还可以应用于医学影像分析，例如病理图像分析、CT图像分析等，利用自监督学习提取图像特征，辅助疾病诊断。未来研究方向可以考虑如何提高模型的可解释性，以便更好地理解生物学机制。

Strider82w · 2025 年2 月 4 日 02:48

补充一点，我觉得评估“跳跃调优”还可以考虑人类评估，毕竟最终图像质量好不好，人眼判断也很重要。无训练方法的劣势除了性能提升可能有限外，还有就是灵活性较差，不像训练方法那样可以通过调整参数来适应不同的数据集或任务。

NobleStag037 · 2025 年2 月 4 日 04:52

跳跃调优实际使用中，优势就是快，可以快速验证一些想法，或者在一些对性能要求不高，但对速度要求很高的场景下使用。劣势也很明显，提升上限有限，如果想要获得SOTA性能，肯定还是得老老实实训练。

Fluxion29d · 2025 年2 月 4 日 06:55

我觉得另一个局限性在于如何更好地控制生成的图像内容。目前CLIP引导的方法主要依赖于文本提示，但如何更精细地控制图像的细节仍然是一个挑战。未来可以探索更灵活的引导方式，例如结合用户交互或草图输入等。