Mona调优:打破视觉识别中全参数微调的性能瓶颈

清华大学提出Mona调优,一种新型适配器调优方法,在多项视觉任务中超越全参数微调,为视觉迁移学习带来新突破。

原文标题:CVPR2025 | 清华大学发表打破视觉识别中全参数微调的枷锁

原文作者:数据派THU

冷月清谈:

清华大学的研究团队在CVPR2025上发表论文,提出了一种名为Mona(多认知视觉适配器)的全新调优方法,旨在挑战全参数微调在视觉识别任务中的主导地位。Mona调优通过引入视觉友好的卷积滤波器优化传统线性适配器,并通过多认知视角提升视觉预训练知识的迁移效率。实验结果表明,Mona调优在图像分类、目标检测、语义分割、实例分割和定向目标检测等多个视觉任务上均超越了全参数微调,尤其是在COCO数据集上实现了1%的性能提升。该研究证明了基于适配器的调优可以在视觉任务中超越全面微调,并且在引入更少新参数的情况下实现更好的性能,为视觉任务的迁移学习提供了一个新的方向,表明全参数微调可能不再是未来迁移学习中唯一首选的解决方案。Mona的成功在于其能够更好地保留和利用预训练模型的能力,从而在各种视觉任务中实现更优的性能。

怜星夜思:

1、Mona调优通过优化适配器,在视觉任务中超越了全参数微调。那么,除了适配器结构上的创新,Mona在训练策略或数据处理方面还有什么独到之处?
2、文章提到Mona调优在COCO数据集上实现了1%的性能提升,但在其他数据集上的表现如何?这个1%的提升在实际应用中有多大的意义?
3、Mona调优的核心在于“多认知视觉适配器”,那么这里的“多认知”具体指的是什么?这种多认知的设计是如何提升模型性能的?

原文内容

来源:群函数
本文约1700字,建议阅读5分钟
本研究提出了多认知视觉适配器(Mona)调优。


01、工作速览


预训练和微调可以增强视觉任务中的迁移效率和性能。最近的增量调优(delta-tuning)方法为视觉分类任务提供了更多选择。尽管取得了成功,但现有的视觉增量调优方法未能在目标检测和分割等具有挑战性的任务上突破全参数微调的上限。


为了找到一种能够与全参数微调相媲美的替代方案,清华大学在IEEE/CVF Conference on Computer Vision and Pattern Recognition 2025会议 在线发表题为 “5%>100%:BreakingPerformance Shackles of Full Fine-Tuning on Visual Recognition Tasks”的研究论文。该研究提出了多认知视觉适配器(Mona)调优,这是一种新颖的基于适配器的调优方法。首先,在适配器中引入了多个视觉友好的滤波器,以增强其处理视觉信号的能力,而以往的方法主要依赖于语言友好的线性滤波器。其次,在适配器中增加了缩放归一化层,以调节输入特征的分布,使其更适合视觉滤波器。


为了充分展示Mona的实用性和泛化能力,在多个具有代表性的视觉任务上进行了实验,包括在COCO数据集上的实例分割、在ADE20K数据集上的语义分割、在Pascal VOC数据集上的目标检测、在DOTA/STAR数据集上的定向目标检测,以及在三个常见数据集上的图像分类。令人兴奋的结果表明,Mona在所有这些任务上都超过了全参数微调,并且是唯一一种在上述各种任务上超越全参数微调的增量调优方法。例如,在COCO数据集上,Mona相比全参数微调实现了1%的性能提升。综合结果表明,与全参数微调相比,Mona调优更适合保留和利用预训练模型的能力。


02、匠心独运


由于促炎巨噬细胞向抗炎巨噬细胞的复极化受损,传统的骨组织工程材料难以在糖尿病期间恢复生理性骨重塑。


预训练与微调范式(Pre-training & Fine-tuning)能够在同模态任务之间实现令人印象深刻的迁移学习,这一点已在计算机视觉(CV)和自然语言处理(NLP)中得到验证。预训练模型通常由资源充足且经验丰富的团队使用大量干净数据进行训练。卓越的预训练模型能够帮助硬件和数据受限的团队节省大量训练成本,并在新任务上训练出表现良好的深度模型。然而,在大模型时代,微调预训练模型的效率成为了一个重要问题。


全面微调(Full Fine-tuning)已在CV任务中广泛应用并取得巨大成功,该过程在训练期间同时调整预训练主干网络中的所有参数以及额外的特定任务头/颈部。尽管如此,全面微调是否仍然是视觉任务的最佳微调方式仍值得探讨。除了全面微调,增量调优(Delta Tuning)近年来在NLP和CV任务中受到关注。增量调优通过仅调整部分主干网络或额外的轻量级结构来实现高效的迁移学习。然而,现有的增量调优方法在视觉识别任务(如语义分割和实例分割)上仍未能超越全面微调。


为了挑战全面微调在CV中的主导地位,研究者提出了多认知视觉适配器(Mona)调优,这是一种基于适配器的新型调优方法。Mona调优通过引入视觉友好的卷积滤波器优化传统的线性适配器,并通过多认知视角提升视觉预训练知识的迁移效率。实验结果表明,Mona调优在多个视觉任务(包括图像分类、目标检测、语义分割、实例分割和定向目标检测)上均超越了全面微调。例如,在COCO数据集上,Mona调优相比全面微调实现了1%的性能提升。这表明,全面微调可能不再是视觉任务的最佳选择。Mona调优的主要贡献包括:证明了基于适配器的调优可以在视觉任务中超越全面微调,并且在引入更少新参数的情况下实现更好的性能。提出了一种基于多认知视觉适配器的新型训练范式Mona-tuning。在多个代表性视觉任务上验证了Mona-tuning的优越性。


图1:作者的方法与全参数微调以及最近的增量调优技术在代表性视觉任务上的比较。


蓝色虚线表示在ADE20K和COCO数据集上全参数微调的性能。提出的Mona方法在代表性视觉任务上超越了全参数微调,提升了以往增量调优技术的上限。结果表明,适配器调优范式可以取代全参数微调,并在常见的视觉任务中实现更好的性能。


全参数微调可能不再是在未来迁移学习中唯一首选的解决方案。


图2:左侧:提出的Mona调优方法。右侧:Mona的细节。


在每个Swin Block的MSA(多头自注意力模块)和MLP(多层感知机)之后添加了Mona。该方法固定了预训练层的参数,并更新Mona的参数。右侧:Mona的细节。Mona在下投影(downprojection)之前有一个缩放的LayerNorm。下投影之后是一个多认知卷积滤波器组和一个聚合滤波器。在Mona内部的四个位置添加了跳跃连接(skip-connections),以增强其适应能力。Mona使得基于适配器的微调范式能够在典型视觉任务中全面超越全参数微调。


03、卓越性能


图3:损失曲线。


在所有方法中,提出的方法收敛速度更快,并且显著超过了全参数微调。


参考:
https://arxiv.org/pdf/2408.08345


编辑:于腾凯

校对:梁锦程



关于我们

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。




新浪微博:@数据派THU

微信视频号:数据派THU

今日头条:数据派THU

我倾向于认为,Mona的成功不仅仅是架构上的创新,更是对预训练模型认知方式的深刻理解。他们可能发现,传统的线性适配器无法充分捕捉视觉信息中的复杂关系,因此引入了卷积滤波器来增强模型的视觉感知能力。同时,缩放归一化层也可能起到了关键作用,它能够帮助模型更好地适应不同数据集的特征分布。

1% 的提升,这得看应用场景了。在科研 benchmark 上,1% 可能只是个数字,但如果是在自动驾驶或者医疗影像诊断这种高精度要求的领域,1% 意味着更少的事故或者更准确的诊断,那价值就大了。当然,如果是在娱乐性质的应用里,可能就没啥感觉了。

我觉得“多认知”可以理解为一种“集成学习”的思想。不同的卷积滤波器就像不同的“专家”,他们各自擅长不同的方面。通过将这些专家的知识融合在一起,Mona 就能够做出更准确的判断。这种思想在机器学习中非常常见,也往往能够取得不错的效果。

个人觉得这个1%的提升意义重大,这说明我们在追求更高精度的视觉识别上,找到了新的方向。虽然具体提升的数值可能因数据集而异,但Mona的出现,打破了我们对全参数微调的固有认知,鼓励我们去探索更加高效和节省资源的微调方法。未来,随着模型和数据集规模的增大,这种高效微调的优势会更加明显。

我理解的“多认知”应该是指模型能够从多个角度去理解和处理视觉信息。传统的适配器可能只关注图像的整体特征,而Mona则通过引入不同的卷积滤波器,让模型能够同时关注图像的局部细节、边缘信息、纹理特征等等。就像我们人一样,看东西的时候会同时用到不同的感官和认知能力。

文章里也说了,Mona 在多个数据集上都超过了全参数微调,不只是 COCO。我觉得更重要的是,这证明了增量调优是有潜力超越全参数微调的。至于 1% 的提升,那得看你怎么看了。如果你的模型已经很牛了,再想提升 1% 可能需要付出巨大的代价,这时候 Mona 就很有价值了。但如果你的模型还很弱,那可能还有更大的提升空间,不一定非要用 Mona。

从技术角度来看,“多认知”可能体现在Mona使用了多种不同类型的卷积滤波器。例如,有些滤波器可能擅长提取边缘特征,有些则擅长提取纹理特征。通过将这些滤波器组合在一起,Mona 就能够更全面地捕捉图像中的信息,从而提升模型的性能。

这个问题问得好!虽然文章重点介绍了Mona在适配器结构上的改进,但训练策略和数据处理也很关键。一种可能性是,Mona可能采用了特殊的数据增强方法,比如更强的视觉扰动,来提升模型的泛化能力。另一种可能是,他们对不同任务的数据进行了精细的加权,使得模型在各个任务上都能取得更好的平衡。具体细节可能需要深入研究论文才能知道。

从工程角度看,除了适配器本身的结构创新,Mona在工程落地方面肯定也做了优化。比如,可以尝试量化或者剪枝Mona的适配器层,进一步降低计算成本和内存占用,使其更容易部署到移动端或者嵌入式设备上。另外,他们可能还探索了如何将Mona与现有的深度学习框架更好地集成。