MFuser:Mamba桥接视觉基础模型与视觉语言模型,实现领域泛化语义分割

提出MFuser框架,利用Mamba连接视觉基础模型与视觉语言模型,提升领域泛化语义分割性能,实验结果SOTA。

原文标题:【CVPR2025】Mamba 作为桥梁:连接视觉基础模型与视觉语言模型以实现领域泛化语义分割

原文作者:数据派THU

冷月清谈:

本文介绍了一种名为MFuser的新型融合框架,旨在解决领域泛化语义分割(DGSS)任务中,视觉基础模型(VFMs)和视觉语言模型(VLMs)难以有效融合的问题。MFuser基于Mamba架构,能够高效整合VFMs(如DINOv2)和VLMs(如CLIP)的优势,同时保持线性可扩展性。该框架包含两个关键组件:MVFuser作为协同适配器,联合微调两种模型并捕捉序列与空间动态信息;MTEnhancer融合注意力机制与Mamba,通过引入图像先验增强文本嵌入。实验结果表明,MFuser在多个DGSS基准测试上显著优于现有方法,在合成到真实场景中达到68.20 mIoU,在真实到真实场景中达到71.87 mIoU。项目代码已开源。

怜星夜思:

1、文章提到VFMs(如DINOv2)擅长捕捉细粒度特征,VLMs(如CLIP)擅长文本对齐,那么在实际应用中,有哪些场景更适合侧重使用VFMs,哪些场景更适合侧重使用VLMs呢?
2、MFuser框架中,Mamba起到了关键作用,那么除了文中提到的线性可扩展性,Mamba还有哪些优势,使其更适合作为VFMs和VLMs的桥梁?未来是否可能出现其他更优的架构替代Mamba?
3、文章提到MFuser在合成到真实和真实到真实场景中都取得了不错的效果,那么对于真实到合成的场景,MFuser的表现会如何?在哪些具体的工业场景中,这种DGSS技术有应用前景?

原文内容

来源:专知

本文约1000字,建议阅读5分钟

我们提出了 MFuser,一种基于 Mamba 的新型融合框架,可高效整合 VFMs 与 VLMs 的优势,同时在序列长度上保持线性可扩展性。


视觉基础模型(Vision Foundation Models, VFMs)和视觉语言模型(Vision-Language Models, VLMs)凭借其强大的泛化能力,近年来在领域泛化语义分割(Domain Generalized Semantic Segmentation, DGSS)任务中受到广泛关注。然而,现有的 DGSS 方法通常仅依赖 VFMs 或 VLMs 中的一种,忽视了它们之间的互补优势。以 DINOv2 为代表的 VFMs 擅长捕捉细粒度特征,而如 CLIP 等 VLMs 则在文本对齐方面表现优异,但往往难以处理粗粒度语义。
尽管 VFMs 和 VLMs 具备互补能力,但将两者有效融合仍具有挑战性,特别是在注意力机制中,因 patch tokens 数量增多而导致长序列建模难度增加。为此,我们提出了 MFuser,一种基于 Mamba 的新型融合框架,可高效整合 VFMs 与 VLMs 的优势,同时在序列长度上保持线性可扩展性。
MFuser 主要包括两个关键组件:
  • MVFuser:作为协同适配器(co-adapter),用于联合微调两种模型,同时捕捉序列与空间动态信息;
  • MTEnhancer:一种融合注意力机制与 Mamba 的混合模块,通过引入图像先验对文本嵌入进行增强。
我们的方法在实现精确特征定位的同时,也保持了强文本对齐能力,且不会引入显著的计算开销。大量实验表明,MFuser 在多个基准测试上显著优于现有的 DGSS 方法:在合成到真实(synthetic-to-real)场景中达到 68.20 mIoU,在真实到真实(real-to-real)场景中达到 71.87 mIoU
项目代码已开源,地址为:
👉 
https://github.com/devinxzhang/MFuser



关于我们

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。




新浪微博:@数据派THU

微信视频号:数据派THU

今日头条:数据派THU


这个问题很有意思!我觉得这就像是选择放大镜还是望远镜一样。如果需要极高的图像细节理解,比如医学图像分析,检测肿瘤或者病灶,那VFMs肯定更合适,它们能把细微之处都展现出来。但如果需要宏观的语义理解,比如分析社交媒体上的图像趋势,判断图片表达的情感,VLMs可能更胜一筹,毕竟这类场景更注重文本信息的联系。

我猜测,真实到合成可能效果一般,毕竟“由奢入俭难”嘛!这种技术在工业界的应用,我觉得可以考虑一下农业领域。比如,利用无人机拍摄农田图像,通过DGSS技术来识别作物病虫害情况,从而实现精准农业。

真实到合成的场景可能比较具有挑战性。因为真实数据通常包含更多噪声和不可预测的变化。如果模型主要在真实数据上训练,再应用到合成数据上,可能需要更强的泛化能力才能适应合成数据的特点。至于应用前景,我觉得自动驾驶是一个很有潜力的方向。利用DGSS技术,可以提高自动驾驶系统在不同天气、光照条件下的感知能力,从而提高安全性。

Mamba的优势在于选择了状态空间模型(SSM)的结构,它在长序列建模方面表现出色,同时计算效率很高,这对于处理图像patch tokens这种长序列数据非常重要。我认为Mamba相比传统Transformer,更能避免注意力机制带来的计算瓶颈。至于替代方案,我觉得Transformer的各种变体,比如Sparse Transformer、Longformer等等,也在不断涌现,它们都在试图解决长序列建模的问题,谁能更好地平衡性能和效率,谁就有可能成为下一个“桥梁”。

从理论上讲,如果模型足够鲁棒,真实到合成的迁移应该问题不大。但实际上,合成数据往往是真实数据的简化,如果简化过度,可能会导致模型在真实场景中表现不佳。DGSS技术在工业领域的应用,我认为除了自动驾驶,还可以考虑智能制造。例如,在产品质量检测中,可以通过DGSS技术来识别不同光照、角度下的缺陷。

个人认为,Mamba之所以work,是因为它在建模序列依赖关系时,具备更好的全局感知能力且避免了Transformer中Attention机制的平方级复杂度问题。它本质上是一种序列模型,对长程依赖的建模更加自然。未来的替代架构,我认为可以关注那些在控制计算复杂度的同时,能够有效捕获长程依赖关系的架构,例如,基于图神经网络或者其他新型序列模型的结构。

我来抖个机灵!VFMs就像是那种特别认真的学霸,擅长抠细节,适合考试拿高分。VLMs像是那种情商很高的社交达人,擅长理解言外之意,适合搞公关。所以,需要精准分析的就找VFMs,需要理解“氛围”的就找VLMs!

从学术的角度来看,VFMs更适合像素级别的任务,例如,在遥感图像分析中,需要精确定位每一栋建筑物或者每一棵树木的位置时,VFMs能够提供更精确的特征表示。而VLMs更适用于图像描述、视觉问答等任务,它们能够将图像与文本信息对齐,从而更好地理解图像的整体语义信息。当然,实际应用中还需要考虑计算资源和效率等因素。

Mamba就像是那种“四两拨千斤”的高手,用更少的计算资源,完成了更复杂的任务。但技术发展日新月异,谁知道未来会不会出现更厉害的“武林秘籍”呢?说不定哪天就冒出一个“量子神经网络”,直接把所有问题都解决了!当然,目前来看,Mamba还是很有潜力的。