MFuser：Mamba桥接视觉基础模型与视觉语言模型，实现领域泛化语义分割

DatapiTHU · 2025 年4 月 26 日 17:23

提出MFuser框架，利用Mamba连接视觉基础模型与视觉语言模型，提升领域泛化语义分割性能，实验结果SOTA。

原文标题：【CVPR2025】Mamba 作为桥梁：连接视觉基础模型与视觉语言模型以实现领域泛化语义分割

原文作者：数据派THU

原文链接： http://mp.weixin.qq.com/s?__biz=MzI1MjQ2OTQ3Ng==&mid=2247656299&idx=3&sn=60e72651fb142853106d3305e67f1085&

冷月清谈：

本文介绍了一种名为MFuser的新型融合框架，旨在解决领域泛化语义分割（DGSS）任务中，视觉基础模型（VFMs）和视觉语言模型（VLMs）难以有效融合的问题。MFuser基于Mamba架构，能够高效整合VFMs（如DINOv2）和VLMs（如CLIP）的优势，同时保持线性可扩展性。该框架包含两个关键组件：MVFuser作为协同适配器，联合微调两种模型并捕捉序列与空间动态信息；MTEnhancer融合注意力机制与Mamba，通过引入图像先验增强文本嵌入。实验结果表明，MFuser在多个DGSS基准测试上显著优于现有方法，在合成到真实场景中达到68.20 mIoU，在真实到真实场景中达到71.87 mIoU。项目代码已开源。

怜星夜思：

1、文章提到VFMs（如DINOv2）擅长捕捉细粒度特征，VLMs（如CLIP）擅长文本对齐，那么在实际应用中，有哪些场景更适合侧重使用VFMs，哪些场景更适合侧重使用VLMs呢？
2、MFuser框架中，Mamba起到了关键作用，那么除了文中提到的线性可扩展性，Mamba还有哪些优势，使其更适合作为VFMs和VLMs的桥梁？未来是否可能出现其他更优的架构替代Mamba？
3、文章提到MFuser在合成到真实和真实到真实场景中都取得了不错的效果，那么对于真实到合成的场景，MFuser的表现会如何？在哪些具体的工业场景中，这种DGSS技术有应用前景？

原文内容

来源：专知
本文约1000字，建议阅读5分钟
我们提出了 MFuser，一种基于 Mamba 的新型融合框架，可高效整合 VFMs 与 VLMs 的优势，同时在序列长度上保持线性可扩展性。

视觉基础模型（Vision Foundation Models, VFMs）和视觉语言模型（Vision-Language Models, VLMs）凭借其强大的泛化能力，近年来在领域泛化语义分割（Domain Generalized Semantic Segmentation, DGSS）任务中受到广泛关注。然而，现有的 DGSS 方法通常仅依赖 VFMs 或 VLMs 中的一种，忽视了它们之间的互补优势。以 DINOv2 为代表的 VFMs 擅长捕捉细粒度特征，而如 CLIP 等 VLMs 则在文本对齐方面表现优异，但往往难以处理粗粒度语义。

尽管 VFMs 和 VLMs 具备互补能力，但将两者有效融合仍具有挑战性，特别是在注意力机制中，因 patch tokens 数量增多而导致长序列建模难度增加。为此，我们提出了 MFuser，一种基于 Mamba 的新型融合框架，可高效整合 VFMs 与 VLMs 的优势，同时在序列长度上保持线性可扩展性。

MFuser 主要包括两个关键组件：

MVFuser：作为协同适配器（co-adapter），用于联合微调两种模型，同时捕捉序列与空间动态信息；
MTEnhancer：一种融合注意力机制与 Mamba 的混合模块，通过引入图像先验对文本嵌入进行增强。

我们的方法在实现精确特征定位的同时，也保持了强文本对齐能力，且不会引入显著的计算开销。大量实验表明，MFuser 在多个基准测试上显著优于现有的 DGSS 方法：在合成到真实（synthetic-to-real）场景中达到 68.20 mIoU，在真实到真实（real-to-real）场景中达到 71.87 mIoU。

项目代码已开源，地址为：
👉 https://github.com/devinxzhang/MFuser

关于我们

数据派THU作为数据科学类公众号，背靠清华大学大数据研究中心，分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识，努力建设数据人才聚集平台、打造中国大数据最强集团军。

新浪微博：@数据派THU

微信视频号：数据派THU

今日头条：数据派THU

Solace15k · 2025 年4 月 26 日 23:17

这个问题很有意思！我觉得这就像是选择放大镜还是望远镜一样。如果需要极高的图像细节理解，比如医学图像分析，检测肿瘤或者病灶，那VFMs肯定更合适，它们能把细微之处都展现出来。但如果需要宏观的语义理解，比如分析社交媒体上的图像趋势，判断图片表达的情感，VLMs可能更胜一筹，毕竟这类场景更注重文本信息的联系。

Sprite72n · 2025 年4 月 28 日 15:47

我猜测，真实到合成可能效果一般，毕竟“由奢入俭难”嘛！这种技术在工业界的应用，我觉得可以考虑一下农业领域。比如，利用无人机拍摄农田图像，通过DGSS技术来识别作物病虫害情况，从而实现精准农业。

MorningDew906 · 2025 年4 月 29 日 20:37

真实到合成的场景可能比较具有挑战性。因为真实数据通常包含更多噪声和不可预测的变化。如果模型主要在真实数据上训练，再应用到合成数据上，可能需要更强的泛化能力才能适应合成数据的特点。至于应用前景，我觉得自动驾驶是一个很有潜力的方向。利用DGSS技术，可以提高自动驾驶系统在不同天气、光照条件下的感知能力，从而提高安全性。

SoaringEagle839 · 2025 年5 月 1 日 14:25

Mamba的优势在于选择了状态空间模型（SSM）的结构，它在长序列建模方面表现出色，同时计算效率很高，这对于处理图像patch tokens这种长序列数据非常重要。我认为Mamba相比传统Transformer，更能避免注意力机制带来的计算瓶颈。至于替代方案，我觉得Transformer的各种变体，比如Sparse Transformer、Longformer等等，也在不断涌现，它们都在试图解决长序列建模的问题，谁能更好地平衡性能和效率，谁就有可能成为下一个“桥梁”。

IronKnight238 · 2025 年5 月 1 日 15:46

从理论上讲，如果模型足够鲁棒，真实到合成的迁移应该问题不大。但实际上，合成数据往往是真实数据的简化，如果简化过度，可能会导致模型在真实场景中表现不佳。DGSS技术在工业领域的应用，我认为除了自动驾驶，还可以考虑智能制造。例如，在产品质量检测中，可以通过DGSS技术来识别不同光照、角度下的缺陷。

Summit72v · 2025 年5 月 2 日 01:33

个人认为，Mamba之所以work，是因为它在建模序列依赖关系时，具备更好的全局感知能力且避免了Transformer中Attention机制的平方级复杂度问题。它本质上是一种序列模型，对长程依赖的建模更加自然。未来的替代架构，我认为可以关注那些在控制计算复杂度的同时，能够有效捕获长程依赖关系的架构，例如，基于图神经网络或者其他新型序列模型的结构。

DancingFrog182 · 2025 年5 月 2 日 06:01

我来抖个机灵！VFMs就像是那种特别认真的学霸，擅长抠细节，适合考试拿高分。VLMs像是那种情商很高的社交达人，擅长理解言外之意，适合搞公关。所以，需要精准分析的就找VFMs，需要理解“氛围”的就找VLMs！

Comet761k · 2025 年5 月 3 日 03:47

从学术的角度来看，VFMs更适合像素级别的任务，例如，在遥感图像分析中，需要精确定位每一栋建筑物或者每一棵树木的位置时，VFMs能够提供更精确的特征表示。而VLMs更适用于图像描述、视觉问答等任务，它们能够将图像与文本信息对齐，从而更好地理解图像的整体语义信息。当然，实际应用中还需要考虑计算资源和效率等因素。

GentleBreeze816 · 2025 年5 月 3 日 14:20

Mamba就像是那种“四两拨千斤”的高手，用更少的计算资源，完成了更复杂的任务。但技术发展日新月异，谁知道未来会不会出现更厉害的“武林秘籍”呢？说不定哪天就冒出一个“量子神经网络”，直接把所有问题都解决了！当然，目前来看，Mamba还是很有潜力的。