MFuser：Mamba赋能，连接视觉基础模型与视觉语言模型，突破跨领域语义分割

DatapiTHU · 2025 年4 月 20 日 00:00

MFuser框架利用Mamba连接视觉基础模型与视觉语言模型，实现跨领域语义分割，并在多个基准测试中表现出色。

原文标题：【CVPR2025】Mamba 作为桥梁：连接视觉基础模型与视觉语言模型以实现跨领域的语义分割

原文作者：数据派THU

原文链接： http://mp.weixin.qq.com/s?__biz=MzI1MjQ2OTQ3Ng==&mid=2247655683&idx=3&sn=81aee1b2f1c9963423610420ff6eeb32&

冷月清谈：

本文介绍了一种名为MFuser的新型融合框架，旨在解决跨领域语义分割（DGSS）任务中，视觉基础模型（VFMs）与视觉语言模型（VLMs）难以有效融合的问题。MFuser基于Mamba架构，包含MVFuser和MTEnhancer两个关键模块，分别负责模型联合微调和文本嵌入表示优化。该框架能够高效整合VFMs在细粒度特征捕捉和VLMs在文本对齐方面的优势，同时保持线性扩展性，显著提升DGSS性能。实验结果表明，MFuser在多个基准任务上超越了现有最先进方法，并在合成到真实场景和真实到真实场景上均取得了优异的mIoU成绩。

怜星夜思：

1、MFuser框架中使用Mamba的主要优势是什么？它在处理长序列建模问题上比传统Attention机制有什么不同？
2、文章提到MFuser包含MVFuser和MTEnhancer两个模块，它们分别负责什么功能？如果缺少其中一个模块，会对整体性能产生什么影响？
3、MFuser在合成到真实场景和真实到真实场景上都取得了不错的成绩，你认为它在哪些实际应用场景中最有潜力？

原文内容

来源：专知
本文约1000字，建议阅读5分钟
我们提出了 MFuser——一种基于 Mamba 的新型融合框架，能够高效整合 VFMs 与 VLMs 的优势，并在序列长度上保持线性扩展性。

视觉基础模型（Vision Foundation Models，VFMs）与视觉语言模型（Vision-Language Models，VLMs）因其强大的泛化能力，在**跨领域语义分割（Domain Generalized Semantic Segmentation，DGSS）**任务中获得了广泛关注[^1]。然而，现有的 DGSS 方法通常仅依赖 VFMs 或 VLMs 中的一类，忽视了二者的互补优势。

VFMs（如 DINOv2）在捕捉细粒度特征方面表现优异，而 VLMs（如 CLIP）在文本对齐方面具有强大的鲁棒性，但在处理粗粒度信息时则存在一定困难。尽管它们在能力上互为补充，但利用注意力机制将 VFMs 与 VLMs 有效融合仍具有挑战性，因为更大量的 patch token 会加剧长序列建模的复杂性。

为了解决这一问题，我们提出了 MFuser——一种基于 Mamba 的新型融合框架，能够高效整合 VFMs 与 VLMs 的优势，并在序列长度上保持线性扩展性。MFuser 包含两个关键模块：

MVFuser：一个协同适配器（co-adapter），通过捕捉时序与空间动态，实现对两个模型的联合微调；
MTEnhancer：一个融合注意力机制与 Mamba 的模块，通过引入图像先验来优化文本嵌入表示。

我们的方法在实现精准的特征定位与强文本对齐能力的同时，并未带来显著的计算开销。大量实验证明，MFuser 在多个基准任务上显著优于当前最先进的 DGSS 方法：在合成到真实场景（synthetic-to-real）上取得 68.20 mIoU，在真实到真实场景（real-to-real）上取得 71.87 mIoU 的优异成绩。

项目代码已开源，地址：https://github.com/devinxzhang/MFuser

关于我们

数据派THU作为数据科学类公众号，背靠清华大学大数据研究中心，分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识，努力建设数据人才聚集平台、打造中国大数据最强集团军。

新浪微博：@数据派THU

微信视频号：数据派THU

今日头条：数据派THU

Fluxion29d · 2025 年4 月 21 日 08:40

MVFuser主要负责视觉基础模型（VFMs）和视觉语言模型（VLMs）的联合微调，通过协同适配机制，捕捉时序和空间动态信息，让两个模型更好地协同工作。而MTEnhancer则专注于优化文本嵌入表示，它融合了注意力机制和Mamba，利用图像先验知识来提升文本表示的质量。如果缺少任何一个模块，都会影响模型整体的性能。缺少MVFuser，VFMs和VLMs可能无法有效地协同工作，导致特征提取和对齐出现问题；缺少MTEnhancer，文本嵌入表示可能不够准确，影响最终的分割效果。这两个模块相辅相成，共同提升了MFuser的性能。

Stream67x · 2025 年4 月 21 日 17:51

我理解Mamba的主要优势在于它在处理超长序列时的效率和有效性。传统的Attention机制在处理长序列时计算复杂度会显著增加，而Mamba通过其选择性状态空间模型，能够在序列长度上实现线性扩展，这意味着它处理更长的上下文信息时，计算成本不会急剧上升。这对于融合视觉和语言模型，尤其是处理高分辨率图像或长文本描述时，至关重要。而且Mamba还能更好关注重要信息，性能更强。

Void912s · 2025 年4 月 25 日 05:58

我觉得MFuser在自动驾驶领域非常有潜力。自动驾驶需要模型能够准确识别各种交通场景，包括车辆、行人、交通标志等等。真实世界的场景非常复杂多变，而MFuser的跨领域泛化能力，可以帮助模型更好地适应各种未知的场景，提高自动驾驶的安全性。而且自动驾驶对实时性要求很高，Mamba的线性扩展性也能够满足这一需求。

VioletRaven051 · 2025 年4 月 26 日 10:51

我理解MVFuser是负责“磨合”VFM和VLM，让它们更好地相互理解，协同工作。MTEnhancer则是负责“精修”文本信息，让模型更好地理解图像内容。如果少了MVFuser，VFM和VLM可能会出现“各说各话”的情况，信息无法有效融合。如果少了MTEnhancer，模型可能无法准确理解图像内容，导致分割效果不佳。所以这两个模块都很重要。

Crest196j · 2025 年4 月 26 日 12:22

医疗影像分析也是一个很有前景的应用方向。医生需要分析各种医学影像，如CT、MRI等等，来诊断疾病。MFuser可以帮助医生更准确地识别病灶，提高诊断效率。而且医学影像的标注成本很高，MFuser的跨领域泛化能力可以减少对大量标注数据的依赖。

AutumnWind074 · 2025 年4 月 26 日 18:38

我比较看好MFuser在遥感图像分析领域的应用。遥感图像包含大量地表信息，如植被、水体、建筑物等等。MFuser可以帮助分析人员更准确地识别这些地物，从而进行环境监测、城市规划等工作。遥感图像的成像条件复杂多变，MFuser的跨领域泛化能力可以提高分析的准确性。

Crux18l · 2025 年4 月 26 日 19:40

从工程角度来说，MVFuser起到了一个桥梁的作用，它连接了视觉和语言两个模态，让它们能够更好地进行信息交互。MTEnhancer则像是对文本信息进行了一次“提纯”，滤除掉噪声，突出关键信息。如果缺少其中一个模块，都会导致模型性能下降。个人认为，MVFuser可能更重要一些，因为它涉及到模态之间的融合，是整个框架的核心。

VelvetFox904 · 2025 年4 月 26 日 20:49

Mamba在MFuser中的应用，其实是借鉴了它在自然语言处理领域的成功经验。图像和文本的融合，本身就涉及到长序列的处理。Mamba的优势在于它能够有选择地记住和遗忘信息，这使得它更擅长处理这种复杂的模态融合任务。和Attention相比，Mamba更像是一个“记忆增强”的方案，让模型能够更好地理解和利用上下文信息。

Whisper51y · 2025 年4 月 27 日 05:19

谢邀，Mamba最吸引我的点就是它避免了Attention机制的二次方复杂度问题。简单来说，Attention需要两两计算序列中所有token之间的关系，序列一长，计算量爆炸。Mamba则另辟蹊径，用状态空间模型来模拟序列的动态变化，降低了计算复杂度，同时能更好地捕捉序列中的长期依赖关系。理论上来说，这使得MFuser在处理更复杂的跨领域语义分割任务时，能够保持高效和准确。