MFuser:Mamba赋能,连接视觉基础模型与视觉语言模型,突破跨领域语义分割

MFuser框架利用Mamba连接视觉基础模型与视觉语言模型,实现跨领域语义分割,并在多个基准测试中表现出色。

原文标题:【CVPR2025】Mamba 作为桥梁:连接视觉基础模型与视觉语言模型以实现跨领域的语义分割

原文作者:数据派THU

冷月清谈:

本文介绍了一种名为MFuser的新型融合框架,旨在解决跨领域语义分割(DGSS)任务中,视觉基础模型(VFMs)与视觉语言模型(VLMs)难以有效融合的问题。MFuser基于Mamba架构,包含MVFuser和MTEnhancer两个关键模块,分别负责模型联合微调和文本嵌入表示优化。该框架能够高效整合VFMs在细粒度特征捕捉和VLMs在文本对齐方面的优势,同时保持线性扩展性,显著提升DGSS性能。实验结果表明,MFuser在多个基准任务上超越了现有最先进方法,并在合成到真实场景和真实到真实场景上均取得了优异的mIoU成绩。

怜星夜思:

1、MFuser框架中使用Mamba的主要优势是什么?它在处理长序列建模问题上比传统Attention机制有什么不同?
2、文章提到MFuser包含MVFuser和MTEnhancer两个模块,它们分别负责什么功能?如果缺少其中一个模块,会对整体性能产生什么影响?
3、MFuser在合成到真实场景和真实到真实场景上都取得了不错的成绩,你认为它在哪些实际应用场景中最有潜力?

原文内容

来源:专知

本文约1000字,建议阅读5分钟

我们提出了 MFuser——一种基于 Mamba 的新型融合框架,能够高效整合 VFMs 与 VLMs 的优势,并在序列长度上保持线性扩展性。


视觉基础模型(Vision Foundation Models,VFMs)与视觉语言模型(Vision-Language Models,VLMs)因其强大的泛化能力,在**跨领域语义分割(Domain Generalized Semantic Segmentation,DGSS)**任务中获得了广泛关注[^1]。然而,现有的 DGSS 方法通常仅依赖 VFMs 或 VLMs 中的一类,忽视了二者的互补优势。
VFMs(如 DINOv2)在捕捉细粒度特征方面表现优异,而 VLMs(如 CLIP)在文本对齐方面具有强大的鲁棒性,但在处理粗粒度信息时则存在一定困难。尽管它们在能力上互为补充,但利用注意力机制将 VFMs 与 VLMs 有效融合仍具有挑战性,因为更大量的 patch token 会加剧长序列建模的复杂性。
为了解决这一问题,我们提出了 MFuser——一种基于 Mamba 的新型融合框架,能够高效整合 VFMs 与 VLMs 的优势,并在序列长度上保持线性扩展性。MFuser 包含两个关键模块:
  • MVFuser:一个协同适配器(co-adapter),通过捕捉时序与空间动态,实现对两个模型的联合微调;
  • MTEnhancer:一个融合注意力机制与 Mamba 的模块,通过引入图像先验来优化文本嵌入表示。

我们的方法在实现精准的特征定位与强文本对齐能力的同时,并未带来显著的计算开销。大量实验证明,MFuser 在多个基准任务上显著优于当前最先进的 DGSS 方法:在合成到真实场景(synthetic-to-real)上取得 68.20 mIoU,在真实到真实场景(real-to-real)上取得 71.87 mIoU 的优异成绩。
项目代码已开源,地址:https://github.com/devinxzhang/MFuser



关于我们

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。




新浪微博:@数据派THU

微信视频号:数据派THU

今日头条:数据派THU


MVFuser主要负责视觉基础模型(VFMs)和视觉语言模型(VLMs)的联合微调,通过协同适配机制,捕捉时序和空间动态信息,让两个模型更好地协同工作。而MTEnhancer则专注于优化文本嵌入表示,它融合了注意力机制和Mamba,利用图像先验知识来提升文本表示的质量。如果缺少任何一个模块,都会影响模型整体的性能。缺少MVFuser,VFMs和VLMs可能无法有效地协同工作,导致特征提取和对齐出现问题;缺少MTEnhancer,文本嵌入表示可能不够准确,影响最终的分割效果。这两个模块相辅相成,共同提升了MFuser的性能。

我理解Mamba的主要优势在于它在处理超长序列时的效率和有效性。传统的Attention机制在处理长序列时计算复杂度会显著增加,而Mamba通过其选择性状态空间模型,能够在序列长度上实现线性扩展,这意味着它处理更长的上下文信息时,计算成本不会急剧上升。这对于融合视觉和语言模型,尤其是处理高分辨率图像或长文本描述时,至关重要。而且Mamba还能更好关注重要信息,性能更强。

我觉得MFuser在自动驾驶领域非常有潜力。自动驾驶需要模型能够准确识别各种交通场景,包括车辆、行人、交通标志等等。真实世界的场景非常复杂多变,而MFuser的跨领域泛化能力,可以帮助模型更好地适应各种未知的场景,提高自动驾驶的安全性。而且自动驾驶对实时性要求很高,Mamba的线性扩展性也能够满足这一需求。

我理解MVFuser是负责“磨合”VFM和VLM,让它们更好地相互理解,协同工作。MTEnhancer则是负责“精修”文本信息,让模型更好地理解图像内容。如果少了MVFuser,VFM和VLM可能会出现“各说各话”的情况,信息无法有效融合。如果少了MTEnhancer,模型可能无法准确理解图像内容,导致分割效果不佳。所以这两个模块都很重要。

医疗影像分析也是一个很有前景的应用方向。医生需要分析各种医学影像,如CT、MRI等等,来诊断疾病。MFuser可以帮助医生更准确地识别病灶,提高诊断效率。而且医学影像的标注成本很高,MFuser的跨领域泛化能力可以减少对大量标注数据的依赖。

我比较看好MFuser在遥感图像分析领域的应用。遥感图像包含大量地表信息,如植被、水体、建筑物等等。MFuser可以帮助分析人员更准确地识别这些地物,从而进行环境监测、城市规划等工作。遥感图像的成像条件复杂多变,MFuser的跨领域泛化能力可以提高分析的准确性。

从工程角度来说,MVFuser起到了一个桥梁的作用,它连接了视觉和语言两个模态,让它们能够更好地进行信息交互。MTEnhancer则像是对文本信息进行了一次“提纯”,滤除掉噪声,突出关键信息。如果缺少其中一个模块,都会导致模型性能下降。个人认为,MVFuser可能更重要一些,因为它涉及到模态之间的融合,是整个框架的核心。

Mamba在MFuser中的应用,其实是借鉴了它在自然语言处理领域的成功经验。图像和文本的融合,本身就涉及到长序列的处理。Mamba的优势在于它能够有选择地记住和遗忘信息,这使得它更擅长处理这种复杂的模态融合任务。和Attention相比,Mamba更像是一个“记忆增强”的方案,让模型能够更好地理解和利用上下文信息。

谢邀,Mamba最吸引我的点就是它避免了Attention机制的二次方复杂度问题。简单来说,Attention需要两两计算序列中所有token之间的关系,序列一长,计算量爆炸。Mamba则另辟蹊径,用状态空间模型来模拟序列的动态变化,降低了计算复杂度,同时能更好地捕捉序列中的长期依赖关系。理论上来说,这使得MFuser在处理更复杂的跨领域语义分割任务时,能够保持高效和准确。