CVPR 2025：SAM赋能多模态图像融合，兼顾视觉质量与任务精确性

DatapiTHU · 2025 年5 月 23 日 06:44

提出SAM赋能的多模态图像融合框架，通过双层蒸馏弥合视觉质量与任务精确性的差距，让每一滴语义信息都发挥价值。

原文标题：CVPR2025 | SAM赋能多模态图像融合：让每一滴语义信息都发挥价值

原文作者：数据派THU

原文链接： http://mp.weixin.qq.com/s?__biz=MzI1MjQ2OTQ3Ng==&mid=2247657152&idx=2&sn=8a01782b75d687ee866d5486c0b4a9fc&

冷月清谈：

本文提出了一种新的多模态图像融合方法，旨在解决传统方法在视觉质量和下游任务性能上的局限性。该方法的核心思想是将Segment Anything Model (SAM) 提供的语义先验信息融入融合流程，增强对复杂场景的理解能力，提升融合效果，并利用双层优化驱动的蒸馏机制，将SAM的知识迁移到轻量级子网络，实现推理阶段的高效性。文章通过SPA模块保留和整合源图像的关键特征，并利用交叉注意力机制实现不同模态信息的深度融合。实验结果表明，该方法在多个数据集上均取得了优异的性能，尤其在语义分割任务上表现突出，在保证视觉质量的同时，显著提升了下游任务的准确性。此外，论文还开源了相关代码和资源，为该领域的研究提供了便利，并展望了未来研究方向。

怜星夜思：

1、文章中提到通过知识蒸馏将SAM的知识迁移到轻量级子网络，从而降低计算复杂度。那么，这种知识蒸馏的方法在实际应用中通常会遇到哪些挑战？如何解决这些挑战以保证知识迁移的有效性？
2、文章中使用了多种评估指标来衡量融合效果，包括图像质量指标（EN、SD、MS-SSIM等）和语义分割指标（IoU、mIoU）。你认为在多模态图像融合中，哪种类型的评估指标更为重要？为什么？
3、文章提到该方法在夜间浓雾等复杂场景下表现出强大的环境适应性。那么，除了夜间浓雾，你认为多模态图像融合技术还可以应用在哪些具有挑战性的场景中？在这些场景中应用该技术可能面临哪些新的挑战？

原文内容

来源：我爱计算机视觉
本文共2700字，建议阅读6分钟
本篇分享 CVPR 2025 论文：SAM赋能多模态图像融合：让每一滴语义信息都发挥价值。

本篇分享 CVPR 2025 论文Every SAM Drop Counts: Embracing Semantic Priors for Multi-Modality Image Fusion and Beyond，SAM赋能多模态图像融合：让每一滴语义信息都发挥价值。

文章链接：

https://arxiv.org/abs/2503.01210
项目链接：

https://github.com/RollingPlain/SAGE_IVIF

亮点直击

统一视觉质量与任务精确性：如下图Ⅰ所示，传统方法和早期基于深度学习的融合网络主要关注融合的视觉效果，忽略了下游任务的需求。而图Ⅱ展示的特定任务方法虽然引入了任务损失和特征，但导致优化目标不一致。

我们的创新在于，如图Ⅲ所示，通过双级蒸馏框架弥合了这一差距，大型融合网络首先利用Segment Anything Model (SAM)提供的语义先验信息增强性能，真正实现了视觉质量与任务精确性的统一。

轻量高效的实用化设计：将融合知识蒸馏到轻量级子网络中，使其在保持高质量视觉融合的同时，能够无缝支持分割等下游任务。

通过充分利用SAM对分割任务的固有适应性（如图右下角所示），我们的方法不仅在理论上实现了"两全其美"——平衡视觉融合与任务性能，更确保了实际推理阶段的高效可行性，为多模态图像融合领域提供了新的技术范式。

图1.本文所提方法与现有主流对比方法的差异。

解决的问题

传统方法的局限性：传统基于信息理论的融合方法在图像质量优化上存在明显局限，特别是处理冗余信息和特定场景时表现不佳。而早期深度学习方法则常出现边缘模糊、伪影产生等问题，难以满足下游任务对高质量感知信息的严格要求。

优化目标的冲突：更为棘手的是，当前将融合与下游任务耦合的方法导致优化目标相互冲突，在平衡视觉质量与任务适应性之间形成了难以逾越的鸿沟。研究者们不得不在两个关键目标间做出取舍，难以同时兼顾两者的优化。

SAM模型的计算负担：虽然SAM模型在多模态图像融合领域展现出巨大潜力，但实际应用中完整SAM模型的高计算成本成为另一个严峻挑战。这种计算负担严重限制了基于SAM的融合方法在资源受限场景下的实际部署和应用，使其难以在移动设备或边缘计算环境中发挥作用。

提出的方法

融入SAM丰富语义先验：将SAM的丰富语义先验知识融入多模态图像融合流程，深度挖掘场景语义信息，有效增强了系统对复杂场景的理解能力，从根本上提升了融合效果，使融合图像在视觉质量和下游任务适配性两方面都取得了显著进步。

SPA特征保留与整合机制：SPA模块通过特殊的持久存储库(PR)机制精准保留源图像的关键特征信息，并利用高效的交叉注意力机制将这些特征与SAM提取的高级语义信息无缝整合，实现了不同模态信息的深度融合，为生成语义丰富、结构清晰的高质量融合图像提供了坚实基础。

双层优化驱动蒸馏机制：提出的双层优化驱动蒸馏机制结合创新的三元组损失函数，在训练阶段将主网络中包含SAM语义知识的复杂表征有效转移到轻量级子网络，使得在实际推理时子网络能够独立运行而无需依赖计算密集型的SAM模型，大幅降低了计算复杂度，同时保持了卓越的融合性能，极大提高了模型在实际场景中的应用价值。

设计动机与整体架构

核心挑战：我们旨在推理阶段利用SAM语义先验提升跨模态融合质量，但直接使用大规模SAM模型计算开销过大。虽然知识蒸馏可将SAM驱动的主网络信息转移到轻量级子网络，但主子网络间的能力差距常导致语义转移不完整或结构不一致，阻碍了理想融合性能的实现。

创新框架：为解决这一问题，我们提出如图2所示的双层优化框架，包含SAM增强的主网络与轻量级子网络。在这个框架中，优化过程可通过公式1表示，明确了两个网络在优化过程中的相互关系与目标。通过精心设计的优化机制实现网络间协同进化，在保持高质量融合的同时显著降低推理成本。

技术亮点：采用类DARTS训练策略实现网络交替优化，结合损失函数（包含特征对齐、上下文一致性和对比语义），确保子网络高效获取主网络知识，最终消除对计算密集型SAM模型的依赖。

公式1.所提出的双层优化框架数学表达，通过嵌套优化目式1. 所提出的双层优化框架数学表达，通过嵌套优化目标实现主子网络协同学习。

图2.所提方法的整体架构，包括基于SAM的主网络结构、语义持久化注意力模块、知识蒸馏范式及轻量级子网络设计，共同构成了高效的跨模态融合框架。

实验设置

选用五个具有代表性的数据集，即TNO、RoadScene、MFNet、FMB和M3FD，用于模型的训练与评估。

评估指标

图像融合：采用如EN、SD、SCD和MS-SSIM，从不同角度衡量融合图像对源图像信息的保留程度、细节丰富度以及结构一致性。同时引入无参考图像质量评估指标BRISQUE、NIQE、MUSIQ和PaQ-2-PiQ，评估融合图像的质量，判断其与人类视觉系统感知的契合度。

基于融合的语义分割：使用IoU评估语义分割的性能，计算预测结果与真实标签之间的重叠程度，直观反映模型在不同类别上的分割准确性。通过mIoU综合评估模型在多个类别上的整体分割效果。

实验结果

定性结果

在TNO、RoadScene、M3FD和FMB多个常用数据集上，SAGE方法展现了两个明显优势：

信息保留能力：成功保留了可见光图像中的纹理细节（如植被）和红外图像中的热信息（如烟囱烟雾），实现了"两全其美"的融合效果。
抗干扰能力：在夜间浓雾等复杂场景下，能够准确重建地面上的反光人行横道线和远处建筑轮廓，显示出强大的环境适应性。

在FMB和MFNet数据集上的语义分割任务中，SAGE方法借助SAM的语义先验知识，实现了更准确的分割效果：

白天场景优势：在白天交叉路口场景中，成功区分了卡车和公交车
夜间场景优势：在夜间道路场景中，准确分割出人行道
小目标识别：对远距离小目标行人和夜间几乎不可见的车道线也能进行精确分割

图3：定性结果概要图，详情见原文。

定量结果

在FMB数据集的语义分割任务上，SAGE方法展现了显著优势：

在Segformer-B3框架下，mIoU达到61.2%，比第二好的方法提高了3.0%
即使在无需重新训练的开放词汇分割网络(X-Decoder)上，我们的方法也表现出色，mIoU达到51.1%

图4：定量结果概要图，详情见原文。

结语

在这次研究中，我们探索了如何利用语义信息来改进红外与可见光图像融合的效果，并通过双层蒸馏方案来解决计算效率问题。

这项工作为红外与可见光图像融合领域提供了一个值得探索的新方向，我们期待未来能有更多研究者加入，共同推动这一领域的发展。

如果您对我们的工作感兴趣，欢迎查阅我们的论文全文和GitHub资源库。

最新研究成果

我们的survey研究工作《Infrared and Visible Image Fusion: From Data Compatibility to Task Adaption》近期被计算机视觉领域期刊 IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI) 接收发表。

作者: Jinyuan Liu, Guanyao Wu, Zhu Liu, Di Wang, Zhiying Jiang, Long Ma, Wei Zhong, Xin Fan, Risheng Liu*

您可以通过以下链接了解更多:

Paper：

https://ieeexplore.ieee.org/abstract/document/10812907
中文版：

https://pan.baidu.com/s/1EIRYSULa-pd2FRmIdG693g?pwd=aiey
Github：

https://github.com/RollingPlain/IVIF_ZOO

如果您对红外与可见光图像融合领域有兴趣，或正在从事相关研究，希望这项工作能为您提供一些参考。欢迎下载阅读，如有帮助，也欢迎在您的工作中引用。

我们在GitHub上整理了图像融合领域的各种方法总结、相关论文、代码实现、数据集资源以及评价指标链接，希望能为研究者提供便利。如果您觉得有帮助，欢迎给我们的仓库点个星标，这将鼓励我们继续完善和更新这一资源库。

编辑：于腾凯

校对：林亦霖

关于我们

数据派THU作为数据科学类公众号，背靠清华大学大数据研究中心，分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识，努力建设数据人才聚集平台、打造中国大数据最强集团军。

新浪微博：@数据派THU

微信视频号：数据派THU

今日头条：数据派THU

RedFox202 · 2025 年5 月 24 日 10:27

这得分情况看侧重点。如果单纯追求视觉效果，那图像质量指标肯定重要。但如果是为了下游任务服务，那语义分割指标就更关键了。我觉得理想的融合应该是既好看又能让机器理解，所以两种指标都要兼顾。但如果只能选一种，我个人觉得语义分割指标更重要，毕竟机器视觉最终还是要服务于实际应用。

Stream67x · 2025 年5 月 24 日 19:15

图像质量指标衡量的是融合图像的视觉效果，比如清晰度、对比度、信息量等等。语义分割指标衡量的是融合图像的语义信息，比如能否准确识别出图像中的物体、场景等等。我觉得在多模态图像融合中，语义分割指标更为重要。因为多模态图像融合的最终目的是为了让机器更好地理解图像，而语义分割指标直接反映了机器对图像的理解程度。

GentleBreeze816 · 2025 年5 月 26 日 12:35

我想到遥感领域。可以把光学遥感图像和雷达遥感图像融合，综合利用它们在不同光谱和空间分辨率上的优势，对地物进行更全面的分析。但是，遥感图像的数据量非常大，而且不同传感器之间的几何校正和辐射校正也很麻烦，需要高效的融合算法和预处理方法。

Strider82w · 2025 年5 月 26 日 16:41

知识蒸馏这块，感觉最难的就是怎么让学生网络学到老师网络的“暗知识”。老师网络的一些隐含的特征或者决策边界，可能很难被学生网络直接模仿。所以，我觉得除了文中的三元组损失函数，还可以试试attention transfer或者feature mimicking之类的方法，让学生网络不仅仅学输出，还要学中间层的表示。

Haven14j · 2025 年5 月 27 日 07:36

我持不同意见。图像质量是基础！你想啊，如果融合出来的图像本身就很模糊或者失真，那就算语义分割做得再好，也可能是基于错误信息做出的判断。所以，我觉得图像质量是“地基”，语义分割是“上层建筑”。地基不稳，上层建筑再漂亮也没用。

SparklingRiver075 · 2025 年5 月 27 日 12:22

我觉得医学影像领域很有潜力！比如把CT和PET图像融合，可以同时提供解剖结构和功能代谢信息，对肿瘤诊断很有帮助。不过，医学影像的模态更多，而且对精度要求更高，融合算法的设计会更复杂。另外，不同医院、不同设备的图像质量也参差不齐，需要考虑算法的鲁棒性。

Pulse48v · 2025 年5 月 28 日 12:12

其实我觉得知识蒸馏最大的问题在于，它本质上是一个“模仿”的过程，学生网络的能力上限受限于老师网络。如果老师网络本身存在缺陷，学生网络也会继承这些问题。所以，在实际应用中，不仅仅要关注蒸馏的技巧，更要关注老师网络的质量。我觉得可以考虑用一些数据清洗或者模型剪枝的方法，先优化一下老师网络，再进行蒸馏。

Fluxion29d · 2025 年5 月 28 日 22:38

挑战可不少！首先是主网络和子网络能力差异造成的知识鸿沟，可能导致信息损失或偏差。然后，蒸馏过程中如何选取合适的损失函数来指导子网络的学习，也是个难题。还有，如何保证迁移后的知识在不同数据集和场景下的泛化能力，也是需要考虑的因素。要解决这些问题，可以尝试更精细化的网络结构设计、更有效的损失函数（比如结合对抗学习或者自适应调整权重），以及数据增强等方法。

Pulse48v · 2025 年5 月 31 日 01:00

无人驾驶啊！激光雷达和摄像头的数据融合，可以提高车辆对周围环境的感知能力，尤其是在恶劣天气下。但是，激光雷达数据通常是稀疏的，而且容易受到噪声干扰，如何有效地将激光雷达数据和图像数据融合，是个很大的挑战。