TPAMI 2025：SHIP范式如何实现多模态图像融合的协同高阶交互

DatapiTHU · 2025 年7 月 19 日 10:53

TPAMI 2025 SHIP范式：引入协同高阶交互，突破传统多模态图像融合瓶颈，显著提升融合效果。

原文标题：TPAMI 2025 | 基于协同高阶交互作用多模态图像融合

原文作者：数据派THU

原文链接： http://mp.weixin.qq.com/s?__biz=MzI1MjQ2OTQ3Ng==&mid=2247658539&idx=1&sn=dc502e10f417b53afc87147ffb8d5543&

冷月清谈：

多模态图像融合旨在整合不同源图像的互补信息，生成高质量的融合图像。传统交叉注意力机制虽然有效，但大多局限于二阶空间交互，未能充分挖掘多模态间的协同效应。针对此局限，论文提出了一种协同高阶交互范式（SHIP）。

SHIP范式创新性地从空间和通道两个维度系统研究多模态图像的协作关系：

1. **空间维度**：通过将频域融入自注意力机制，将计算复杂度高的矩阵乘法转化为高效的逐元素运算，首次实现从二阶交互向任意N阶交互的扩展，有效捕捉不同粒度的互补空间信息。
2. **通道维度**：扩展了传统的Squeeze-and-Excitation（SE）块，使其从一阶均值提升为能进行高阶通道交互，更深入地区分和探索源图像间复杂的相互依赖关系。

此外，论文还提出了SHIP的增强版本SHIP++，通过残差信息记忆机制、交叉阶信息整合机制和交叉阶注意力演化机制，进一步加强了跨模态信息交互表示，显著提升了模型性能。综合实验在全色锐化和红外与可见光图像融合等任务中验证了SHIP/SHIP++范式挖掘多模态协同效应的强大能力，性能超越了现有方法。

怜星夜思：

1、文章里提到，传统的自注意力机制只捕捉二阶空间交互，而SHIP范式能扩展到任意N阶。从实际应用的角度看，这种从“二阶”到“高阶”的跨越，对于多模态图像融合有哪些具体的、可感知的优势？比如，最终融合出的图像在哪些具体方面会更好，或者对后续任务（比如目标识别、图像理解）有什么额外帮助？
2、SHIP范式在全色锐化和红外与可见光图像融合中表现出色。那么，这种基于高阶交互的范式，是否可以直接或者经过简单修改就能应用到其他差异更大的多模态融合任务中？比如，医学图像融合（MRI+PET），或者遥感图像融合（光学+SAR）？这些任务可能会遇到哪些新的挑战？
3、论文中提到，通过将频域融入自注意力机制，将矩阵乘法的计算复杂度从二次降低为更高效的逐元素运算，从而实现高阶交互。这给我们一个启发：在当前的深度学习领域，除了这种频域转换，还有没有其他更普适的数学方法或计算技巧，能够在不牺牲模型表达能力的前提下，大幅降低现有计算密集型操作的复杂度，从而实现类似的“效率飞跃”？

原文内容

来源：计算机书童

        本文约3100字，建议阅读10分钟
多模态图像融合旨在通过整合和区分来自多个源图像的跨模态互补信息，生成融合图像。

论文信息

题目：Probing Synergistic High-Order Interaction for Multi-Modal Image Fusion

探索多模态图像融合中的协同高阶交互作用

作者：Man Zhou, Naishan Zheng, Xuanhua He, Danfeng Hong, Jocelyn Chanussot

论文创新点

提出SHIP范式：论文提出了协同高阶交互范式（SHIP），创新性地在空间和通道维度引入高阶交互作用，系统地研究多模态图像在空间细粒度和全局统计方面的协作关系，从而全面探索多模态间的协同效应。
设计高效高阶空间交互：通过将频域融入自注意力机制，把矩阵乘法的计算复杂度降低为更高效的逐元素运算，进而实现从二阶交互扩展到任意阶（N阶）交互，有效捕捉不同粒度的互补信息，丰富特征多样性。
设计高阶通道交互：对Squeeze-and-Excitation（SE）块进行扩展，使其从一阶通道交互提升为高阶通道交互，基于全局统计探索源图像间的协同相关性，深入区分不同模态间复杂的相互依赖关系。
改进提出SHIP++：对SHIP模型进行改进，提出SHIP++，通过残差信息记忆机制、交叉阶信息整合机制以及交叉阶注意力进化机制，增强跨模态信息交互表示，进一步提升模型性能。

摘要

多模态图像融合旨在通过整合和区分来自多个源图像的跨模态互补信息，生成融合图像。虽然具有全局空间交互的交叉注意力机制前景看好，但它仅捕捉二阶空间交互，忽略了空间和通道维度上的高阶交互。这一限制阻碍了多模态之间协同效应的挖掘。

为了弥合这一差距，作者引入了协同高阶交互范式（SHIP），旨在从两个基本维度系统地研究多模态图像之间的空间细粒度和全局统计协作：1）空间维度：作者通过逐元素乘法构建空间细粒度交互，这在数学上等同于全局交互，然后通过迭代聚合和演化互补信息来促进高阶形式，提高效率和灵活性。2）通道维度：在基于一阶统计量（均值）扩展通道交互的基础上，作者设计了高阶通道交互，以基于全局统计促进源图像之间相互依赖关系的识别。作者进一步引入了SHIP模型的增强版本，称为SHIP++，它通过跨阶注意力演化机制、跨阶信息整合和残差信息记忆机制，增强了跨模态信息交互表示。利用高阶交互显著提高了模型挖掘多模态协同效应的能力，在两个重要的多模态图像融合任务——全色锐化和红外与可见光图像融合中，通过各种基准测试的综合实验表明，其性能优于现有方法。

四、方法

（一）总体框架

如图2所示，所提出的范式操作如下：给定一幅红外图像和一幅可见光图像，作者使用针对每个模态的单独卷积层提取相应的浅层特征，得到和。然后，这些模态感知特征经历一系列核心的协同高阶交互范式（SHIP），同时纳入空间和通道维度。这个过程探索两个模态在空间细粒度细节和全局统计方面的协同作用。最后，这些特征被投影回图像空间，生成融合结果。

融合过程特别针对YCbCr颜色空间中的Y通道，遵循先前工作[68], [69]的方法。总之，该范式可以表述如下：

其中，和表示特征提取器，L表示作者的SHIP的迭代次数。在全色锐化中，该范式表示为。

（二）高阶空间交互

回顾自注意力：自注意力机制是Transformer[16]的关键组成部分，通过键、查询和值组件之间的矩阵乘法促进二阶空间交互。这个过程使模型能够基于查询模态动态区分和聚合互补信息。对于红外与可见光图像融合，查询Q、键K和值V通过以下方式推导得出：

其中，、和表示应用于投影模态感知特征表示的线性变换。以输入为中心捕获二阶空间交互的自注意力机制，通过这些组件之间的点积运算实现：

其中，表示键的维度，表示点积运算，是相关矩阵，表示自注意力模块的输出，捕获关于输入特征的二阶空间交互。

然而，尽管点积运算有效，但由于其二次时间复杂度，会带来巨大的计算开销，使得在级联自注意力机制中进行高阶操作不切实际。

等效高效形式：A的每个元素可以通过内积重新定义：，，，表示内积。卷积定理指出，两个信号在空间域中的相关性或卷积等同于它们在频域中的哈达玛积，如图4所示。

Image987×964 174 KB

为了利用这一性质，作者将频域整合到自注意力机制中，将矩阵乘法的计算复杂度降低为更高效的逐元素操作。首先，作者使用快速傅里叶变换（FFT）将模态感知特征和变换到频域。相关性计算如下：

其中，和分别表示FFT和逆FFT，表示哈达玛积，表示共轭转置操作。此外，获得具有二阶空间交互的整合特征：

其中，Norm表示应用于A的层归一化。

深入高阶形式：最近的方法，如[70], [71]，强烈倾向于采用自注意力机制。然而，这些方法，常见于级联自注意力块中，往往围绕查询特征生成多个二阶交互，而不是实现高阶建模。形式上，L个级联自注意力的递归格式可以表示为：

其中，。显然，这个过程仅捕获关于输入特征的二阶交互，同时带来巨大的计算成本。

相比之下，基于等效高效形式，作者超越二阶交互，在保持效率的同时将范围扩展到任意阶交互（N阶）。具体来说，对于每个第i次迭代，作者将（5）扩展为以下高阶公式：

其中，。这个公式使作者能够有效地捕获高达N阶的交互。

一般来说，对于图3中具有L的传统Transformer链，序列展开如下：

相比之下，作者的高阶建模将其替换为：

实际上，这种修改使作者能够在每次迭代中捕获高达N阶的交互。如图5所示，每个空间高阶交互中的不同阶整合了不同粒度的互补信息。此外，不同迭代的交互表现出判别性响应，在迭代过程中丰富了特征多样性。

（三）高阶通道交互

回顾挤压与激励块：挤压与激励（SE）块[66]利用一阶全局统计量（均值）对通道交互进行建模。这种方法使SE块能够明确捕获输入特征通道之间的相互依赖关系。对于红外与可见光图像融合，SE块将第i次高阶空间交互中红外和可见光特征之间的依赖关系表述如下：

其中，，表示一阶统计量，表示Sigmoid函数。包括两个线性变换和一个ReLU函数。

深入高阶形式：与高阶空间交互类似，作者扩展SE块以实现高阶通道交互：

最后，一个卷积层将整合到融合模态中，产生整合特征。

通过在L次迭代中进行N阶空间和通道交互，交互链可以用数学表达式表示如下：

作者分析了第2次通道高阶交互沿通道维度的通道响应。与不同阶的一致响应相反，作者的高阶建模自适应地区分源模态之间的相互依赖关系，如图7所示。

（四）SHIP++的重新开发组件

残差信息记忆：VIF致力于将红外图像中的显著成分聚合到可见光图像中，并生成增强的可见光图像。同样，全色锐化旨在在纹理丰富的PAN图像的指导下对低分辨率MS图像进行超分辨率。在这两种情况下，VIF中的可见光图像和全色锐化中的MS图像作为主要模态，包含任务所需的关键信息。鉴于它们的重要性，在网络的学习过程中保留这些模态的信息至关重要。然而，在作者的更新过程中，主导模态仅参与最终学习阶段，这导致在中间步骤中其信息保留不佳。为了保留重要细节，作者在突出模态中实现了残差信息记忆机制，如图6（a）所示：

1. 跨阶信息整合：作者通过以跨阶方式整合不同信息，增强了跨模态交互的表示，如图6（b）所示。这种改进利用了不同阶倾向于捕获不同且互补模式的观察结果，从而生成更具信息性的表示，如图5所示：

2. 跨阶注意力演化机制：从演化注意力中获得灵感，作者引入了一种跨阶注意力演化机制，如图6（c）所示。该机制促进不同层注意力图之间的共同知识共享。因此，前层的注意力可以通过残差连接引导后层的注意力，从而能够捕获精确的模式：

（五）全色锐化的损失函数

设IF和GT分别表示网络输出和相应的地面真值。为了提高全色锐化结果的清晰度，作者使用L1损失：

五、可见光与红外图像融合实验

声明

本文内容为论文学习收获分享，受限于知识能力，本文对原文的理解可能存在偏差，最终内容以原论文为准。本文信息旨在传播和学术交流，其内容由作者负责，不代表本号观点。文中作品文字、图片等如涉及内容、版权和其他问题，请及时与我们联系，我们将在第一时间回复并处理。

编辑：黄继彦

欢迎大家扫码加入粉丝群

关于我们

数据派THU作为数据科学类公众号，背靠清华大学大数据研究中心，分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识，努力建设数据人才聚集平台、打造中国大数据最强集团军。

新浪微博：@数据派THU

微信视频号：数据派THU

今日头条：数据派THU

Glyph270t · 2025 年7 月 21 日 08:25

高阶交互嘛，听起来就高大上！其实就是把图像里那些“藏着掖着”的信息都给挖出来。你想啊，平时我们看一张图片，可能只注意到表面；高阶呢，就像拿着放大镜去看，不仅看到点线面，还能看出点线面之间的“化学反应”。

具体来说，融合图会更“自然”。比如，红外图和可见光图融合，二阶可能就是把热源和可见光图像简单叠加，但高阶能理解热源物体的真实轮廓在可见光场景下是怎样被遮挡或影响的，然后生成一个既有温度信息又兼顾视觉真实感的结果。这对于医生看病（结合PET/CT）、地质学家分析遥感数据（结合SAR/光学）都很有用，可以帮助他们发现那些单模态或简单融合看不出来的“病灶”或“特征”，提升识别效率和准确率，简直是强迫症患者的福音啊！

Ion31q · 2025 年7 月 21 日 12:38

哈，这不就是“一招鲜吃遍天”的问题嘛！理论上讲，高阶交互处理复杂信息的能力确实是通用优势，所以扩展到其他领域听起来很有前景。毕竟本质上都是要从不同源头挖出互补信息。

但实际操作嘛，肯定会遇到“水土不服”的问题。比如，医学图像的噪声特性和模糊程度可能跟光学图像完全不一样，模型会不会把医学特有的伪影也当成“高阶特征”给强化了？再比如SAR图像，它自带斑点噪声（speckle noise），光学图没有，融合的时候高阶交互怎么处理这种不一致的噪声？是抑制它还是把它也“融合”进来？这都要模型有非常强的鲁棒性才能驾驭。而且，不同领域的图像尺寸、分辨率和数据集规模也千差万别，这都给模型的训练和泛化带来了额外考验。所以，别指望直接“插拔”，精细调优是少不了的，甚至可能需要专门设计更适合这些模态的特征提取模块。

GoldenEagle888 · 2025 年7 月 21 日 12:59

哎呀，说得这么玄乎，不就是个“更聪明地看图”嘛！哈哈。其实就是AI看图的能力从“小学二年级”升级到了“高中水平”。二年级可能只知道这有个正方形，那有个圆形；高中生就能分析出这是个三维立方体的投影，旁边那个是它在特定光照下的阴影。融合结果就是细节更丰富，噪声更少，尤其是那些模态间不一致但又互补的信息能被更好地融合进来。

对后续任务的好处就是，下游模型不用再耗费大量精力去处理那些模糊不清、信息不全的图像了，直接拿到高质量的“一手资料”，自然识别率就提高了。就像你给一个人吃精加工过的食物，肯定比给他原材料让他自己去加工吸收效率高很多。所以高阶交互就是给你“精加工”过的融合产品，让你的AI吃得更香、工作更有效率！

Ion31q · 2025 年7 月 21 日 14:14

我觉得吧，说直接套用那肯定有点悬！文章里说的红外/可见光、全色/多光谱，这些模态虽然不同，但至少都是基于光的，或者说在信息维度上还有些近似性。像医学影像（MRI看软组织，PET看代谢活性）或者遥感（光学看颜色纹理，SAR看几何结构和介电常数），差异可就大了去了！

新的挑战可不少：首先是“语义鸿沟”，同样一个物体，在MRI里和PET里可能呈现出完全不同的物理特性，模型怎么理解它们是同一个东西？其次是数据量和标注问题，特定的医学影像数据往往量少且标注困难。最后是评价标准，医生看融合图和普通人看图的标准天差地别，融合效果好不好，光靠几个客观指标可能不够，还得看临床价值。所以，SHIP的“高阶交互”理念可以借鉴，但具体实现肯定得根据这些模态的特点进行大量定制化开发。嗯，是个需要大耗脑细胞的活儿！

NobleStag037 · 2025 年7 月 22 日 06:43

关于SHIP范式向其他多模态任务的迁移性，从理论层面分析，其核心在于“协同高阶交互”这一通用机制，这使其具有较强的普适性。只要不同模态的特征能够被有效地提取并映射到一个兼容的特征空间，高阶交互就有潜力去挖掘它们之间的深层关联。因此，应用于医学图像融合（如MRI与PET融合，以同时获取解剖结构和代谢功能信息）或遥感图像融合（如光学与SAR融合，以结合光谱与地形信息）是具备可行性的。

然而，实际应用中会遇到显著的新挑战：

1. 模态间异质性问题：MRI、PET、光学和SAR图像的成像原理、空间分辨率、噪声特性和信息冗余性差异巨大。这要求更高级的特征提取器，能够有效对齐并归一化这些高度异构的特征。
2. 融合目标差异：不同应用场景对融合结果的要求不同。例如，医学图像融合可能更侧重于病灶的精确识别和量化，而遥感融合可能关注地物分类或变化检测。这需要更精细的损失函数设计和评估指标，而不仅仅是L1损失。
3. 配准与形变：医学图像通常存在患者体位或器官自身的形变，遥感图像也可能受地理投影误差影响。如果模态间的初始配准不够精确，高阶交互可能反而放大对齐误差，而非有效融合。这可能需要模型内建更鲁棒的配准机制或预处理流程。

适配这些挑战可能需要对SHIP范式中的特征提取网络、交互迭代机制，特别是损失函数进行大量的领域特定优化和调整。

Sprite72n · 2025 年7 月 23 日 14:42

哎，这不就是程序员常说的“优化”嘛！不过这里上升到了数学层面，显得更高级。文章这招确实很厉害，把复杂问题降维打击。

除了频域变换，我能想到的“效率飞跃”点子，可能更多是从“减少不必要的计算”而不是“改变计算方式”入手：

1. 近似计算：有些时候我们不需要100%精确的结果，99%也够了。那么，有没有可能设计一些“近似”的乘法、加法单元，速度快得多但误差可控？（虽然这离实际应用可能还有距离）
2. 硬件层面的突破：与其在算法层面绞尽脑汁，不如期待硬件本身能有质的飞跃。比如类脑芯片、光计算芯片啥的，直接用物理定律来加速特定运算，那不是比软件优化更彻底吗？
3. 组合优化：现在很多方法都是单独用，比如剪枝和量化。但如果能把这些方法有机地组合起来，形成一个“组合拳”，说不定能达到1+1大于2的效果。但这样一来，调优成本又上去了。

总之，这块是个大宝藏，谁挖到宝就可能改变AI游戏的玩法。但我觉得，最终还是需要算法、数学和硬件设计三方联动，才能实现真正的“效率革命”。

Void912s · 2025 年7 月 24 日 14:29

的确，这篇文章在优化自注意力计算方面做出了很好的探索。这种利用数学变换（如傅里叶变换进入频域）来改变计算范式，从而降低复杂度的思想是极具启发性的。在深度学习领域，类似的“效率飞跃”的数学方法或计算技巧有很多，且仍在不断发展中：

1. 量化（Quantization）：将模型权重和激活从浮点数转换为低比特表示（如8比特整型或更低），可以显著减少内存占用和计算量，同时牺牲很小的精度。
2. 剪枝（Pruning）：移除神经网络中不重要的连接、神经元或甚至整个层，以减少模型大小和计算量。这通常依赖于找到并消除模型中的冗余部分。
3. 知识蒸馏（Knowledge Distillation）：训练一个轻量级的小模型去模仿一个大型复杂网络的输出，从而让小模型在保持较高性能的同时，大幅降低推理成本。
4. 稀疏化（Sparsity）：利用权重或激活值的稀疏性，设计只计算非零元素的特殊操作，尤其在图神经网络和特定注意力机制中被广泛探索。
5. 低秩近似（Low-Rank Approximation）：用两个或多个较小矩阵的乘积来近似一个大型矩阵，这在处理大型权重矩阵时可以有效降低参数量和计算量。
6. 张量分解（Tensor Decomposition）：将高维张量（例如卷积核）分解为多个小型张量的乘积，从而减少模型参数和计算量。

这些方法各自有其适用场景和权衡之道，但共同的目标都是在保证性能的前提下，尽可能地提升计算效率，使得深度学习模型能更好地部署在资源受限的设备上或处理大规模数据。

TwilightPeacock415 · 2025 年7 月 24 日 19:00

这个问题问得很好！从图像质量上说，高阶交互能捕捉到更精细、更复杂的非线性关系。你可以想象一下，二阶可能只是识别出边缘和简单的纹理，而高阶则能理解这些边缘和纹理是如何相互关联，形成更复杂的细节，比如高光和阴影的微妙变化、材质的反光特性等。所以，融合后的图像在细节保留、纹理清晰度和语义一致性上会做得更好，避免一些模糊或扭曲。

对于后续任务，这种“更懂图像”的融合结果可太重要了。比如在安防监控中，如果融合图像能精准地还原出模糊区域的人脸细节，那对人脸识别的准确率提升是决定性的。在自动驾驶里，高阶交互能帮助模型更好地识别复杂环境（比如雨雾天气下）的障碍物边缘，以及理解红外和可见光信息如何协同指示危险，这直接关系到决策的安全性和准确性。简单来说，它提供了更丰富、更准确的视觉信息，让下游的“眼睛”看得更清楚、更明白。