MambaIRv2：清华提出高效图像复原新SOTA模型，突破Mamba架构因果局限

DatapiTHU · 2025 年4 月 17 日 14:31

清华提出MambaIRv2，一种图像复原SOTA模型，突破Mamba架构的因果局限，单次扫描实现高效高性能，CVPR 2025接收。

原文标题：CVPR 2025 | 清华提出MambaIRv2：图像复原超强SOTA模型

原文作者：数据派THU

原文链接： http://mp.weixin.qq.com/s?__biz=MzI1MjQ2OTQ3Ng==&mid=2247655680&idx=2&sn=f71d0db3fd982be58549eb1ea3fd5e13&

冷月清谈：

清华大学提出了新一代基于Mamba的图像复原模型MambaIRv2，已被CVPR 2025接收。该模型旨在解决Mamba模型因果扫描的局限性，通过引入Attentive State Space Module (ASSM)，特别是Attentive State-space Equation (ASE)和Semantic Guided Neighboring (SGN)，实现了类似ViT的非因果特性，提升了图像复原的性能和效率。MambaIRv2的关键创新在于使用单方向扫描替代多方向扫描，显著降低了计算复杂度，并在轻量化SR任务和经典SR任务上都取得了优异的结果，甚至超越了SRformer和HAT等现有模型。实验表明，MambaIRv2在参数量和计算负担上都实现了显著的降低，同时保持或提升了图像复原的质量。

怜星夜思：

1、MambaIRv2通过单方向扫描取代多方向扫描来提升效率，那么这种做法在其他视觉任务中是否也具有通用性？例如，在目标检测或者图像分割任务场景下，单向扫描会引入额外的问题吗？
2、文章提到了MambaIRv2在轻量化SR任务上表现出色，那么在移动设备或者嵌入式设备上部署MambaIRv2模型是否可行？会遇到哪些挑战？
3、MambaIRv2通过将SSM类比为Attention，实现了全局信息聚合。那么，是否可以将其他类型的神经网络结构也类比为Attention，从而实现类似的全局信息聚合效果？这种类比的思路具有普适性吗？

原文内容

来源：人工智能前沿讲习‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

         本文共1700字，建议阅读7分钟

         广泛的实验证实了MambaIRv2是一个高效、高性能的图像恢复骨干网络。

前段时间我们开发的基于Mamba的图像复原模型MambaIR受到了研究者的关注，并展示了Mamba作为除了CNN和Transformer之外的第三种图像修复backbone的潜力。

最近，我们在MambaIR的基础上继续开发了一个新版本MambaIRv2，目前已经被 CVPR 2025 接收。

下面是相关的论文和代码链接。

论文：arxiv.org/pdf/2411.15269

代码：github.com/csguoh/MambaIR

引言

简单来说，我们的MambaIRv2的主要亮点包括：

我们将原始MamabIR的扫描顺序从4次降低为了1次，同时不影响图像均匀采样
我们的MambaIRv2在lightSR任务上用更少参数实现了比SRformer更好的结果
在经典SR任务上，MambaIRv2用相同的参数量超过了HAT

Motivation

MambaIRv2要解决的核心问题就是Mamba模型的因果扫描局限性。具体来说，因果扫描就是如果我们将图像展开1D序列，那么在展开序列中的第i个像素只能利用到它的前i-1个像素，而无法用到序列之后的其他像素。这种mamba，或者更一般的自回归模型，的固有性质虽然对NLP任务很match，但是对非因果的视觉任务其实是存在局限的，因为大多数的视觉任务的所有token，即像素，是一次性可观的。

下面这个图总结了之前MambaIR的因果扫描 v.s. MambaIRv2的注意力扫描

因此，我们提出了MambaIRv2来实现类似ViT的那种第i个toekn可以一次性看到所有其他token的特性。也就是给Mamba加上类似注意力的功能，这也是为什么我们题目中有个"Attentive"的原因。

Some Findings

为了给Mamba加上注意力，我们首先观察了Mamba模型在图像复原任务中的特性：

1. 多方向信息冗余

目前的视觉Mamba方法，例如之前的MambaIR，主要是使用了多方向扫描来克服Mamba架构的因果扫描特性。虽然这样可以使得第i个像素看到序列中之后的像素，这也带来了高的计算复杂度。实验中，我们发现这种计算复杂度事实上是可以减少的，即不同方向的扫描序列之间其实是十分类似的，这也就为我们v2模型的单方向扫描奠定了基础。我们可视化了MambaIR的四个方向扫描得到的特征的相似度如下:

2. 远距离交互衰减

3. 连接SSM和Attention

我们事实上可以在数学上将SSM类比为Attention。具体推导我就不写了(不是我懒)，这里直接放结论：

我们可以把线性Attention改写为以下形式：

同时，按照类似的形式，我们也可以把SSM等价地转化为以下形式：

通过对比上面两个不同形式，我们可以看出状态空间方程和注意力机制之间的联系如下：

因此，一个直观的思路就是重新修改SSM的矩阵C，来让它实现类似注意力机制中的全局查询功能，也就实现了将注意力机制加入到Mamba中。（上面这些特性启发了我们设计新的MamabIRv2模型，也可以作为大家的takeaway。）

方法

我们提出的MambaIRv2模型的主要架构如上所示。模型架构的核心组件是Attentive State Space Module(ASSM)。其中ASSM又进一步地包括了Attentive State-space Equation(ASE)和Semantic Guided Neighboring(SGN)。下面是具体的技术细节：

Attentive State Space Module

Attentive State-space Equation

作为另一个优势，所提出的注意力状态空间方程允许模型只使用单一方向进行扫描，消除了现有方法中多方向扫描的高计算成本和冗余。

Semantic Guided Neighboring

R

实验

轻量化SR

经典SR

JPEG伪影修复

图像去噪声

进一步讨论

与MambaIR-V1版本对比

得益于减少的扫描方向，与之前的在像素空间执行4次扫描的MambaIR相比，所提出的MambaIRv2的一个显著优势是它只需要在语义空间进行单次扫描。如下表所示，MambaIRv2不仅效率高，还提升了性能。例如，MambaIRv2在2×Urban100上减少了43% 的参数量和50% 的计算负担，同时仍然相比MambaIR取得了0.34dB 的PSNR增益。

Attentive Map Visualization

在提出的注意力状态空间方程中，提示prompts在表示整个图像中相似像素以促进查询像素看到扫描序列之外的部分中扮演了重要角色。如上图所示，可以看到查询像素通过提示得以关注图像中对应的语义部分，从而实现了类似注意力机制的全局信息聚合。

结论

在这项工作中，我们引入了MambaIRv2，通过解决Mamba架构的因果建模特性问题以增强现有的基于状态空间模型的图像复原算法。我们提出了Attentive State-space Equation（ASE）通过提示学习策略扩大了像素的感知范围，并且只需要进行单次扫描从而大大提升了运行效率。此外，我们还引入了Semantic Guided Neighboring（SGN），它通过将相似的像素放置得更近来处理长距离衰减问题。这些创新使得MambaIRv2能够将类似ViT的非因果能力整合到基于Mamba的模型中，实现注意力状态空间图像修复。广泛的实验证实了MambaIRv2是一个高效、高性能的图像恢复骨干网络。

编辑：黄继彦‍‍‍

关于我们

数据派THU作为数据科学类公众号，背靠清华大学大数据研究中心，分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识，努力建设数据人才聚集平台、打造中国大数据最强集团军。

新浪微博：@数据派THU

微信视频号：数据派THU

今日头条：数据派THU

Comet761k · 2025 年4 月 18 日 05:01

从学术角度看，MambaIRv2的成功在于利用单向扫描减少了计算冗余，抓住了图像复原任务中信息冗余的特性。但在目标检测和图像分割中，不同方向的信息可能包含不同的特征，单向扫描可能会丢失一些关键信息，影响检测和分割的精度。当然，可以通过一些trick来缓解这个问题，例如引入注意力机制来补充信息。

Caliber237r · 2025 年4 月 20 日 03:31

我觉得关键在于找到不同结构之间的信息传递机制的对应关系。Attention是通过query、key和value来实现信息的选择性聚合，如果其他结构也能通过某种方式实现类似的信息选择性聚合，那么就可以类比为Attention。例如，图神经网络中的消息传递机制，也可以看作是一种Attention的形式。但是，这种类比需要建立在对不同结构深入理解的基础上，不能生搬硬套。

StormyRaven098 · 2025 年4 月 20 日 04:35

我认为这个问题的关键在于不同任务对上下文信息的需求不同。图像复原可能更侧重于全局的语义信息，而目标检测和分割则需要更精细的局部特征。单向扫描在目标检测和分割中可能会引入偏差，尤其是在处理小目标或者复杂场景时。但是，如果能够设计合适的网络结构和训练方法，或许可以在一定程度上缓解这个问题。

EmeraldDog210 · 2025 年4 月 20 日 20:50

从理论上讲，任何神经网络都可以看作是一个函数逼近器，而Attention机制也是一种特殊的函数。因此，将其他神经网络结构类比为Attention，本质上是在寻找不同函数之间的等价关系。但是，这种等价关系可能只在特定的条件下成立，或者需要进行一些转换才能实现。因此，这种类比的思路具有一定的启发性，但不能过度泛化。

Strider82w · 2025 年4 月 20 日 21:09

从工程角度分析，将MambaIRv2部署到移动设备上，主要面临以下挑战：1. 模型量化：需要将模型进行量化，减少模型大小和计算复杂度。2. 算子优化：针对移动设备的硬件特性，对模型中的算子进行优化。3. 内存管理：需要精细地管理内存，避免内存溢出。4. 功耗控制：需要在保证性能的同时，尽量降低功耗。综上，需要软硬件协同优化，才能实现MambaIRv2在移动设备上的高效部署。

Whisper28f · 2025 年4 月 21 日 08:57

这个想法很有意思！把不同的神经网络结构都往Attention上靠，感觉有点像“万物皆可Attention”。但仔细想想，Attention的核心在于对不同位置的信息进行加权，如果其他结构也能实现类似的效果，那理论上是可行的。不过，这种类比的普适性可能有限，需要具体分析不同结构的特点，找到它们与Attention的内在联系。

GreenTurtle317 · 2025 年4 月 22 日 22:16

我觉得MambaIRv2在移动端部署的潜力很大。一方面，它的轻量化设计本身就降低了部署的难度；另一方面，随着移动设备算力的不断提升，以及各种移动端AI框架的不断涌现，将MambaIRv2部署到移动端的技术门槛也在逐渐降低。当然，实际部署过程中，还需要进行针对性的优化，例如模型压缩、算子融合等。

FrostyPenguin271 · 2025 年4 月 23 日 06:09

我觉得MambaIRv2的单向扫描思路挺有意思的。在图像复原这种任务里，全局一致性可能更重要，所以单向扫描抓主要矛盾没问题。但目标检测和分割就不同了，对局部特征的敏感度更高，单向扫描会不会造成信息丢失或偏差？感觉需要具体问题具体分析，不能一概而论。

Celeste49f · 2025 年4 月 23 日 15:58

MambaIRv2在轻量化上做了优化，理论上在移动端部署是可行的。但实际操作起来，估计还是有不少坑。例如，移动设备的算力毕竟有限，模型推理速度可能达不到实时要求。另外，内存占用也是个问题，毕竟移动设备的内存资源很紧张。总之，需要进行大量的优化和适配工作。