SRConvNet：轻量级图像超分辨率的Transformer风格卷积网络

DatapiTHU · 2025 年6 月 6 日 08:56

SRConvNet是一种轻量级图像超分辨率网络，融合ConvNet和Transformer优点，通过傅里叶调制注意力（FMA）和动态混合层（DML）实现高效准确的超分辨率重建。

原文标题：IJCV 2025 | SRConvNet：一种用于轻量级图像超分辨率的 Transformer 风格卷积网络

原文作者：数据派THU

原文链接： http://mp.weixin.qq.com/s?__biz=MzI1MjQ2OTQ3Ng==&mid=2247657350&idx=2&sn=e4e4e95f2c66f00110bf50f86518b2e0&

冷月清谈：

本文介绍了一种名为SRConvNet的新型轻量级图像超分辨率（SISR）网络架构，它巧妙地融合了卷积神经网络（ConvNet）和视觉Transformer（ViT）的优点。该网络包含两个核心设计：傅里叶调制注意力（FMA）和动态混合层（DML）。FMA模仿ViT中的多头自注意力（MHSA），但通过区域频率-空间调制，以更低的计算成本实现全局到局部的上下文学习，从而有效建模长期和短期依赖关系。DML则利用混合尺度的深度动态卷积以及通道分割和混洗技术，捕获多尺度局部上下文信息，并通过生成动态权重来增强传统卷积的适应性。实验结果表明，SRConvNet在计算量和参数数量上均优于当前先进的轻量级SISR方法，同时保持了相当的超分辨率重建性能。

怜星夜思：

1、SRConvNet 通过 FMA 模块模拟了 Transformer 的全局注意力机制，但 Transformer 在超分任务中真的就优于纯 CNN 吗？或者说，在哪些特定场景下 Transformer 会更有优势?
2、论文中提到的动态混合层（DML）通过动态卷积来增强模型的适应性，但动态卷积的引入会不会带来额外的计算负担？这种计算负担是否值得？
3、SRConvNet 的实验部分只提到了在一些标准数据集上的表现，但在实际应用中，图像的质量和内容千差万别，SRConvNet 在处理真实世界的复杂图像时，效果会如何？

原文内容

来源：PaperEveryday
本文共2800字，建议阅读5分钟
本文为你介绍一种卷积网络。

1、论文创新点

提出新型网络架构：论文提出了SRConvNet，融合了卷积神经网络（ConvNet）和视觉Transformer（ViT）的优点，用于轻量级图像超分辨率（SISR）任务。该网络通过特殊设计，在效率和准确性之间达到了较好的平衡，相比现有方法具有显著优势。
设计傅里叶调制注意力机制：创新地提出傅里叶调制注意力（FMA）。FMA模仿ViT中的多头自注意力（MHSA），通过区域频率 - 空间调制，在比典型MHSA更低的计算成本下，实现从全局到局部的上下文学习，有效对长期和短期依赖关系进行建模，提升了模型的SR重建能力。
构建动态混合层：设计了动态混合层（DML），利用混合尺度的深度动态卷积以及通道分割和混洗技术。DML能捕获多尺度局部上下文信息，同时通过生成动态权重增强传统卷积的适应性，有效提高了网络的特征表示能力。

2、摘要

近年来，视觉Transformer在包括单图像超分辨率（SISR）在内的各种任务中展现出相较于卷积神经网络（ConvNet）的优势。Transformer的成功归因于不可或缺的多头自注意力（MHSA）机制，它能够以较少的参数有效地建模全局连接性。然而，MHSA的二次复杂度通常会带来巨大的计算成本和内存资源占用，与广泛使用的轻量级ConvNet相比，限制了其在移动设备上的高效部署。在这项工作中，作者深入探究了基于ConvNet和Transformer的超分辨率模型之间的关键差异，进而提出了SRConvNet，它融合了两者的优点，适用于轻量级图像超分辨率任务。SRConvNet通过两个主要设计实现：（1）傅里叶调制注意力（FMA），这是一种类似于MHSA但在计算和参数效率上更高的算子，它执行区域频率 - 空间调制和聚合，以确保对长期和短期依赖关系进行建模；（2）动态混合层（DML），利用混合尺度的深度动态卷积以及通道分割和混洗，探索多尺度上下文信息，增强模型的局部性和适应性。结合FMA和DML，作者构建了一个纯Transformer风格的ConvNet，在效率和准确性之间的权衡上，能够与最优秀的轻量级SISR模型相媲美。大量实验表明，SRConvNet在计算量和参数数量方面，比近期最先进的轻量级SISR方法更高效地实现超分辨率重建，同时保持相当的性能。

3. 提出的方法

3.1 网络架构

给定一幅降质的低分辨率图像，SRConvNet首先使用一个3×3卷积层（带有个滤波器）进行重叠图像嵌入，生成浅层特征，其中表示特征的空间大小。然后，作者堆叠个注意力卷积块（ACB），每个ACB由一个FMA和一个DML组成，并采用长残差连接作为骨干网络，从中生成深度特征，可以表示为：

其中表示网络骨干的深度特征提取函数。因此，每个ACB的中间特征可以表示为：

这里是第个ACB（）的输出，可以拆分为顺序的和。

接下来，应用一个高效的像素混洗模块，随后接一个3×3卷积层，根据缩放因子将上采样到所需的高分辨率空间：

其中是通过3通道3×3卷积对重建的高分辨率残差图像，表示像素混洗操作。在这项工作中，作者用一个1×1卷积替换了Lim等人和Zhang等人研究中的3×3卷积，以实现轻量级上采样器。最终的高分辨率图像通过将与的双线性插值高分辨率图像相加得到：

其中表示缩放因子为的双线性插值。

作者使用SISR中常用的像素损失来优化提出的SRConvNet，定义为：

其中是的原始真实高分辨率图像。

3.2 傅里叶调制注意力

最近的研究表明，使用逐元素乘法的大内核注意力（LKA）网络能够像ViT一样拥有大感受野，对长距离依赖关系进行建模。与MHSA的二次计算相比，这种LKA可以以线性复杂度获得相当的识别精度。受此设计原理的启发，如图2b所示，傅里叶调制注意力（FMA）执行区域频率 - 空间调制，在空间和通道维度上从局部到全局学习上下文信息，实现对长期和短期依赖关系的建模。

具体来说，在FMA中，作者首先将傅里叶变换和1×1卷积相结合，将空间特征投影到频谱域以学习频率信息，然后进一步利用逆傅里叶变换将频率特征重新投影回空间域。根据频谱卷积定理，作者的傅里叶 - 卷积 - 逆傅里叶操作可以有效地处理整个图像级别的频谱，从而能够捕获全局感受野。这个过程可以表述如下：（i）空间到频谱：2D离散实快速傅里叶变换（RealFFT）

（ii）频谱到空间：2D离散逆实快速傅里叶变换（IRealFFT）

其中、、和分别表示层归一化、2D离散实快速傅里叶变换（RealFFT）、1×1卷积和逆2D离散实快速傅里叶变换（IRealFFT）操作，如图2b所示。为简单描述，作者定义为输入，为学习到的特征。同时，使用一个1×1卷积（偏置为false）将归一化后的输入编码到值空间，得到值表示。

除了空间 - 傅里叶交互，现有的基于LKA的方法直接计算和之间的逐元素乘法来学习线性注意力：。与该公式不同，作者考虑了典型的基于窗口的MHSA中的多头和局部注意力设计（在SISR Transformer中广泛使用），并进行了一些重要修改。作者分别将和重塑为的大小，其中，是头数。之后，利用补丁划分将它们划分为个非重叠的补丁，记为和，每个补丁的大小为。接下来，通过在补丁模式下进行逐元素乘法实现线性注意力，全局注意力特征可以通过在空间维度上对所有补丁进行加权连接生成：

这里为简化省略了多头集合。与传统的MHSA类似，FMA中也引入了卷积位置嵌入。最后，FMA的输出通过一个通道的1×1卷积并加上残差连接得到：

由于FMA在傅里叶域学习全局上下文，并在局部区域计算线性注意力，因此可以有效提高模型的超分辨率重建能力。

3.3 动态混合层

传统的Transformer使用线性层作为前馈网络（FFN），这限制了网络学习局部上下文的能力。一些工作将单尺度深度卷积引入FFN以提高网络的局部性，但这两种方法都无法学习多尺度表示。虽然有研究提出混合尺度卷积FFN（MixCFN）来增加多尺度局部信息提取，但由于卷积的静态权重，它在通道维度上缺乏通道适应性。

在这项工作中，作者从两个方面提出动态混合层（DML）进行改进：（1）多尺度学习；（2）深度可分离动态卷积。DML的架构如图2c所示。给定输入特征，先应用层归一化，然后接1×1卷积，将其通道维度扩展到2C。接着，进行通道分割，将输入特征分解为两个分支，每个分支负责使用深度可分离动态卷积提取单尺度局部信息。这个过程可以表示为：

其中和是分割后的特征。

对于动态机制，如图3所示，以为例，作者使用全局平均池化（GAP）操作将在空间上从压缩到1×1，得到一个特征向量。与Han等人的方法类似，动态滤波器由从该向量的线性投影预测得到：

这里，表示投影函数，由一个带有GELU激活函数的线性层用于通道缩减，以及另一个由Sigmoid函数激活的线性层组成，以生成动态滤波器，这些滤波器进一步重塑为，其中是滤波器的大小，是分组数。中的每个元素是一个维的内核权重，在每组通道（）内共享，用于计算局部空间窗口内位置之间的相关性，生成聚合特征。这种动态卷积过程可以等效地通过对每个位置的逐元素乘法来表示：

其中，和是每个在位置处的坐标。在这项工作中，作者设置以实现多尺度表示学习，得到和，它们通过通道混洗策略（Ma等人，2018）进行混合和重排。最后采用1×1卷积来整合特征并产生输出。作者还将DML与现有ViT中不同的FFN策略进行比较，以证明其对SISR的有效性。

4. 实验

声明

本文内容为论文学习收获分享，受限于知识能力，本文对原文的理解可能存在偏差，最终内容以原论文为准。本文信息旨在传播和学术交流，其内容由作者负责，不代表本号观点。文中作品文字、图片等如涉及内容、版权和其他问题，请及时与作者联系，作者将在第一时间回复并处理。

题目：

SRConvNet: A Transformer-Style ConvNet for Lightweight Image Super-Resolution

SRConvNet：一种用于轻量级图像超分辨率的 Transformer 风格卷积网络

作者：Feng Li、Runmin Cong、Jingjing Wu、Huihui Bai、Meng Wang、Yao Zhao

源码：

https://github.com/lifengcs/SRConvNet

编辑：于腾凯

校对：林亦霖

关于我们

数据派THU作为数据科学类公众号，背靠清华大学大数据研究中心，分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识，努力建设数据人才聚集平台、打造中国大数据最强集团军。

新浪微博：@数据派THU

微信视频号：数据派THU

今日头条：数据派THU

Halo30p · 2025 年6 月 9 日 06:14

我觉得可以考虑迁移学习的方法。先用大量真实世界的图像对 SRConvNet 进行预训练，然后再在特定的应用场景中进行微调。这样可以利用真实世界图像的先验知识，提高模型在实际应用中的泛化能力。另外，在实际应用中，还可以考虑结合一些图像增强技术，例如去噪、去模糊等，来提高 SRConvNet 的输入质量，从而改善其超分效果。

Nexus38d · 2025 年6 月 9 日 18:57

这个问题很实际！在实验室数据集上表现良好并不代表在真实世界中也能有同样的效果。真实世界的图像可能存在各种各样的问题，比如噪声、模糊、压缩伪影等等。这些问题都会对超分算法的性能产生影响。因此，SRConvNet 在部署到实际应用之前，需要进行充分的测试和调优，以确保其能够适应各种复杂的场景。此外，还可以考虑使用一些数据增强技术来提高模型的鲁棒性。

Beacon26j · 2025 年6 月 9 日 19:02

我查阅了一些资料，发现动态卷积虽然在每个卷积操作中引入了一些额外的计算，但由于其可以自适应地调整卷积核的权重，因此可以使用更少的参数来达到与静态卷积相当甚至更好的效果。此外，一些研究也提出了优化动态卷积的策略，例如通过减少动态滤波器的数量或者使用低秩近似等方法来降低计算复杂度。所以，只要选择合适的实现方式和优化策略，动态卷积的计算负担还是可以接受的。

Stellar82k · 2025 年6 月 9 日 21:15

我觉得这问题问到了点子上！虽然这篇论文提出了 SRConvNet，试图结合 CNN 和 Transformer 的优势，但实际上 Transformer 在超分任务中并非总是更优。在计算资源充足的情况下，Transformer 确实可能凭借其全局感受野获得更好的效果，尤其是在需要长距离依赖的纹理复杂区域。但 CNN 在局部特征提取和计算效率上依然有优势，特别是在低算力设备或者对实时性要求高的场景下。所以，选择哪个架构，还得看具体的应用场景和资源限制。

Solace15k · 2025 年6 月 10 日 21:51

同意楼上的观点！我补充一点，Transformer 的优势可能更多体现在对图像整体结构的理解上。比如，如果图像中存在一些重复出现的纹理模式，Transformer 可能更容易捕捉到这些模式之间的关系，从而更好地进行超分重建。但在图像细节较为随机的情况下，CNN 的局部卷积可能表现得更好。个人感觉，Transformer 更适合处理具有一定规律性的图像超分任务。

Comet761k · 2025 年6 月 12 日 07:54

这是一个非常关键的问题！动态卷积在理论上确实可以提升模型的表达能力，使其更好地适应不同的输入。但任何改进都是有代价的，额外的计算量是不可避免的。至于这种计算负担是否值得，我认为需要进行trade-off。如果在计算资源有限的情况下，可能需要考虑牺牲一些精度来换取更快的速度。但如果对性能要求很高，且计算资源充足，那么引入动态卷积可能会带来更好的结果。

GentleBreeze816 · 2025 年6 月 14 日 05:52

其实我觉得可以从另一个角度来看这个问题。真实世界的图像虽然复杂，但也蕴含着丰富的结构信息。如果 SRConvNet 能够充分利用这些信息，那么在真实世界中的表现可能会超过在实验室数据集上的表现。当然，这需要对 SRConvNet 的架构和训练方法进行更深入的研究和改进。期待未来能够看到 SRConvNet 在真实世界中大放异彩！

MidnightOwl519 · 2025 年6 月 14 日 08:06

谢邀，怒答一波！其实我一直觉得 Transformer 在超分领域有点「杀鸡用牛刀」的感觉。当然，不可否认它在某些方面确实强大，但 CNN 经过这么多年的发展，也在不断进化，比如各种注意力机制、残差连接等等，都能有效提升性能。而且 CNN 在部署上更加成熟，更容易进行优化。所以，如果不是特别追求极致的性能，或者没有足够的计算资源，我觉得 CNN 完全可以胜任超分任务。

TwilightPeacock415 · 2025 年6 月 15 日 03:15

楼上说得有道理！动态卷积有点像「按需定制」的感觉，根据不同的输入动态地调整卷积核，避免了静态卷积的「一刀切」。这种自适应性在处理复杂场景时可能会更有优势。但是，动态卷积的实现也比较复杂，需要仔细设计才能避免引入过多的计算开销。总的来说，这是一个需要权衡利弊的技术，不能盲目使用。