SRConvNet是一种轻量级图像超分辨率网络,融合ConvNet和Transformer优点,通过傅里叶调制注意力(FMA)和动态混合层(DML)实现高效准确的超分辨率重建。
原文标题:IJCV 2025 | SRConvNet:一种用于轻量级图像超分辨率的 Transformer 风格卷积网络
原文作者:数据派THU
冷月清谈:
怜星夜思:
2、论文中提到的动态混合层(DML)通过动态卷积来增强模型的适应性,但动态卷积的引入会不会带来额外的计算负担?这种计算负担是否值得?
3、SRConvNet 的实验部分只提到了在一些标准数据集上的表现,但在实际应用中,图像的质量和内容千差万别,SRConvNet 在处理真实世界的复杂图像时,效果会如何?
原文内容
来源:PaperEveryday本文共2800字,建议阅读5分钟
本文为你介绍一种卷积网络。
1、论文创新点
-
提出新型网络架构:论文提出了SRConvNet,融合了卷积神经网络(ConvNet)和视觉Transformer(ViT)的优点,用于轻量级图像超分辨率(SISR)任务。该网络通过特殊设计,在效率和准确性之间达到了较好的平衡,相比现有方法具有显著优势。
-
设计傅里叶调制注意力机制:创新地提出傅里叶调制注意力(FMA)。FMA模仿ViT中的多头自注意力(MHSA),通过区域频率 - 空间调制,在比典型MHSA更低的计算成本下,实现从全局到局部的上下文学习,有效对长期和短期依赖关系进行建模,提升了模型的SR重建能力。
-
构建动态混合层:设计了动态混合层(DML),利用混合尺度的深度动态卷积以及通道分割和混洗技术。DML能捕获多尺度局部上下文信息,同时通过生成动态权重增强传统卷积的适应性,有效提高了网络的特征表示能力。
2、摘要
近年来,视觉Transformer在包括单图像超分辨率(SISR)在内的各种任务中展现出相较于卷积神经网络(ConvNet)的优势。Transformer的成功归因于不可或缺的多头自注意力(MHSA)机制,它能够以较少的参数有效地建模全局连接性。然而,MHSA的二次复杂度通常会带来巨大的计算成本和内存资源占用,与广泛使用的轻量级ConvNet相比,限制了其在移动设备上的高效部署。在这项工作中,作者深入探究了基于ConvNet和Transformer的超分辨率模型之间的关键差异,进而提出了SRConvNet,它融合了两者的优点,适用于轻量级图像超分辨率任务。SRConvNet通过两个主要设计实现:(1)傅里叶调制注意力(FMA),这是一种类似于MHSA但在计算和参数效率上更高的算子,它执行区域频率 - 空间调制和聚合,以确保对长期和短期依赖关系进行建模;(2)动态混合层(DML),利用混合尺度的深度动态卷积以及通道分割和混洗,探索多尺度上下文信息,增强模型的局部性和适应性。结合FMA和DML,作者构建了一个纯Transformer风格的ConvNet,在效率和准确性之间的权衡上,能够与最优秀的轻量级SISR模型相媲美。大量实验表明,SRConvNet在计算量和参数数量方面,比近期最先进的轻量级SISR方法更高效地实现超分辨率重建,同时保持相当的性能。
3. 提出的方法
3.1 网络架构
给定一幅降质的低分辨率图像 ,SRConvNet首先使用一个3×3卷积层(带有 个滤波器)进行重叠图像嵌入,生成浅层特征 ,其中 表示特征的空间大小。然后,作者堆叠 个注意力卷积块(ACB),每个ACB由一个FMA和一个DML组成,并采用长残差连接作为骨干网络,从 中生成深度特征 ,可以表示为:
其中 表示网络骨干的深度特征提取函数。因此,每个ACB的中间特征可以表示为:
这里 是第 个ACB( )的输出, 可以拆分为顺序的 和 。
接下来,应用一个高效的像素混洗模块,随后接一个3×3卷积层,根据缩放因子 将 上采样到所需的高分辨率空间:
其中 是通过3通道3×3卷积 对 重建的高分辨率残差图像, 表示像素混洗操作。在这项工作中,作者用一个1×1卷积替换了Lim等人和Zhang等人研究中的3×3卷积,以实现轻量级上采样器。最终的高分辨率图像 通过将 与 的双线性插值高分辨率图像相加得到:
其中 表示缩放因子为 的双线性插值。
作者使用SISR中常用的 像素损失来优化提出的SRConvNet,定义为:
其中 是 的原始真实高分辨率图像。
3.2 傅里叶调制注意力
最近的研究表明,使用逐元素乘法的大内核注意力(LKA)网络能够像ViT一样拥有大感受野,对长距离依赖关系进行建模。与MHSA的二次计算相比,这种LKA可以以线性复杂度获得相当的识别精度。受此设计原理的启发,如图2b所示,傅里叶调制注意力(FMA)执行区域频率 - 空间调制,在空间和通道维度上从局部到全局学习上下文信息,实现对长期和短期依赖关系的建模。
具体来说,在FMA中,作者首先将傅里叶变换和1×1卷积相结合,将空间特征投影到频谱域以学习频率信息,然后进一步利用逆傅里叶变换将频率特征重新投影回空间域。根据频谱卷积定理,作者的傅里叶 - 卷积 - 逆傅里叶操作可以有效地处理整个图像级别的频谱,从而能够捕获全局感受野。这个过程可以表述如下: (i)空间到频谱:2D离散实快速傅里叶变换(RealFFT)
(ii)频谱到空间:2D离散逆实快速傅里叶变换(IRealFFT)
其中 、 、 和 分别表示层归一化、2D离散实快速傅里叶变换(RealFFT)、1×1卷积和逆2D离散实快速傅里叶变换(IRealFFT)操作,如图2b所示。为简单描述,作者定义 为输入, 为学习到的特征。同时,使用一个1×1卷积(偏置为false)将归一化后的输入编码到值空间,得到值表示 。
除了空间 - 傅里叶交互,现有的基于LKA的方法直接计算 和 之间的逐元素乘法来学习线性注意力: 。与该公式不同,作者考虑了典型的基于窗口的MHSA中的多头和局部注意力设计(在SISR Transformer中广泛使用),并进行了一些重要修改。作者分别将 和 重塑为 的大小,其中 , 是头数。之后,利用补丁划分将它们划分为 个非重叠的补丁,记为 和 ,每个补丁的大小为 。接下来,通过在补丁模式下进行逐元素乘法实现线性注意力,全局注意力特征 可以通过在空间维度上对所有补丁进行加权连接生成:
这里为简化省略了多头集合。与传统的MHSA类似,FMA中也引入了卷积位置嵌入 。最后,FMA的输出 通过一个 通道的1×1卷积并加上残差连接得到:
由于FMA在傅里叶域学习全局上下文,并在局部区域计算线性注意力,因此可以有效提高模型的超分辨率重建能力。
3.3 动态混合层
传统的Transformer使用线性层作为前馈网络(FFN),这限制了网络学习局部上下文的能力。一些工作将单尺度深度卷积引入FFN以提高网络的局部性,但这两种方法都无法学习多尺度表示。虽然有研究提出混合尺度卷积FFN(MixCFN)来增加多尺度局部信息提取,但由于卷积的静态权重,它在通道维度上缺乏通道适应性。
在这项工作中,作者从两个方面提出动态混合层(DML)进行改进:(1)多尺度学习;(2)深度可分离动态卷积。DML的架构如图2c所示。给定输入特征 ,先应用层归一化,然后接1×1卷积,将其通道维度扩展到2C。接着,进行通道分割,将输入特征分解为两个分支,每个分支负责使用深度可分离动态卷积提取单尺度局部信息。这个过程可以表示为:
其中 和 是分割后的特征。
对于动态机制,如图3所示,以 为例,作者使用全局平均池化(GAP)操作将 在空间上从 压缩到1×1,得到一个特征向量。与Han等人的方法类似,动态滤波器由从该向量的线性投影预测得到:
这里, 表示投影函数,由一个带有GELU激活函数的线性层用于通道缩减,以及另一个由Sigmoid函数激活的线性层组成,以生成动态滤波器,这些滤波器进一步重塑为 ,其中 是滤波器的大小, 是分组数。 中的每个元素是一个 维的内核权重,在每组通道( )内共享,用于计算局部空间 窗口内位置之间的相关性,生成聚合特征 。这种动态卷积过程可以等效地通过对每个位置的逐元素乘法来表示:
其中 , 和 是每个 在位置 处的坐标。在这项工作中,作者设置 以实现多尺度表示学习,得到 和 ,它们通过通道混洗策略(Ma等人,2018)进行混合和重排。最后采用1×1卷积来整合特征并产生输出 。作者还将DML与现有ViT中不同的FFN策略进行比较,以证明其对SISR的有效性。
4. 实验
声明
本文内容为论文学习收获分享,受限于知识能力,本文对原文的理解可能存在偏差,最终内容以原论文为准。本文信息旨在传播和学术交流,其内容由作者负责,不代表本号观点。文中作品文字、图片等如涉及内容、版权和其他问题,请及时与作者联系,作者将在第一时间回复并处理。