告别高内存占用！首尔大学提出ESC网络，用卷积模拟自注意力实现超分辨率性能飞跃

DatapiTHU · 2025 年5 月 21 日 16:15

首尔大学提出ESC网络，用卷积模拟自注意力，显著降低内存占用，提升图像超分辨率性能，为移动端部署带来新希望。

原文标题：卷积也能玩转自注意力？韩国团队用13×13大核卷积实现超分辨率性能突破！

原文作者：数据派THU

原文链接： http://mp.weixin.qq.com/s?__biz=MzI1MjQ2OTQ3Ng==&mid=2247657147&idx=2&sn=3fa6cab91e5c78f8672ffb1e9aaf4ae4&

冷月清谈：

首尔大学团队提出了一种名为ESC (Emulating Self-attention with Convolution) 的新型图像超分辨率网络，旨在解决Transformer模型在移动端部署时内存开销过大的问题。该研究的核心发现是，自注意力机制提取的特征在不同层间具有高度相似性。基于此，ESC网络用13×13大核卷积和动态卷积核来模拟自注意力机制，从而在保持甚至提升性能的同时，显著降低了计算延迟和内存占用。ESC网络由浅层特征提取、深层特征提取、图像级跳跃连接和上采样模块组成，其深层特征提取器包含多个ESCBlock，每个Block采用“1自注意力+M ConvAttn”的混合结构。实验结果表明，ESC网络在经典、任意尺度和真实世界超分辨率任务中均表现出色，尤其是在内存占用方面，相比SwinIR-light降低了31%，同时性能提升1.1dB，为轻量级视觉Transformer指明了新的方向。

怜星夜思：

1、论文中提到ConvAttn模块使用13x13的大核卷积，并表示这是在感受野和计算量之间取得的最佳平衡。那么，如果计算资源充足的情况下，更大的卷积核（例如17x17或更大）是否会带来更好的性能提升？为什么？
2、论文中提到ESC网络使用了Flash Attention来优化自注意力层，并且将窗口尺寸扩大到32x32。Flash Attention在图像超分辨率任务中具体是如何发挥作用的？为什么扩大窗口尺寸可以进一步提升性能？
3、论文中提到ESC网络在真实世界超分辨率任务中表现出色，但是真实世界图像的退化情况非常复杂，仅仅使用RealESRGAN退化模型合成数据是否足够？未来如何进一步提升模型在真实场景下的泛化能力？

原文内容

来源：人工智能前沿讲习
本文共2700字，建议阅读6分钟
这种"卷积化"思路为轻量级视觉模型提供了新范式，特别适合移动端超分辨率应用。

寄语：

如何用卷积网络实现Transformer的长程建模能力？首尔大学团队给出了创新解决方案！这篇论文巧妙地将Transformer的自注意力机制"翻译"成了卷积操作，不仅保持了性能优势，还大幅降低了计算开销。这种"卷积化"思路为轻量级视觉模型提供了新范式，特别适合移动端超分辨率应用。

论文标题:
Emulating Self-attention with Convolution for Efficient Image Super-Resolution

发表日期:
2025年3月

作者:
Dongheon Lee, Seokju Yun, Youngmin Ro

发表单位:
Machine Intelligence Laboratory, University of Seoul, Korea

原文链接:
https://arxiv.org/pdf/2503.06671

开源代码链接:
https://github.com/dslisleedh/ESC

引言

Transformer在图像超分辨率任务中表现出色，但其自注意力机制带来的内存开销让移动端部署望而却步。首尔大学团队另辟蹊径，发现自注意力提取的特征在不同层间高度相似，于是用13×13大核卷积配合动态卷积核模拟自注意力机制，打造出兼顾性能和效率的ESC网络。

项目核心效果展示图：

真实场景超分辨率视觉结果对比1：

真实场景超分辨率视觉结果对比2：

这项研究不仅实现了0.27dB的性能提升，更将延迟和内存占用分别降低3.7倍和6.2倍，为轻量级视觉Transformer指明新方向。

问题背景及相关工作

图像超分辨率（Super-Resolution, SR）任务旨在从低分辨率图像重建高分辨率图像，是计算机视觉领域的重要研究方向。随着多媒体内容和生成模型需求的激增，如何在资源受限条件下实现高质量超分辨率成为关键挑战。

Transformer凭借自注意力机制（Self-Attention）在SR任务中展现出优于传统CNN的性能，但其内存访问开销成为移动端部署的瓶颈。例如SwinIR-light重建HD图像时，虽然FLOPs和参数量分别减少14.5倍和17倍，但延迟增加4.7倍，内存使用翻倍。

现有研究主要从三个方向优化：

局部窗口注意力如SwinIR通过限制注意力计算范围降低计算量；

通道注意力如Restormer通过通道维度计算注意力减少空间计算；

状态空间模型如MambaIR尝试用SSM替代注意力机制。

术语解读

ConvAttn（Convolutional Attention）：论文提出的卷积化自注意力模块，通过共享大核卷积和动态卷积核模拟自注意力的长程建模和输入依赖加权特性。

Flash Attention：一种内存高效的注意力计算方法，通过避免显式存储注意力分数矩阵来减少内存占用。

CKA（Centered Kernel Alignment）相似度：用于衡量不同层特征相似性的指标，值越高表示特征相似性越强。

核心设计

ESC网络的核心创新在于发现自注意力特征在不同层间高度相似（平均相似度达87%），因此提出用ConvAttn模块替代大部分自注意力层。具体设计包含三大关键技术：

分层注意力策略：仅在每个ESCBlock的第一层保留自注意力，后续层全部替换为ConvAttn；

双路径卷积机制：ConvAttn同时采用13×13共享大核卷积（模拟长程依赖）和3×3动态卷积核（实现输入依赖加权）；

Flash Attention优化：对保留的自注意力层应用Flash Attention，将窗口尺寸扩大到32×32。

图3展示了ESC网络的四组件架构：浅层特征提取、深层特征提取、图像级跳跃连接和上采样模块。其中深层特征提取器包含多个ESCBlock，每个Block采用"1自注意力+M ConvAttn"的混合结构。

论文主体思路

主要创新点

卷积化自注意力：首次证明精心设计的卷积可以替代大部分自注意力层而不损失Transformer优势；

内存优化突破：首次在轻量级SR任务成功应用Flash Attention，窗口尺寸扩大到32×32时内存占用降低12.2倍；

架构简化：无需复杂注意力变体或跨窗口交互机制，仅通过卷积操作实现跨窗口特征提取。

核心原理推导

ConvAttn模块的数学表达可分解为四个关键步骤：

特征分割：将输入特征FCF沿通道维度分割为Fatt∈ℝH×W×16和Fidt∈ℝH×W×(C-16)；

动态核生成：通过GAP+1×1卷积生成动态深度卷积核DK∈ℝ3×3×1×16；

双路径卷积：Fres = (Fatt⊛DK) + (Fatt⊛LK)，其中LK为共享的13×13大核；

特征融合：将Fres与Fidt拼接后通过1×1卷积融合。

公式1展示了网络整体计算流程，其中H表示深层特征提取器，由N个ESCBlock组成。每个ESCBlock采用残差结构，包含1个自注意力层和M个ConvAttn层。

数据准备及实验设计

实验设计包含三大任务场景验证：

经典SR：在DIV2K上训练，测试集包含Set5/Set14等5个基准数据集；

任意尺度SR：采用LTE上采样器，验证模型在未见尺度(如×12)的泛化能力；

真实世界SR：使用RealESRGAN退化模型合成训练数据，在RealSRSet上测试。

消融实验重点验证：ConvAttn中LK共享的必要性、动态卷积核的作用、自注意力窗口尺寸的影响等关键设计选择。

实验结果

图5展示了经典SR任务（×2倍放大）的视觉对比结果。在建筑物纹理恢复场景中，ESC不仅重建出最清晰的窗格线条，还在右侧墙面实现了0.29dB的PSNR提升，显著优于MambaIRV2-light等对比方法。

在DIV2K数据集上的定量对比显示，ESC在Urban100×4任务上以仅627MB内存占用达成33.86dB PSNR，相比SwinIR-light内存降低31%的同时性能提升1.1dB。

实验结果分析

图6揭示了ConvAttn模块的工作机理：当同时使用共享大核（LK）和动态核（DK）时，层间CKA相似度从单独使用LK的0.89降至0.83，说明动态核有效提升了特征多样性。右侧特征图显示ConvAttn成功捕捉到与自注意力相似的结构化特征。

消融实验（表3）证实：

1. 仅用自注意力时延迟增加8%，说明ConvAttn的替代策略有效；

2. 动态核移除导致PSNR下降0.09dB，验证其必要性；

3. 窗口尺寸从32减小到16时性能下降0.41dB，突显Flash Attention的价值。

图7的LAM分析显示，ESC的扩散指数达到0.78，显著高于SwinIR的0.65。这说明用大核卷积模拟自注意力后，模型仍能保持优异的长程建模能力。

三问

下面是龙哥对于大家可能的一些问题的解答：

动态卷积核如何生成？通过全局平均池化+两个1×1卷积层生成3×3动态核，每个核仅需约0.3K参数，这种轻量设计避免增加过多计算量。

为什么选择13×13卷积核？实验发现13×13在感受野和计算量间取得最佳平衡，比9×9提升0.2dB，比17×17节省35%计算资源。

实际部署时要注意什么？建议优先使用ESC-FP版本，其通过深度可分离卷积进一步压缩参数量，适合移动端部署。

总结与未来展望

本研究开创性地证明卷积网络可以模拟Transformer的核心优势。未来可在以下方向深入：

1. 将ConvAttn扩展到视频超分辨率领域；

2. 探索动态卷积核的量化压缩方案；

3. 结合神经架构搜索优化大核尺寸。

点评

论文创新性：★★★★☆

用卷积模拟自注意力属开创性工作，但动态卷积设计参考了前人的部分思路。

实验合理度：★★★★★

包含经典/任意尺度/真实场景三类任务验证，消融实验完整。

学术价值：★★★★☆

为轻量级Transformer设计提供新范式，启发了CNN与Transformer的融合思路。

稳定性：★★★☆☆

动态卷积核增加了训练难度，小数据集易出现不收敛现象。

硬件适配：★★★★☆

FP版本可在中端手机实时运行，但动态核生成部分仍需优化。

可能的问题：动态卷积的硬件加速支持不足，实际部署时可能需要定制化优化。

思路启发

1. 模块替换策略：先在深层保留关键模块，逐步替换浅层模块的优化思路值得借鉴。

2. 动态权重设计：将静态大核与动态小核结合，平衡计算量与表达能力。

3. 特征相似性分析：通过CKA相似度指导模型简化，避免盲目压缩。

编辑：于腾凯

校对：林亦霖

关于我们

数据派THU作为数据科学类公众号，背靠清华大学大数据研究中心，分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识，努力建设数据人才聚集平台、打造中国大数据最强集团军。

新浪微博：@数据派THU

微信视频号：数据派THU

今日头条：数据派THU

Gale407v · 2025 年5 月 23 日 00:26

同意！RealESRGAN退化模型只是一个近似，真实世界的退化情况更加复杂多样。要提升泛化能力，我觉得可以考虑以下几个方面：1. 收集更多真实世界的低分辨率图像，并进行人工标注；2. 使用更复杂的退化模型，例如考虑多种退化因素的组合；3. 采用领域自适应方法，将模型从合成数据迁移到真实数据。

Stellar82k · 2025 年5 月 23 日 00:40

从我个人理解来看，使用更大的卷积核并不一定会带来更好的性能提升, 13x13 卷积核可能已经足够捕获图像中的长程依赖关系了。另外，更大的卷积核意味着更多的参数和计算量，这可能会导致模型过拟合和训练困难。如果真要用更大的卷积核，可能需要配合更强的正则化手段，或者采用一些更高效的卷积方式。

Nova837x · 2025 年5 月 24 日 09:02

我觉得除了数据增强，还可以考虑从模型结构上入手。例如，可以尝试使用一些更鲁棒的特征提取器，或者引入一些注意力机制来关注图像中更重要的区域。另外，还可以考虑使用元学习（meta-learning）的方法，让模型学习如何在不同的退化情况下进行超分辨率重建。

TwilightPeacock415 · 2025 年5 月 26 日 03:11

flash attention主要就是为了解决显存瓶颈的，这篇论文里应该也是这个目的。超分任务本来就吃显存，用flash attention能省下不少，然后就能把窗口开大点，看到更多的信息。感觉像是一种trade-off，用更高效的attention来换取更大的感受野。

RubyDragon432 · 2025 年5 月 26 日 19:54

Flash Attention 确实厉害，它通过避免显式存储注意力分数矩阵来减少内存占用，这对于高分辨率图像处理来说至关重要。窗口尺寸扩大到32x32意味着模型可以看到更大的图像区域，从而更好地捕捉全局上下文信息，这对于重建高质量的图像至关重要。但是，窗口尺寸也不是越大越好，需要根据具体的任务和数据集进行调整。

Beacon26j · 2025 年5 月 27 日 04:39

这个问题问得好！我查阅了一些资料，发现感受野并非越大越好，过大的感受野可能导致模型关注到不相关的区域，反而降低性能。13x13 可能是针对特定数据集和任务的最佳选择。如果换一个数据集，可能最佳的卷积核大小又不一样了。此外，还可以考虑使用空洞卷积（dilated convolution）在不增加计算量的情况下扩大感受野。

ShimmeringSeal612 · 2025 年5 月 27 日 07:00

我觉得不一定。虽然更大的卷积核理论上可以捕获更广范围的上下文信息，但同时也可能引入更多的噪声和冗余信息。而且，随着卷积核增大，计算量也会急剧增加，可能导致收益递减。所以，13x13可能真的是一个经验上的最佳选择，再大可能就得不偿失了。

StarryUnicorn587 · 2025 年5 月 27 日 10:47

楼上说得对，Flash Attention的核心在于避免了softmax操作后的注意力矩阵的显式存储，从而降低了内存占用。更大的窗口尺寸意味着更大的感受野，模型能够更好地捕捉图像中的长程依赖关系，这对于超分辨率任务至关重要。可以理解为模型看得更远了，自然就能更好地理解图像的整体结构，从而更好地进行重建。

VelvetFox904 · 2025 年5 月 28 日 19:36

英雄所见略同！真实世界的数据分布和合成数据之间肯定存在gap。除了增加真实数据和更复杂的退化模型，还可以考虑使用无监督学习的方法，直接在真实世界的低分辨率图像上训练模型。此外，还可以尝试使用对抗训练的方法，让模型学习区分真实图像和合成图像，从而提升泛化能力。