告别手工特征提取:稀疏化视觉Transformer SparseViT 实现高效图像篡改定位

SparseViT,一种基于稀疏自注意力机制的视觉Transformer,高效识别图像篡改痕迹,代码已开源。

原文标题:AAAI 2025 | IML领域首个稀疏化视觉Transformer,代码已开源

原文作者:机器之心

冷月清谈:

四川大学吕建成团队与澳门大学潘治文教授团队合作提出了SparseViT,一种用于图像篡改检测的稀疏化视觉Transformer模型。该模型的核心是稀疏自注意力机制,通过对特征图进行区域划分,专注于提取图像中的非语义特征,从而有效识别图像篡改痕迹。相比传统方法,SparseViT 不仅避免了手工特征提取,还显著降低了计算量,并在多个数据集上实现了SOTA性能。此外,该模型还引入了可学习的多尺度特征融合机制,进一步提升了模型的泛化能力。

怜星夜思:

1、SparseViT是如何在减少计算量的同时保证特征提取的有效性的?
2、文章提到的“非语义特征”在图像篡改检测中起到了什么作用?与传统的基于语义特征的方法相比,有什么优势?
3、SparseViT 的开源代码有哪些潜在的应用场景?除了图像篡改检测,还能应用于哪些领域?

原文内容

图片
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected][email protected]
SparseViT 的主要科研成员来自四川大学吕建成团队,合作方为澳门大学潘治文教授团队。


  • 论文:《Can We Get Rid of Handcrafted Feature Extractors? SparseViT: Nonsemantics-Centered, Parameter-Efficient Image Manipulation Localization through Spare-Coding Transformer》

  • 论文链接:https://arxiv.org/abs/2412.14598

  • GitHub:https://github.com/scu-zjz/SparseViT


随着图像编辑工具和图像生成技术的快速发展,图像处理变得非常方便。然而图像在经过处理后不可避免的会留下伪影(操作痕迹),这些伪影可分为语义和非语义特征。因此目前几乎所有的图像篡改检测模型(IML)都遵循「语义分割主干网络」与精心制作的手工制作非语义特征提取」相结合的设计,这种方法严重限制了模型在未知场景的伪影提取能力。


研究内容


利用非语义信息往往在局部和全局之间保持一致性,同时相较于语义信息在图像不同区域表现出更大的独立性,SparseViT 提出了以稀疏自注意力为核心的架构,取代传统 Vision Transformer (ViT) 的全局自注意力机制,通过稀疏计算模式,使得模型自适应提取图像篡改检测中的非语义特征。


研究团队在统一的评估协议下复现并对比多个现有的最先进方法,系统验证了 SparseViT 的优越性。同时,框架采用模块化设计,用户可以灵活定制或扩展模型的核心模块,并通过可学习的多尺度监督机制增强模型对多种场景的泛化能力。


此外,SparseViT 极大地降低了计算量(最高减少 80% 的 FLOPs),实现了参数效率与性能的兼顾,展现了其在多基准数据集上的卓越表现。SparseViT 有望为图像篡改检测领域的理论与应用研究提供新视角,为后续研究奠定基础。


SparseViT 总体架构的设计概览图如下所示:


图 1:SparseViT 总体架构。


主要的组件包含:


1. 负责高效特征捕获的 Sparse Self-Attention


Sparse Self-Attention 是 SparseViT 框架的核心组件,专注于在减少计算复杂度的同时高效捕获篡改图像中的关键特征即非语义特征。传统的自注意力机制由于 patch 进行 token-to-token 的注意力计算,导致模型对语义信息过度拟合,使得非语义信息在受到篡改后表现出的局部不一致性被忽视。


为此,Sparse Self-Attention 提出了基于稀疏编码的自注意力机制,如图 2 所示,通过对输入特征图施加稀疏性约束,设输入的特征图图片, 我们不是对 图片的整个特征上应用注意力,而是将特征分成形状为图片的张量块,表示将特征图分解为图片个大小为图片的不重叠的张量块,分别在这些张量块上进行自注意力计算。


图 2:稀疏自注意力。


这一机制通过对特征图进行区域划分,使模型在训练中专注于非语义特征的提取,提升了对图像篡改伪影的捕捉能力。相比传统自注意力,Sparse Self-Attention 减少了约 80% 的 FLOPs,同时保留了高效的特征捕获能力,特别是在复杂场景中表现卓越。模块化的实现方式还允许用户根据需求对稀疏策略进行调整,从而满足不同任务的需求。


2. 负责多尺度特征融合的 Learnable Feature Fusion (LFF)


Learnable Feature Fusion (LFF) 是 SparseViT 中的重要模块,旨在通过多尺度特征融合机制提高模型的泛化能力和对复杂场景的适应性。不同于传统的固定规则特征融合方法,LFF 模块通过引入可学习参数,动态调整不同尺度特征的重要性,从而增强了模型对图像篡改伪影的敏感度。


LFF 通过从稀疏自注意力模块输出的多尺度特征中学习特定的融合权重,优先强化与篡改相关的低频特征,同时保留语义信息较强的高频特征。模块设计充分考虑了 IML 任务的多样化需求,既能针对微弱的非语义伪影进行细粒度处理,又能适应大尺度的全局特征提取。LFF 的引入显著提升了 SparseViT 在跨场景、多样化数据集上的性能,同时减少了无关特征对模型的干扰,为进一步优化 IML 模型性能提供了灵活的解决方案。


研究总结


简而言之,SparseViT 具有以下四个贡献:


1. 我们揭示了篡改图像的语义特征需要连续的局部交互来构建全局语义,而非语义特征由于其局部独立性,可以通过稀疏编码实现全局交互。

2. 基于语义和非语义特征的不同行为,我们提出使用稀疏自注意机制自适应地从图像中提取非语义特征。

3. 为了解决传统多尺度融合方法的不可学习性,我们引入了一种可学习的多尺度监督机制。

4. 我们提出的 SparseViT 在不依赖手工特征提取器的情况下保持了参数效率,并在四个公共数据集上实现了最先进的(SoTA)性能和出色的模型泛化能力。


SparseViT 通过利用语义特征和非语义特征之间的差异性,使模型能够自适应地提取在图像篡改定位中更为关键的非语义特征,为篡改区域的精准定位提供了全新的研究思路。相关代码和操作文档、使用教程已完全开源在 GitHub 上(https://github.com/scu-zjz/SparseViT)。该代码有着完善的更新计划,仓库将被长期维护,欢迎全球研究者使用和提出改进意见。



© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]


可以理解为它抓住了主要矛盾。篡改通常只会影响图像的局部区域,SparseViT 就抓住了这一点,集中精力分析这些局部区域,而不是全局计算,既省力又能抓住重点。

我觉得SparseViT的关键在于它的稀疏自注意力机制。它不像传统的ViT那样对所有token进行交互,而是只关注一部分token,这就大大减少了计算量。同时,它通过稀疏编码的方式,可以有效地捕捉到图像中非语义的局部差异,这些差异往往是篡改的关键线索。

SparseViT 的稀疏注意力机制可以应用于任何需要处理长序列数据的领域,例如自然语言处理、时间序列分析等等。它可以有效地减少计算复杂度,提高模型的效率。

非语义特征在检测图像篡改中最大的优势就是对未知篡改方式的泛化能力。传统的基于语义特征的检测方法需要针对特定的篡改方式进行训练,而篡改的方式千变万化,模型很难做到面面俱到。非语义特征则更关注篡改带来的底层痕迹,与篡改方式无关,因此具有更强的泛化能力。就像侦探破案,与其关注罪犯的动机,不如关注现场留下的蛛丝马迹。

引用一下原文:Sparse Self-Attention 提出了基于稀疏编码的自注意力机制,通过对输入特征图施加稀疏性约束,将特征分成形状为 H/P×W/P 的 P×P 张量块,分别在这些张量块上进行自注意力计算。这样既减少了计算量,又可以关注到局部特征,从而保证了特征提取的有效性。有点类似于把全局注意力变成了局部注意力。

非语义特征指的是那些与图像内容无关的特征,例如图像的噪声、压缩痕迹、边缘不连续性等等。这些特征在篡改过程中很容易被改变,因此可以用来检测篡改。相比之下,语义特征容易受到图像内容本身的影响,例如一张人像照片,即使被篡改了,人脸的语义特征仍然是“人脸”,这样就很难检测出篡改。

对于“非语义特征在图像篡改检测中起到了什么作用”这个问题,我认为可以这样理解:篡改操作通常会在图像中留下一些痕迹,这些痕迹可能很细微,但会在非语义层面体现出来,比如局部像素的统计特性变化、噪声模式的变化等等。SparseViT 通过关注这些非语义特征,就能有效地捕捉到这些篡改痕迹。

我觉得可以考虑将 SparseViT 应用于医学图像分析,例如检测医学图像中的病变区域。医学图像通常数据量很大,而且对精度要求很高,SparseViT 的高效性和准确性在这方面可能会有很大的优势。

除了图像篡改检测,我觉得SparseViT还可以应用于其他需要关注局部特征的任务,例如目标检测、图像分割、异常检测等等。它在减少计算量的同时还能保持较高的性能,这在很多实际应用中都非常有价值。