PolaFormer提出极性感知线性注意力机制,在保持线性复杂度的同时,提升了视觉Transformer的性能和效率。
原文标题:ICLR 2025 | 极性感知线性注意力!PolaFormer:全新视觉基础模型
原文作者:数据派THU
冷月清谈:
该模型的核心在于解决了现有线性注意力机制的两个主要缺陷:负值丢失和注意力分布高信息熵。
为了解决负值丢失问题,PolaFormer 将 query 和 key 向量分解为正负部分,分别计算它们之间的相似度,从而更全面地捕捉向量之间的关系。
为了降低信息熵,PolaFormer 引入了一个可学习的幂函数对 query 和 key 向量进行重新缩放,使注意力权重分布更集中,从而提高模型区分重要特征的能力。
此外,PolaFormer 还使用卷积操作来增加自注意力矩阵的秩,并引入了一个极性感知系数矩阵来学习同号值和异号值之间的互补关系。
实验结果表明,PolaFormer 在图像分类、目标检测、语义分割等任务上均取得了优异的性能,并在 LRA 任务上也表现出色。
怜星夜思:
2、文章中提到 PolaFormer 使用卷积来增加自注意力矩阵的秩,为什么低秩会带来问题?卷积是如何解决这个问题的?
3、PolaFormer 在哪些实际应用场景中具有更大的潜力?未来有哪些可能的研究方向?
原文内容
来源:人工智能前沿讲习本文约3300字,建议阅读10分钟
本文一作孟维康是哈尔滨工业大学(深圳)与鹏城实验室联合培养的博士生,本科毕业于哈尔滨工业大学,主要研究方向是大规模基础模型的高效训练和推理算法研究。
课题组主页:https://cszhengzhang.cn/BMI/
-
论文标题:PolaFormer: Polarity-aware Linear Attention for Vision Transformers
-
论文链接:https://arxiv.org/pdf/2501.15061
-
GitHub 链接:https://github.com/ZacharyMeng/PolaFormer
-
Huggingface 权重链接:https://huggingface.co/ZachMeng/PolaFormer/tree/main
引入
-
负值丢失。依赖非负特征映射(如 ReLU)的线性注意力模型无法保持与原始 q,k 点积的一致性。这些特征映射仅保留了正 - 正交互作用,而关键的正 - 负和负 - 负交互作用则完全丢失。这种选择性表示限制了模型捕获全面关系范围的能力,导致注意力图的表达能力减弱和判别力降低。
-
注意力分布高信息熵。没有 softmax 的指数缩放,线性注意力会导致权重分布更加均匀且熵更低。这种均匀性削弱了模型区分强弱 q,k 对的能力,损害了其对重要特征的关注,并在需要精细细节的任务中降低了性能。
背景
标准自注意力机制的低效
可见,自注意力的复杂度是 O (N2d)。这种复杂度使得自注意力机制在处理长序列时效率低下,导致计算成本急剧上升。目前,降低自注意力的复杂度的主要方法包括但不限于稀疏注意力、线性化注意力以及基于核的注意力等。
基于核的线性注意力
方法概览


用于降低信息熵的可学习幂函数

实验结果
结论
在本研究中,作者提出了 PolaFormer,这是一种具有线性复杂度的新型高效 Transformer,主要贡献如下:
-
本文指出现有方法负值忽略的问题,提出了极性感值的映射函数,让每个元素都参与到注意力的计算;
-
在理论上,作者提出并证明了存在一族逐元素函数能够降低熵,并采用了可学习的幂函数以实现简洁性和重新缩放。
-
此外,作者还使用了卷积来缓解由自注意力矩阵的低秩特性引起的退化解问题,并引入了极性感知系数矩阵来学习同号值和异号值之间的互补关系。