[arXiv 2025] PolaFormer: Polarity‑aware Linear Attention for Vision Transformers
PolaFormer:极性感知线性注意力机制
🎯 背景与动机
传统的 ViT 采用基于 softmax 的注意力机制,拥有 $\mathcal{O}(N^2)$ 复杂度,难以应对长序列或高分辨率图像的计算压力。线性注意力通过使用核特征映射将复杂度降为 $\mathcal{O}(N)$,但由于只能处理非负值并使用松弛的指数近似方式,会丢失原始查询-键的负值信息,导致注意力图更“平滑”(熵高),辨别能力下降 (arxiv.org, arxiv.org)。
核心贡献
- **极性感知注意力机制(Polarity‑aware Attention):** 将查询 $q$ 和键 $k$ 分解为正负两部分:
并分流计算相同符号与相反符号的交互,再通过学习系数融合,完整捕获正负交互信息 (arxiv.org, themoonlight.io)。
-
可学习幂函数重缩放: 为恢复 attention 的“尖锐性”,引入满足一阶和二阶导数为正的函数族(幂函数),用于重新缩放注意力得分,显著降低熵值 (xinfinite.net)。
-
性能提升: 在多项视觉任务上提升表达能力与效率,实验表明相较于 Softmax-Attention 或已有线性注意力方法,性能提升最高可达 4.6% (arxiv.org)。
方法详解
1. 查询-键极性分解
$ q = q^+ - q^-, k = k^+ - k^-$,这样可分离出同符号与异符号部分的相似度计算,并分别保留负值信息 (arxiv.org, 2048.csdn.net)。
2. 极性感知混合机制
将 value 向量分成两半,对应正交与异号分支,用学习矩阵 $M^+, M^-$ 控制融合:
从而无需显式做减法也能体现负交互效果 。
3. 幂函数重缩放
定义 Positive Sequence Entropy (PSE),并证明带正一阶二阶导的函数能有效降低熵,最终选择可学习幂函数进行注意力归一化 (arxiv.org)。
实验结果
- 在 ImageNet-1K、LRA 长序列任务等上表现优异,Attention 图更接近 Softmax,熵值更低 (github.com)。
- 提升效率并控制变换器复杂度,适合计算资源受限环境 。
总结
PolaFormer 在多项视觉任务中引入“极性感知”机制,实现了线性注意力在表达能力方面的重大突破。此外,幂函数重缩放策略有效控制分布熵,并提升注意力图的“尖锐度”。综合来看,该方法是 ViT 线上注意力的有效且高效替代方案。
Ref
https://github.com/ZacharyMeng/PolaFormer https://arxiv.org/abs/2501.15061 https://17aitech.com/?p=38029 https://www.xinfinite.net/t/topic/10056 https://finance.sina.com.cn/tech/roll/2025-02-01/doc-inehyumu0137953.shtml