Skip to content

IMFA:高效利用多尺度特征的 Transformer 目标检测方法

https://arxiv.org/abs/2208.11356

摘要

IMFA(Iterative Multi-scale Feature Aggregation)是一种用于基于 Transformer 的目标检测器的通用范式,旨在高效利用多尺度特征。该方法通过迭代更新编码特征和稀疏采样多尺度特征,显著提升了目标检测的性能,同时仅引入了轻微的计算开销。IMFA 的核心在于从少量关键位置提取稀疏的多尺度特征,并通过自适应尺度选择和动态前馈网络(Dynamic FFN)进一步增强特征的表示能力。

研究动机

在目标检测中,处理具有巨大尺度差异的物体一直是一个主要挑战。多尺度特征已被证明对目标检测非常有效,但简单地引入多尺度特征往往会带来巨大的计算成本,尤其是对于基于 Transformer 的检测器。例如,Transformer 的注意力机制在处理高分辨率特征时的复杂度为 \(O(H^2W^2)\),这使得直接使用多尺度特征变得不切实际。因此,本文提出了 IMFA 方法,以高效地利用多尺度特征。

方法

IMFA 的设计基于两个关键观察结果:(1)高分辨率特征中大部分是冗余的,只有少数区域对目标检测有用;(2)Transformer 的注意力机制不需要网格状的特征图,因此可以从特定区域采样多尺度特征。基于这些观察,IMFA 提出了两种新颖的设计:

迭代更新编码特征

IMFA 重新组织了 Transformer 编码器-解码器的流程,使得编码特征可以根据检测预测进行迭代更新。具体来说,IMFA 将检测流程划分为多个检测阶段,每个阶段包括一个编码器层、一个解码器层和一个前馈网络(FFN)。这种设计使得编码特征可以随着检测预测的细化而动态更新。

稀疏特征采样和聚合

IMFA 在先前检测预测的指导下,从少量关键位置稀疏地采样多尺度特征。具体步骤如下:

  1. 识别有希望的区域:根据上一阶段的高置信度检测预测,选择 \(K\) 个有前景的区域。
  2. 搜索关键点:在每个有前景的区域内,预测 \(M\) 个关键点的位置。
  3. 采样多尺度特征:从特征金字塔的所有尺度中,通过双线性插值采样每个关键点的特征。
  4. 自适应尺度选择:为每个关键点生成尺度特定的权重,通过加权求和获得尺度自适应特征: $$ F_{ij} = \sum_{s} \alpha_{ij}^s F_{ij}^s, \quad \text{其中 } \alpha_{ij}^s = \text{Softmax}(\gamma_j(Q_i)) $$
  5. 动态前馈网络(Dynamic FFN):将采样的特征与对象查询的语义信息融合,增强特征的表示能力: $$ F'{ij} = \text{MLP}), \quad W_i = \psi(Q_i) $$}(F_{ij

实验

IMFA 在 COCO 数据集上的实验结果表明,它可以显著提升多个基于 Transformer 的目标检测器的性能,同时仅引入了轻微的计算开销。以下是部分实验结果:

方法 骨干网络 AP AP50 AP75 APS APM APL FLOPs FPS
DETR-R50 ResNet50 34.9 55.5 36.0 14.4 37.2 54.5 86G 24.6
DETR-R50 + IMFA ResNet50 39.2 58.8 41.6 20.3 42.2 55.4 105G 20.0
Conditional-DETR-R50 ResNet50 40.9 61.8 43.3 20.8 44.6 59.2 90G 22.2
Conditional-DETR-R50+IMFA ResNet50 44.0 64.2 47.5 25.7 46.8 59.8 106G 19.0

此外,IMFA 还可以应用于其他任务,如人体姿态估计,同样表现出色。

应用场景

IMFA 的高效性和通用性使其可以广泛应用于各种视觉任务,包括但不限于目标检测、人体姿态估计等。它特别适用于需要高精度且计算资源有限的场景。

Ref

https://blog.csdn.net/ADICDFHL/article/details/131918665 https://geonu-lee.github.io/posts/IMFA/