IMFA:高效利用多尺度特征的 Transformer 目标检测方法
https://arxiv.org/abs/2208.11356
摘要
IMFA(Iterative Multi-scale Feature Aggregation)是一种用于基于 Transformer 的目标检测器的通用范式,旨在高效利用多尺度特征。该方法通过迭代更新编码特征和稀疏采样多尺度特征,显著提升了目标检测的性能,同时仅引入了轻微的计算开销。IMFA 的核心在于从少量关键位置提取稀疏的多尺度特征,并通过自适应尺度选择和动态前馈网络(Dynamic FFN)进一步增强特征的表示能力。
研究动机
在目标检测中,处理具有巨大尺度差异的物体一直是一个主要挑战。多尺度特征已被证明对目标检测非常有效,但简单地引入多尺度特征往往会带来巨大的计算成本,尤其是对于基于 Transformer 的检测器。例如,Transformer 的注意力机制在处理高分辨率特征时的复杂度为 \(O(H^2W^2)\),这使得直接使用多尺度特征变得不切实际。因此,本文提出了 IMFA 方法,以高效地利用多尺度特征。
方法
IMFA 的设计基于两个关键观察结果:(1)高分辨率特征中大部分是冗余的,只有少数区域对目标检测有用;(2)Transformer 的注意力机制不需要网格状的特征图,因此可以从特定区域采样多尺度特征。基于这些观察,IMFA 提出了两种新颖的设计:
迭代更新编码特征
IMFA 重新组织了 Transformer 编码器-解码器的流程,使得编码特征可以根据检测预测进行迭代更新。具体来说,IMFA 将检测流程划分为多个检测阶段,每个阶段包括一个编码器层、一个解码器层和一个前馈网络(FFN)。这种设计使得编码特征可以随着检测预测的细化而动态更新。
稀疏特征采样和聚合
IMFA 在先前检测预测的指导下,从少量关键位置稀疏地采样多尺度特征。具体步骤如下:
- 识别有希望的区域:根据上一阶段的高置信度检测预测,选择 \(K\) 个有前景的区域。
- 搜索关键点:在每个有前景的区域内,预测 \(M\) 个关键点的位置。
- 采样多尺度特征:从特征金字塔的所有尺度中,通过双线性插值采样每个关键点的特征。
- 自适应尺度选择:为每个关键点生成尺度特定的权重,通过加权求和获得尺度自适应特征: $$ F_{ij} = \sum_{s} \alpha_{ij}^s F_{ij}^s, \quad \text{其中 } \alpha_{ij}^s = \text{Softmax}(\gamma_j(Q_i)) $$
- 动态前馈网络(Dynamic FFN):将采样的特征与对象查询的语义信息融合,增强特征的表示能力: $$ F'{ij} = \text{MLP}), \quad W_i = \psi(Q_i) $$}(F_{ij
实验
IMFA 在 COCO 数据集上的实验结果表明,它可以显著提升多个基于 Transformer 的目标检测器的性能,同时仅引入了轻微的计算开销。以下是部分实验结果:
| 方法 | 骨干网络 | AP | AP50 | AP75 | APS | APM | APL | FLOPs | FPS |
|---|---|---|---|---|---|---|---|---|---|
| DETR-R50 | ResNet50 | 34.9 | 55.5 | 36.0 | 14.4 | 37.2 | 54.5 | 86G | 24.6 |
| DETR-R50 + IMFA | ResNet50 | 39.2 | 58.8 | 41.6 | 20.3 | 42.2 | 55.4 | 105G | 20.0 |
| Conditional-DETR-R50 | ResNet50 | 40.9 | 61.8 | 43.3 | 20.8 | 44.6 | 59.2 | 90G | 22.2 |
| Conditional-DETR-R50+IMFA | ResNet50 | 44.0 | 64.2 | 47.5 | 25.7 | 46.8 | 59.8 | 106G | 19.0 |
此外,IMFA 还可以应用于其他任务,如人体姿态估计,同样表现出色。
应用场景
IMFA 的高效性和通用性使其可以广泛应用于各种视觉任务,包括但不限于目标检测、人体姿态估计等。它特别适用于需要高精度且计算资源有限的场景。
Ref
https://blog.csdn.net/ADICDFHL/article/details/131918665 https://geonu-lee.github.io/posts/IMFA/