IMFA：高效利用多尺度特征的 Transformer 目标检测方法

摘要

IMFA（Iterative Multi-scale Feature Aggregation）是一种用于基于 Transformer 的目标检测器的通用范式，旨在高效利用多尺度特征。该方法通过迭代更新编码特征和稀疏采样多尺度特征，显著提升了目标检测的性能，同时仅引入了轻微的计算开销。IMFA 的核心在于从少量关键位置提取稀疏的多尺度特征，并通过自适应尺度选择和动态前馈网络（Dynamic FFN）进一步增强特征的表示能力。

研究动机

在目标检测中，处理具有巨大尺度差异的物体一直是一个主要挑战。多尺度特征已被证明对目标检测非常有效，但简单地引入多尺度特征往往会带来巨大的计算成本，尤其是对于基于 Transformer 的检测器。例如，Transformer 的注意力机制在处理高分辨率特征时的复杂度为 $O(H^2W^2)$，这使得直接使用多尺度特征变得不切实际。因此，本文提出了 IMFA 方法，以高效地利用多尺度特征。

方法

IMFA 的设计基于两个关键观察结果：（1）高分辨率特征中大部分是冗余的，只有少数区域对目标检测有用；（2）Transformer 的注意力机制不需要网格状的特征图，因此可以从特定区域采样多尺度特征。基于这些观察，IMFA 提出了两种新颖的设计：

迭代更新编码特征

IMFA 重新组织了 Transformer 编码器-解码器的流程，使得编码特征可以根据检测预测进行迭代更新。具体来说，IMFA 将检测流程划分为多个检测阶段，每个阶段包括一个编码器层、一个解码器层和一个前馈网络（FFN）。这种设计使得编码特征可以随着检测预测的细化而动态更新。

稀疏特征采样和聚合

IMFA 在先前检测预测的指导下，从少量关键位置稀疏地采样多尺度特征。具体步骤如下：

识别有希望的区域：根据上一阶段的高置信度检测预测，选择 $K$ 个有前景的区域。
搜索关键点：在每个有前景的区域内，预测 $M$ 个关键点的位置。
采样多尺度特征：从特征金字塔的所有尺度中，通过双线性插值采样每个关键点的特征。
自适应尺度选择：为每个关键点生成尺度特定的权重，通过加权求和获得尺度自适应特征： $$ F_{ij} = \sum_{s} \alpha_{ij}^s F_{ij}^s, \quad \text{其中 } \alpha_{ij}^s = \text{Softmax}(\gamma_j(Q_i)) $$
动态前馈网络（Dynamic FFN）：将采样的特征与对象查询的语义信息融合，增强特征的表示能力： $$ F'{ij} = \text{MLP}), \quad W_i = \psi(Q_i) $$}(F_{ij

实验

IMFA 在 COCO 数据集上的实验结果表明，它可以显著提升多个基于 Transformer 的目标检测器的性能，同时仅引入了轻微的计算开销。以下是部分实验结果：

方法	骨干网络	AP	AP50	AP75	APS	APM	APL	FLOPs	FPS
DETR-R50	ResNet50	34.9	55.5	36.0	14.4	37.2	54.5	86G	24.6
DETR-R50 + IMFA	ResNet50	39.2	58.8	41.6	20.3	42.2	55.4	105G	20.0
Conditional-DETR-R50	ResNet50	40.9	61.8	43.3	20.8	44.6	59.2	90G	22.2
Conditional-DETR-R50+IMFA	ResNet50	44.0	64.2	47.5	25.7	46.8	59.8	106G	19.0

此外，IMFA 还可以应用于其他任务，如人体姿态估计，同样表现出色。

应用场景

IMFA 的高效性和通用性使其可以广泛应用于各种视觉任务，包括但不限于目标检测、人体姿态估计等。它特别适用于需要高精度且计算资源有限的场景。

Ref

https://blog.csdn.net/ADICDFHL/article/details/131918665 https://geonu-lee.github.io/posts/IMFA/