D²ETR:仅解码器的DETR与高效跨尺度注意力机制
https://arxiv.org/abs/2203.00860 https://dl.acm.org/doi/10.1145/3647649.3647707
简介
DETR(Detection Transformer)作为首个端到端的目标检测器,利用Transformer架构实现了无需后处理的目标检测。然而,DETR存在以下问题:
- 训练收敛速度慢:需要大量的训练周期才能收敛。
- 对小目标检测性能差:在检测小尺寸目标时表现不佳。
- 计算复杂度高:复杂的编码器-解码器结构导致计算开销大。([arXiv][1])
为了解决这些问题,D²ETR提出了一种仅使用解码器的DETR架构,结合高效的跨尺度注意力机制,旨在降低计算复杂度的同时提升检测性能。([arXiv][1])
D²ETR 的核心贡献
1. 仅解码器架构
D²ETR摒弃了传统DETR中的编码器模块,直接使用解码器处理由Transformer主干网络生成的融合特征图。
2. 高效的跨尺度注意力机制
引入了一种新颖的跨尺度注意力模块,能够在不同尺度的特征图之间进行高效的信息交互,提升了模型对多尺度目标的检测能力。
3. 降低计算复杂度
通过上述结构优化,D²ETR在保持或提升检测精度的同时,显著降低了模型的计算复杂度。([arXiv][1])
实验结果与优势
在COCO基准数据集上的评估结果显示:([ar5iv][2])
- 检测精度提升:D²ETR在检测精度上超过了原始DETR及其变体。
- 计算复杂度降低:相比传统DETR,D²ETR的计算开销显著减少。
这些结果表明,D²ETR在保持高检测精度的同时,实现了更高的计算效率。
数学公式示例
D²ETR中的跨尺度注意力机制可以表示为:([CVF Open Access][3])
\[
\text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V
\]
其中:
- $Q$、$K$、$V$ 分别表示查询、键、值矩阵;
- $d_k$ 表示键的维度。
该机制允许模型在不同尺度的特征图之间进行信息交互,增强了对多尺度目标的建模能力。