Skip to content

D²ETR:仅解码器的DETR与高效跨尺度注意力机制

https://arxiv.org/abs/2203.00860 https://dl.acm.org/doi/10.1145/3647649.3647707

简介

DETR(Detection Transformer)作为首个端到端的目标检测器,利用Transformer架构实现了无需后处理的目标检测。然而,DETR存在以下问题:

  • 训练收敛速度慢:需要大量的训练周期才能收敛。
  • 对小目标检测性能差:在检测小尺寸目标时表现不佳。
  • 计算复杂度高:复杂的编码器-解码器结构导致计算开销大。([arXiv][1])

为了解决这些问题,D²ETR提出了一种仅使用解码器的DETR架构,结合高效的跨尺度注意力机制,旨在降低计算复杂度的同时提升检测性能。([arXiv][1])

D²ETR 的核心贡献

1. 仅解码器架构

D²ETR摒弃了传统DETR中的编码器模块,直接使用解码器处理由Transformer主干网络生成的融合特征图。

2. 高效的跨尺度注意力机制

引入了一种新颖的跨尺度注意力模块,能够在不同尺度的特征图之间进行高效的信息交互,提升了模型对多尺度目标的检测能力。

3. 降低计算复杂度

通过上述结构优化,D²ETR在保持或提升检测精度的同时,显著降低了模型的计算复杂度。([arXiv][1])

实验结果与优势

在COCO基准数据集上的评估结果显示:([ar5iv][2])

  • 检测精度提升:D²ETR在检测精度上超过了原始DETR及其变体。
  • 计算复杂度降低:相比传统DETR,D²ETR的计算开销显著减少。

这些结果表明,D²ETR在保持高检测精度的同时,实现了更高的计算效率。

数学公式示例

D²ETR中的跨尺度注意力机制可以表示为:([CVF Open Access][3])

\[ \text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V \]

其中:

  • $Q$、$K$、$V$ 分别表示查询、键、值矩阵;
  • $d_k$ 表示键的维度。

该机制允许模型在不同尺度的特征图之间进行信息交互,增强了对多尺度目标的建模能力。

Ref