D²ETR：仅解码器的DETR与高效跨尺度注意力机制

简介

DETR（Detection Transformer）作为首个端到端的目标检测器，利用Transformer架构实现了无需后处理的目标检测。然而，DETR存在以下问题：

为了解决这些问题，D²ETR提出了一种仅使用解码器的DETR架构，结合高效的跨尺度注意力机制，旨在降低计算复杂度的同时提升检测性能。([arXiv][1])

D²ETR摒弃了传统DETR中的编码器模块，直接使用解码器处理由Transformer主干网络生成的融合特征图。

引入了一种新颖的跨尺度注意力模块，能够在不同尺度的特征图之间进行高效的信息交互，提升了模型对多尺度目标的检测能力。

通过上述结构优化，D²ETR在保持或提升检测精度的同时，显著降低了模型的计算复杂度。([arXiv][1])

在COCO基准数据集上的评估结果显示：([ar5iv][2])

这些结果表明，D²ETR在保持高检测精度的同时，实现了更高的计算效率。

D²ETR中的跨尺度注意力机制可以表示为：([CVF Open Access][3])

\[ \text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V \]

其中：

该机制允许模型在不同尺度的特征图之间进行信息交互，增强了对多尺度目标的建模能力。