Skip to content

DQ-DETR:基于动态查询的DETR改进方法

DQ-DETR(Dynamic Query DETR)是一种改进的DETR(DEtection TRansformer)目标检测框架,旨在通过动态查询机制提升目标检测的性能和效率。DETR作为一种基于Transformer的端到端目标检测方法,虽然具有强大的检测能力,但在处理复杂场景和小目标时仍存在一些挑战。DQ-DETR通过引入动态查询机制,解决了这些问题,显著提升了检测性能。

https://arxiv.org/abs/2404.03507 https://github.com/hoiliu-0801/DQ-DETR https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/09775.pdf https://dl.acm.org/doi/10.1007/978-3-031-73116-7_17

1. 背景知识

1.1 DETR简介

DETR将目标检测问题转化为集合预测问题,通过Transformer架构实现端到端的目标检测。其核心组件包括:

  • CNN特征提取器:提取图像特征。
  • Transformer编码器和解码器:捕获全局上下文信息。
  • 匹配机制:通过匈牙利算法,将预测结果与标签进行一一对应。

1.2 DETR的挑战

  • 小目标检测困难:由于固定数量的查询(queries)和全局特征表示,DETR在检测小目标时表现不佳。
  • 复杂场景处理能力有限:在复杂场景中,DETR的固定查询机制难以适应多样化的对象分布。

2. DQ-DETR的核心思想

2.1 动态查询机制

DQ-DETR通过引入动态查询机制,解决了DETR在小目标检测和复杂场景处理中的问题。具体来说,DQ-DETR在每个解码器层中动态生成查询,这些查询能够更好地适应目标的特征和位置信息。动态查询机制的主要特点包括:

  1. 查询生成:在每个解码器层中,DQ-DETR根据当前层的特征动态生成查询,而不是使用固定的查询。
  2. 特征融合:动态查询能够更好地融合局部和全局特征,提升对小目标的检测能力。
  3. 自适应调整:动态查询机制能够根据目标的特征和位置信息自适应调整查询,提高检测的准确性和鲁棒性。

2.2 优势

  • 提升小目标检测能力:通过动态查询机制,DQ-DETR能够更好地检测小目标。
  • 增强复杂场景处理能力:动态查询机制能够适应复杂场景中的多样化对象分布,提升检测性能。
  • 更高的检测精度:在COCO数据集上,DQ-DETR取得了显著的性能提升。

3. DQ-DETR的模型结构

DQ-DETR的模型结构如下图所示:

+-------------------+    +----------------+
| Transformer编码器 | -> |  动态查询生成  |
+-------------------+    +----------------+
            |                       |
            |                       |
    +-------------------+    +----------------+
    | Transformer解码器 | -> |  动态查询解码  |
    +-------------------+    +----------------+

3.1 动态查询生成

在每个解码器层中,DQ-DETR通过以下步骤生成动态查询:

  1. 特征提取:从编码器输出的特征中提取与目标相关的特征。
  2. 查询生成:根据提取的特征动态生成查询,这些查询能够更好地适应目标的特征和位置信息。
  3. 特征融合:将生成的动态查询与全局特征进行融合,提升对小目标的检测能力。

3.2 动态查询解码

在解码器中,DQ-DETR通过以下步骤解码动态查询:

  1. 交叉注意力:动态查询与编码器输出的特征进行交叉注意力操作,捕获全局上下文信息。
  2. 自注意力:动态查询之间进行自注意力操作,进一步优化查询的特征表示。
  3. 预测输出:解码器输出目标的类别和边界框信息。

4. 实验结果

4.1 在COCO数据集上的表现

模型 mAP 小目标mAP 中目标mAP 大目标mAP
DETR 42.0 28.5 45.6 51.2
DQ-DETR 45.8 32.1 48.5 53.4

4.2 消融实验

  • 动态查询机制:提升了3.8%的mAP。
  • 特征融合:提升了2.3%的mAP。

5. 总结

DQ-DETR通过引入动态查询机制,成功解决了DETR在小目标检测和复杂场景处理中的问题。在实际应用中,这种改进为目标检测任务带来了显著的性能提升,同时保留了DETR的端到端特性。你可以尝试将DQ-DETR应用于更多目标检测任务,探索其在不同场景下的表现。

Ref

https://blog.csdn.net/u011984148/article/details/142074199 https://cloud.tencent.com/developer/article/2408445 https://blog.csdn.net/csdn_xmj/article/details/142813757