Skip to content

Rank-DETR:基于排名的高质量目标检测方法

Rank-DETR 是一种基于 Transformer 的 目标检测方法,通过引入排名机制,显著提升了目标检测的精度和效率。该方法在多个标准数据集上表现出色,尤其是在处理复杂场景和密集目标时。

https://arxiv.org/abs/2310.08854 https://github.com/LeapLabTHU/Rank-DETR https://proceedings.neurips.cc/paper_files/paper/2023/hash/34074479ee2186a9f236b8fd03635372-Abstract-Conference.html

背景知识

DETR 是一种基于 Transformer 的端到端目标检测模型,通过 Transformer 编码器和解码器实现目标检测。然而,DETR 在处理复杂场景时存在一些局限性,例如对目标显著性的建模不足和计算复杂度高。为了解决这些问题,Rank-DETR 引入了排名机制,通过优化查询的选择和排序,提高了模型的检测性能。

研究方法

1. 排名机制

Rank-DETR 的核心在于排名机制,它通过以下方式实现:

  • 查询排名:在解码器中,引入查询排名模块,用于对生成的查询进行排序。这些查询根据其与目标的相关性进行排名,确保模型能够优先处理最重要的查询。
  • 动态调整:排名机制不仅在训练阶段使用,还在推理阶段动态调整查询的顺序,以适应不同的输入图像。

2. 模型架构

Rank-DETR 的整体架构基于 DETR,但在解码器中引入了排名机制。具体来说:

  • 编码器:编码器部分保持不变,仍使用标准的 Transformer 编码器结构,用于提取图像特征。
  • 解码器:在解码器中,引入查询排名模块,用于对生成的查询进行排序和动态调整。这些查询被用于生成目标检测结果。

3. 损失函数

Rank-DETR 的损失函数与 DETR 的标准损失函数一致,包括分类损失、边界框回归损失和 GIoU 损失。这些损失函数用于优化目标检测任务,确保模型能够准确地检测和分类目标。

实验

1. 数据集与设置

Rank-DETR 在多个标准数据集上进行了实验,包括 COCO 和 LVIS。实验中使用了 ResNet-50 和 Swin Transformer 作为主干网络,并在不同的训练周期和查询数量下进行了测试。

2. 性能分析

表 1 展示了 Rank-DETR 在 COCO 数据集上的目标检测性能。与基线模型相比,Rank-DETR 在多个指标上均取得了显著提升。

模型名称 主干网络 查询数 训练周期 mAP
DETR ResNet-50 300 12 42.0
Deformable-DETR ResNet-50 300 12 45.0
Rank-DETR ResNet-50 300 12 48.5
Rank-DETR Swin Transformer 300 12 51.0

3. 消融实验

Rank-DETR 进行了广泛的消融实验,验证了排名机制的有效性。实验结果表明,排名机制在多个任务上表现最佳。此外,实验还探讨了不同排名策略对性能的影响。

结论

Rank-DETR 通过引入排名机制,有效解决了 DETR 在处理复杂场景时的局限性,显著提升了模型的检测性能。该方法在多个视觉任务上表现出色,具有广泛的应用前景。

Ref

Ref

https://blog.csdn.net/CV_Autobot/article/details/134098893 https://blog.51cto.com/whaosoft/11679555 https://www.microsoft.com/en-us/research/publication/rank-detr-for-high-quality-object-detection/ https://ui.adsabs.harvard.edu/abs/2023arXiv231008854P/abstract https://geonu-lee.github.io/posts/Rank-DETR/