Rank-DETR:基于排名的高质量目标检测方法
Rank-DETR 是一种基于 Transformer 的 目标检测方法,通过引入排名机制,显著提升了目标检测的精度和效率。该方法在多个标准数据集上表现出色,尤其是在处理复杂场景和密集目标时。
https://arxiv.org/abs/2310.08854 https://github.com/LeapLabTHU/Rank-DETR https://proceedings.neurips.cc/paper_files/paper/2023/hash/34074479ee2186a9f236b8fd03635372-Abstract-Conference.html
背景知识
DETR 是一种基于 Transformer 的端到端目标检测模型,通过 Transformer 编码器和解码器实现目标检测。然而,DETR 在处理复杂场景时存在一些局限性,例如对目标显著性的建模不足和计算复杂度高。为了解决这些问题,Rank-DETR 引入了排名机制,通过优化查询的选择和排序,提高了模型的检测性能。
研究方法
1. 排名机制
Rank-DETR 的核心在于排名机制,它通过以下方式实现:
- 查询排名:在解码器中,引入查询排名模块,用于对生成的查询进行排序。这些查询根据其与目标的相关性进行排名,确保模型能够优先处理最重要的查询。
- 动态调整:排名机制不仅在训练阶段使用,还在推理阶段动态调整查询的顺序,以适应不同的输入图像。
2. 模型架构
Rank-DETR 的整体架构基于 DETR,但在解码器中引入了排名机制。具体来说:
- 编码器:编码器部分保持不变,仍使用标准的 Transformer 编码器结构,用于提取图像特征。
- 解码器:在解码器中,引入查询排名模块,用于对生成的查询进行排序和动态调整。这些查询被用于生成目标检测结果。
3. 损失函数
Rank-DETR 的损失函数与 DETR 的标准损失函数一致,包括分类损失、边界框回归损失和 GIoU 损失。这些损失函数用于优化目标检测任务,确保模型能够准确地检测和分类目标。
实验
1. 数据集与设置
Rank-DETR 在多个标准数据集上进行了实验,包括 COCO 和 LVIS。实验中使用了 ResNet-50 和 Swin Transformer 作为主干网络,并在不同的训练周期和查询数量下进行了测试。
2. 性能分析
表 1 展示了 Rank-DETR 在 COCO 数据集上的目标检测性能。与基线模型相比,Rank-DETR 在多个指标上均取得了显著提升。
| 模型名称 | 主干网络 | 查询数 | 训练周期 | mAP |
|---|---|---|---|---|
| DETR | ResNet-50 | 300 | 12 | 42.0 |
| Deformable-DETR | ResNet-50 | 300 | 12 | 45.0 |
| Rank-DETR | ResNet-50 | 300 | 12 | 48.5 |
| Rank-DETR | Swin Transformer | 300 | 12 | 51.0 |
3. 消融实验
Rank-DETR 进行了广泛的消融实验,验证了排名机制的有效性。实验结果表明,排名机制在多个任务上表现最佳。此外,实验还探讨了不同排名策略对性能的影响。
结论
Rank-DETR 通过引入排名机制,有效解决了 DETR 在处理复杂场景时的局限性,显著提升了模型的检测性能。该方法在多个视觉任务上表现出色,具有广泛的应用前景。
Ref
- arXiv - Rank-DETR: High-Quality Object Detection with Ranking Mechanism
- GitHub - Rank-DETR
- NeurIPS 2023 - Rank-DETR: High-Quality Object Detection with Ranking Mechanism
- CSDN - Rank-DETR: 高质量目标检测方法
- 51CTO - Rank-DETR: 高质量目标检测方法
- Microsoft Research - Rank-DETR: High-Quality Object Detection with Ranking Mechanism
- Harvard ADS - Rank-DETR: High-Quality Object Detection with Ranking Mechanism
- Geonu Lee's Blog - Rank-DETR: High-Quality Object Detection with Ranking Mechanism
Ref
https://blog.csdn.net/CV_Autobot/article/details/134098893 https://blog.51cto.com/whaosoft/11679555 https://www.microsoft.com/en-us/research/publication/rank-detr-for-high-quality-object-detection/ https://ui.adsabs.harvard.edu/abs/2023arXiv231008854P/abstract https://geonu-lee.github.io/posts/Rank-DETR/