Skip to content

H-DETR:基于混合匹配的 DETR 目标检测方法

H-DETR 是一种改进的 DETR(Detection Transformer)目标检测方法,通过引入混合匹配策略,在训练过程中结合一对一匹配和一对多匹配,显著提升了模型的训练效率和检测精度。该方法在多个视觉任务上表现出色,包括目标检测、实例分割、全景分割、3D 目标检测、多人姿态估计和多目标跟踪等。

https://github.com/HDETR/H-Deformable-DETR https://openaccess.thecvf.com/content/CVPR2023/papers/Jia_DETRs_With_Hybrid_Matching_CVPR_2023_paper.pdf

背景知识

DETR 是一种基于 Transformer 的端到端目标检测模型,通过一对一的集合匹配实现无需手工设计非极大值抑制(NMS)的目标检测。然而,DETR 的一对一匹配方式导致正样本数量不足,特别是在标注框较少的图像中,这显著降低了模型的训练效率和检测性能。为了解决这一问题,H-DETR 提出了一种混合匹配方案,结合了一对一匹配和一对多匹配的优势。

研究方法

1. 混合匹配方案

H-DETR 的核心在于混合匹配方案,它在训练过程中同时使用一对一匹配分支和一对多匹配分支。具体来说:

  • 一对一匹配分支:保持 DETR 的原始设计,每个查询(query)只与一个真实标签(ground truth)匹配。这种匹配方式确保了模型在推理时无需 NMS,保持了 DETR 的端到端特性。
  • 一对多匹配分支:为每个真实标签分配多个查询,增加了正样本的数量,从而提高了模型的训练效率和检测精度。

在推理过程中,仅使用一对一匹配分支,以保持 DETR 的推理效率。

2. 混合匹配的实现

H-DETR 提出了三种混合匹配的实现方式:

  • 混合分支方式:在解码器中同时包含一对一匹配分支和一对多匹配分支。每个分支处理不同的查询集合,分别计算损失并进行优化。
  • 混合 Epoch 方式:在不同的训练阶段(epochs)分别使用一对一匹配和一对多匹配。例如,在前 \(\rho\) 个 epoch 使用一对多匹配,剩余的 \(1 - \rho\) 个 epoch 使用一对一匹配。
  • 混合层方式:在 Transformer 解码器的不同层分别使用一对一匹配和一对多匹配。例如,在前 \(L_1\) 层使用一对多匹配,剩余的 \(L_2\) 层使用一对一匹配。

3. 损失函数

H-DETR 的总损失函数结合了一对一匹配损失和一对多匹配损失:

\[ \mathcal{L}_{\text{total}} = \lambda \mathcal{L}_{\text{one2many}} + \mathcal{L}_{\text{one2one}} \]

其中,\(\lambda\) 是平衡两个损失的超参数。

实验

1. 数据集与设置

H-DETR 在多个标准数据集上进行了实验,包括 COCO、LVIS、nuScenes 和 ScanNetV2 等。实验中使用了 ResNet-50 和 Swin Transformer 作为主干网络,并在不同的训练周期和查询数量下进行了测试。

2. 性能分析

表 1 展示了 H-DETR 在 COCO 数据集上的目标检测性能。与基线模型相比,H-DETR 在多个指标上均取得了显著提升。

模型名称 主干网络 查询数 训练周期 AP
Deformable-DETR ResNet-50 300 12 43.7
Deformable-DETR ResNet-50 300 36 46.8
Deformable-DETR + 技巧 ResNet-50 300 12 47.0
Deformable-DETR + 技巧 ResNet-50 300 36 49.0
H-DETR + 技巧 ResNet-50 300 12 48.7
H-DETR + 技巧 ResNet-50 300 36 50.0

表 2 展示了 H-DETR 在其他视觉任务上的性能提升,包括实例分割、全景分割、3D 目标检测、多人姿态估计和多目标跟踪等。

3. 消融实验

H-DETR 进行了广泛的消融实验,验证了混合匹配方案的有效性。实验结果表明,混合分支方式在多个任务上表现最佳。此外,实验还探讨了不同混合匹配策略(如混合 Epoch 方式和混合层方式)的效果,以及一对多匹配中 \(K\) 值的选择对性能的影响。

结论

H-DETR 通过引入混合匹配方案,有效解决了 DETR 中一对一匹配导致的正样本不足问题,显著提升了模型的训练效率和检测精度。该方法在多个视觉任务上表现出色,具有广泛的应用前景。

Ref

https://zhuanlan.zhihu.com/p/660068173 https://blog.csdn.net/qq_38929105/article/details/131271591 https://gitcode.com/gh_mirrors/hd/H-Deformable-DETR/overview https://github.com/HDETR/H-Deformable-DETR-mmdet https://blog.csdn.net/caiji00001/article/details/142210645 https://developer.volcengine.com/articles/7389112604813656118