H-DETR：基于混合匹配的 DETR 目标检测方法

H-DETR 是一种改进的 DETR（Detection Transformer）目标检测方法，通过引入混合匹配策略，在训练过程中结合一对一匹配和一对多匹配，显著提升了模型的训练效率和检测精度。该方法在多个视觉任务上表现出色，包括目标检测、实例分割、全景分割、3D 目标检测、多人姿态估计和多目标跟踪等。

https://github.com/HDETR/H-Deformable-DETR https://openaccess.thecvf.com/content/CVPR2023/papers/Jia_DETRs_With_Hybrid_Matching_CVPR_2023_paper.pdf

背景知识

DETR 是一种基于 Transformer 的端到端目标检测模型，通过一对一的集合匹配实现无需手工设计非极大值抑制（NMS）的目标检测。然而，DETR 的一对一匹配方式导致正样本数量不足，特别是在标注框较少的图像中，这显著降低了模型的训练效率和检测性能。为了解决这一问题，H-DETR 提出了一种混合匹配方案，结合了一对一匹配和一对多匹配的优势。

研究方法

1. 混合匹配方案

H-DETR 的核心在于混合匹配方案，它在训练过程中同时使用一对一匹配分支和一对多匹配分支。具体来说：

一对一匹配分支：保持 DETR 的原始设计，每个查询（query）只与一个真实标签（ground truth）匹配。这种匹配方式确保了模型在推理时无需 NMS，保持了 DETR 的端到端特性。
一对多匹配分支：为每个真实标签分配多个查询，增加了正样本的数量，从而提高了模型的训练效率和检测精度。

在推理过程中，仅使用一对一匹配分支，以保持 DETR 的推理效率。

2. 混合匹配的实现

H-DETR 提出了三种混合匹配的实现方式：

混合分支方式：在解码器中同时包含一对一匹配分支和一对多匹配分支。每个分支处理不同的查询集合，分别计算损失并进行优化。
混合 Epoch 方式：在不同的训练阶段（epochs）分别使用一对一匹配和一对多匹配。例如，在前 \(\rho\) 个 epoch 使用一对多匹配，剩余的 \(1 - \rho\) 个 epoch 使用一对一匹配。
混合层方式：在 Transformer 解码器的不同层分别使用一对一匹配和一对多匹配。例如，在前 \(L_1\) 层使用一对多匹配，剩余的 \(L_2\) 层使用一对一匹配。

3. 损失函数

H-DETR 的总损失函数结合了一对一匹配损失和一对多匹配损失：

\[ \mathcal{L}_{\text{total}} = \lambda \mathcal{L}_{\text{one2many}} + \mathcal{L}_{\text{one2one}} \]

其中，\(\lambda\) 是平衡两个损失的超参数。

实验

1. 数据集与设置

H-DETR 在多个标准数据集上进行了实验，包括 COCO、LVIS、nuScenes 和 ScanNetV2 等。实验中使用了 ResNet-50 和 Swin Transformer 作为主干网络，并在不同的训练周期和查询数量下进行了测试。

2. 性能分析

表 1 展示了 H-DETR 在 COCO 数据集上的目标检测性能。与基线模型相比，H-DETR 在多个指标上均取得了显著提升。

模型名称	主干网络	查询数	训练周期	AP
Deformable-DETR	ResNet-50	300	12	43.7
Deformable-DETR	ResNet-50	300	36	46.8
Deformable-DETR + 技巧	ResNet-50	300	12	47.0
Deformable-DETR + 技巧	ResNet-50	300	36	49.0
H-DETR + 技巧	ResNet-50	300	12	48.7
H-DETR + 技巧	ResNet-50	300	36	50.0

表 2 展示了 H-DETR 在其他视觉任务上的性能提升，包括实例分割、全景分割、3D 目标检测、多人姿态估计和多目标跟踪等。

3. 消融实验

H-DETR 进行了广泛的消融实验，验证了混合匹配方案的有效性。实验结果表明，混合分支方式在多个任务上表现最佳。此外，实验还探讨了不同混合匹配策略（如混合 Epoch 方式和混合层方式）的效果，以及一对多匹配中 \(K\) 值的选择对性能的影响。

结论

H-DETR 通过引入混合匹配方案，有效解决了 DETR 中一对一匹配导致的正样本不足问题，显著提升了模型的训练效率和检测精度。该方法在多个视觉任务上表现出色，具有广泛的应用前景。

Ref

https://zhuanlan.zhihu.com/p/660068173 https://blog.csdn.net/qq_38929105/article/details/131271591 https://gitcode.com/gh_mirrors/hd/H-Deformable-DETR/overview https://github.com/HDETR/H-Deformable-DETR-mmdet https://blog.csdn.net/caiji00001/article/details/142210645 https://developer.volcengine.com/articles/7389112604813656118