MS-DETR：基于混合监督的高效 DETR 训练方法

MS-DETR 是一种改进的 DETR（Detection Transformer）目标检测方法，通过引入混合监督策略显著提升了训练效率和检测性能。该方法在传统的 DETR 训练过程中结合了一对一监督和一对多监督，使得对象候选生成过程得到更直接的监督，从而提高了模型的性能。

https://github.com/Atten4Vis/MS-DETR https://arxiv.org/abs/2401.03989 https://openaccess.thecvf.com/content/CVPR2024/papers/Zhao_MS-DETR_Efficient_DETR_Training_with_Mixed_Supervision_CVPR_2024_paper.pdf

背景知识

DETR 是一种基于 Transformer 的端到端目标检测模型，通过迭代生成多个对象候选，并为每个真实目标选择一个候选。然而，DETR 的传统训练方法仅使用一对一监督，缺乏对对象候选生成过程的直接监督，导致训练效率较低。为了解决这一问题，MS-DETR 提出了一种混合监督方法，结合了一对一监督和一对多监督，以提高训练效率和检测性能。

研究方法

1. 混合监督策略

MS-DETR 的核心在于混合监督策略，它在训练过程中同时使用一对一监督和一对多监督。具体来说：

一对一监督：保持 DETR 的原始设计，每个查询（query）只与一个真实标签（ground truth）匹配。这种监督方式确保了模型在推理时无需非极大值抑制（NMS），保持了 DETR 的端到端特性。
一对多监督：为每个真实标签分配多个查询，增加了正样本的数量，从而提高了模型的训练效率和检测性能。

2. 混合监督的实现

MS-DETR 在主解码器中直接应用一对多监督，而无需额外的解码器分支或查询。具体来说，MS-DETR 在主解码器的对象查询上应用一对多监督，使得这些查询在对象候选生成过程中得到更直接的监督。这种方法不仅提高了训练效率，还提升了检测性能。

3. 损失函数

MS-DETR 的总损失函数结合了一对一监督损失和一对多监督损失：

\[ \mathcal{L}_{\text{total}} = \mathcal{L}_{\text{one2one}} + \lambda \mathcal{L}_{\text{one2many}} \]

其中，\(\lambda\) 是平衡两个损失的超参数。

实验

1. 数据集与设置

MS-DETR 在 COCO-2017 数据集上进行了实验，使用 ResNet-50 和 Deformable-DETR 作为主干网络。实验中，模型在不同的训练周期和查询数量下进行了测试。

2. 性能分析

表 1 展示了 MS-DETR 在 COCO 数据集上的目标检测性能。与基线模型相比，MS-DETR 在多个指标上均取得了显著提升。

模型名称	主干网络	查询数	训练周期	mAP
Deformable-DETR	ResNet-50	300	12	43.7
Deformable-DETR++	ResNet-50	300	12	45.0
MS-DETR	Deformable-DETR	ResNet-50	300	12
MS-DETR	Deformable-DETR++	ResNet-50	300	12
MS-DETR	Deformable-DETR++	ResNet-50	900	12

3. 消融实验

MS-DETR 进行了广泛的消融实验，验证了混合监督策略的有效性。实验结果表明，混合监督策略在多个任务上表现最佳。此外，实验还探讨了不同超参数（如 \(\lambda\)）对性能的影响。

结论

MS-DETR 通过引入混合监督策略，有效解决了 DETR 中一对一监督导致的训练效率问题，显著提升了模型的训练效率和检测性能。该方法在多个视觉任务上表现出色，具有广泛的应用前景。

Ref

GitHub - Atten4Vis/MS-DETR: [CVPR 2024] The official implementation for "MS-DETR: Efficient DETR Training with Mixed Supervision"

Ref

https://blog.csdn.net/athrunsunny/article/details/135606922 https://hub.baai.ac.cn/view/34303 https://zhuanlan.zhihu.com/p/12741648718 https://zhuanlan.zhihu.com/p/28716211795