Skip to content

MS-DETR:基于混合监督的高效 DETR 训练方法

MS-DETR 是一种改进的 DETR(Detection Transformer)目标检测方法,通过引入混合监督策略显著提升了训练效率和检测性能。该方法在传统的 DETR 训练过程中结合了一对一监督和一对多监督,使得对象候选生成过程得到更直接的监督,从而提高了模型的性能。

https://github.com/Atten4Vis/MS-DETR https://arxiv.org/abs/2401.03989 https://openaccess.thecvf.com/content/CVPR2024/papers/Zhao_MS-DETR_Efficient_DETR_Training_with_Mixed_Supervision_CVPR_2024_paper.pdf

背景知识

DETR 是一种基于 Transformer 的端到端目标检测模型,通过迭代生成多个对象候选,并为每个真实目标选择一个候选。然而,DETR 的传统训练方法仅使用一对一监督,缺乏对对象候选生成过程的直接监督,导致训练效率较低。为了解决这一问题,MS-DETR 提出了一种混合监督方法,结合了一对一监督和一对多监督,以提高训练效率和检测性能。

研究方法

1. 混合监督策略

MS-DETR 的核心在于混合监督策略,它在训练过程中同时使用一对一监督和一对多监督。具体来说:

  • 一对一监督:保持 DETR 的原始设计,每个查询(query)只与一个真实标签(ground truth)匹配。这种监督方式确保了模型在推理时无需非极大值抑制(NMS),保持了 DETR 的端到端特性。
  • 一对多监督:为每个真实标签分配多个查询,增加了正样本的数量,从而提高了模型的训练效率和检测性能。

2. 混合监督的实现

MS-DETR 在主解码器中直接应用一对多监督,而无需额外的解码器分支或查询。具体来说,MS-DETR 在主解码器的对象查询上应用一对多监督,使得这些查询在对象候选生成过程中得到更直接的监督。这种方法不仅提高了训练效率,还提升了检测性能。

3. 损失函数

MS-DETR 的总损失函数结合了一对一监督损失和一对多监督损失:

\[ \mathcal{L}_{\text{total}} = \mathcal{L}_{\text{one2one}} + \lambda \mathcal{L}_{\text{one2many}} \]

其中,\(\lambda\) 是平衡两个损失的超参数。

实验

1. 数据集与设置

MS-DETR 在 COCO-2017 数据集上进行了实验,使用 ResNet-50 和 Deformable-DETR 作为主干网络。实验中,模型在不同的训练周期和查询数量下进行了测试。

2. 性能分析

表 1 展示了 MS-DETR 在 COCO 数据集上的目标检测性能。与基线模型相比,MS-DETR 在多个指标上均取得了显著提升。

模型名称 主干网络 查询数 训练周期 mAP
Deformable-DETR ResNet-50 300 12 43.7
Deformable-DETR++ ResNet-50 300 12 45.0
MS-DETR Deformable-DETR ResNet-50 300 12
MS-DETR Deformable-DETR++ ResNet-50 300 12
MS-DETR Deformable-DETR++ ResNet-50 900 12

3. 消融实验

MS-DETR 进行了广泛的消融实验,验证了混合监督策略的有效性。实验结果表明,混合监督策略在多个任务上表现最佳。此外,实验还探讨了不同超参数(如 \(\lambda\))对性能的影响。

结论

MS-DETR 通过引入混合监督策略,有效解决了 DETR 中一对一监督导致的训练效率问题,显著提升了模型的训练效率和检测性能。该方法在多个视觉任务上表现出色,具有广泛的应用前景。

Ref

Ref

https://blog.csdn.net/athrunsunny/article/details/135606922 https://hub.baai.ac.cn/view/34303 https://zhuanlan.zhihu.com/p/12741648718 https://zhuanlan.zhihu.com/p/28716211795