MS-DETR:基于混合监督的高效 DETR 训练方法
MS-DETR 是一种改进的 DETR(Detection Transformer)目标检测方法,通过引入混合监督策略显著提升了训练效率和检测性能。该方法在传统的 DETR 训练过程中结合了一对一监督和一对多监督,使得对象候选生成过程得到更直接的监督,从而提高了模型的性能。
https://github.com/Atten4Vis/MS-DETR https://arxiv.org/abs/2401.03989 https://openaccess.thecvf.com/content/CVPR2024/papers/Zhao_MS-DETR_Efficient_DETR_Training_with_Mixed_Supervision_CVPR_2024_paper.pdf
背景知识
DETR 是一种基于 Transformer 的端到端目标检测模型,通过迭代生成多个对象候选,并为每个真实目标选择一个候选。然而,DETR 的传统训练方法仅使用一对一监督,缺乏对对象候选生成过程的直接监督,导致训练效率较低。为了解决这一问题,MS-DETR 提出了一种混合监督方法,结合了一对一监督和一对多监督,以提高训练效率和检测性能。
研究方法
1. 混合监督策略
MS-DETR 的核心在于混合监督策略,它在训练过程中同时使用一对一监督和一对多监督。具体来说:
- 一对一监督:保持 DETR 的原始设计,每个查询(query)只与一个真实标签(ground truth)匹配。这种监督方式确保了模型在推理时无需非极大值抑制(NMS),保持了 DETR 的端到端特性。
- 一对多监督:为每个真实标签分配多个查询,增加了正样本的数量,从而提高了模型的训练效率和检测性能。
2. 混合监督的实现
MS-DETR 在主解码器中直接应用一对多监督,而无需额外的解码器分支或查询。具体来说,MS-DETR 在主解码器的对象查询上应用一对多监督,使得这些查询在对象候选生成过程中得到更直接的监督。这种方法不仅提高了训练效率,还提升了检测性能。
3. 损失函数
MS-DETR 的总损失函数结合了一对一监督损失和一对多监督损失:
其中,\(\lambda\) 是平衡两个损失的超参数。
实验
1. 数据集与设置
MS-DETR 在 COCO-2017 数据集上进行了实验,使用 ResNet-50 和 Deformable-DETR 作为主干网络。实验中,模型在不同的训练周期和查询数量下进行了测试。
2. 性能分析
表 1 展示了 MS-DETR 在 COCO 数据集上的目标检测性能。与基线模型相比,MS-DETR 在多个指标上均取得了显著提升。
| 模型名称 | 主干网络 | 查询数 | 训练周期 | mAP |
|---|---|---|---|---|
| Deformable-DETR | ResNet-50 | 300 | 12 | 43.7 |
| Deformable-DETR++ | ResNet-50 | 300 | 12 | 45.0 |
| MS-DETR | Deformable-DETR | ResNet-50 | 300 | 12 |
| MS-DETR | Deformable-DETR++ | ResNet-50 | 300 | 12 |
| MS-DETR | Deformable-DETR++ | ResNet-50 | 900 | 12 |
3. 消融实验
MS-DETR 进行了广泛的消融实验,验证了混合监督策略的有效性。实验结果表明,混合监督策略在多个任务上表现最佳。此外,实验还探讨了不同超参数(如 \(\lambda\))对性能的影响。
结论
MS-DETR 通过引入混合监督策略,有效解决了 DETR 中一对一监督导致的训练效率问题,显著提升了模型的训练效率和检测性能。该方法在多个视觉任务上表现出色,具有广泛的应用前景。
Ref
Ref
https://blog.csdn.net/athrunsunny/article/details/135606922 https://hub.baai.ac.cn/view/34303 https://zhuanlan.zhihu.com/p/12741648718 https://zhuanlan.zhihu.com/p/28716211795