[arXiv 2023] MOTRv3: Release-Fetch Supervision for End-to-End Multi-Object Tracking
论文链接:https://arxiv.org/abs/2305.14298
MOTRv3 是旷视科技提出的多目标跟踪模型,旨在解决端到端跟踪器中检测与关联任务之间的冲突问题。该模型引入了 Release-Fetch Supervision 策略,平衡了训练过程中标签分配的不公平性,从而提升了检测和关联的性能,且无需依赖额外的检测网络。
方法概述
背景
- 传统的端到端多目标跟踪方法,如 MOTR,存在检测与关联任务共享解码器导致的优化冲突问题,影响了模型的收敛性和性能。
- MOTRv2 通过引入外部检测器缓解了该问题,但增加了模型的复杂性和训练成本。
核心改进
-
Release-Fetch Supervision
-
在训练初期,标签被“释放”用于检测查询的训练,确保检测部分获得充分的监督。
- 随着训练的进行,标签被“获取”用于关联查询的训练,增强了关联部分的学习效果。
-
该策略平衡了检测与关联任务的标签分配,缓解了二者之间的冲突。
-
伪标签蒸馏(Pseudo Label Distillation)
-
利用预训练的检测器(如 YOLOX 或 Sparse R-CNN)生成伪标签,为检测部分提供额外的监督信号。
-
增强了模型在检测任务上的学习能力,提升了整体性能。
-
轨迹组去噪(Track Group Denoising)
-
将轨迹查询分组,并在训练过程中引入随机噪声,增强模型对目标轨迹的鲁棒性。
- 提高了模型在复杂场景下的关联性能。
实验结果
MOTRv3 在多个基准数据集上取得了优异的性能,尤其在无需额外检测器的情况下,表现出色。
| Dataset | MOTA ↑ | IDF1 ↑ | HOTA ↑ |
|---|---|---|---|
| MOT17 | 79.2 | 77.8 | 68.5 |
| DanceTrack | 69.3 | 70.5 | 60.7 |
| BDD100K | - | - | 明显优于前作 |
- 在 MOT17 数据集上,MOTRv3 的 MOTA 达到 79.2%,IDF1 为 77.8%,HOTA 为 68.5%。
- 在 DanceTrack 数据集上,HOTA 达到 60.7%,优于多种现有方法。
- 在 BDD100K 数据集上,MOTRv3 显著优于前作,展示了强大的跨域泛化能力。
总结
MOTRv3 通过引入 Release-Fetch Supervision 策略,平衡了检测与关联任务的训练过程,提升了模型的整体性能,且无需依赖额外的检测器。该方法在多个数据集上取得了领先的结果,展示了其在实际应用中的潜力。