Skip to content

[arXiv 2023] MOTRv3: Release-Fetch Supervision for End-to-End Multi-Object Tracking

论文链接:https://arxiv.org/abs/2305.14298

MOTRv3 是旷视科技提出的多目标跟踪模型,旨在解决端到端跟踪器中检测与关联任务之间的冲突问题。该模型引入了 Release-Fetch Supervision 策略,平衡了训练过程中标签分配的不公平性,从而提升了检测和关联的性能,且无需依赖额外的检测网络。

方法概述

背景

  • 传统的端到端多目标跟踪方法,如 MOTR,存在检测与关联任务共享解码器导致的优化冲突问题,影响了模型的收敛性和性能。
  • MOTRv2 通过引入外部检测器缓解了该问题,但增加了模型的复杂性和训练成本。

核心改进

  1. Release-Fetch Supervision

  2. 在训练初期,标签被“释放”用于检测查询的训练,确保检测部分获得充分的监督。

  3. 随着训练的进行,标签被“获取”用于关联查询的训练,增强了关联部分的学习效果。
  4. 该策略平衡了检测与关联任务的标签分配,缓解了二者之间的冲突。

  5. 伪标签蒸馏(Pseudo Label Distillation)

  6. 利用预训练的检测器(如 YOLOX 或 Sparse R-CNN)生成伪标签,为检测部分提供额外的监督信号。

  7. 增强了模型在检测任务上的学习能力,提升了整体性能。

  8. 轨迹组去噪(Track Group Denoising)

  9. 将轨迹查询分组,并在训练过程中引入随机噪声,增强模型对目标轨迹的鲁棒性。

  10. 提高了模型在复杂场景下的关联性能。

实验结果

MOTRv3 在多个基准数据集上取得了优异的性能,尤其在无需额外检测器的情况下,表现出色。

Dataset MOTA ↑ IDF1 ↑ HOTA ↑
MOT17 79.2 77.8 68.5
DanceTrack 69.3 70.5 60.7
BDD100K - - 明显优于前作
  • 在 MOT17 数据集上,MOTRv3 的 MOTA 达到 79.2%,IDF1 为 77.8%,HOTA 为 68.5%。
  • 在 DanceTrack 数据集上,HOTA 达到 60.7%,优于多种现有方法。
  • 在 BDD100K 数据集上,MOTRv3 显著优于前作,展示了强大的跨域泛化能力。

总结

MOTRv3 通过引入 Release-Fetch Supervision 策略,平衡了检测与关联任务的训练过程,提升了模型的整体性能,且无需依赖额外的检测器。该方法在多个数据集上取得了领先的结果,展示了其在实际应用中的潜力。

Ref