[CVPR 2023] MOTRv2: Integrating YOLOX with MOTR for Enhanced Multi-Object Tracking
论文链接:https://arxiv.org/abs/2211.09791
代码地址:https://github.com/megvii-research/MOTRv2
MOTRv2 是旷视科技与上海交通大学联合提出的多目标跟踪方法,旨在提升端到端跟踪器的检测性能。该方法在原始 MOTR 架构的基础上,引入了预训练的目标检测器 YOLOX,通过生成高质量的 proposal queries,缓解了检测与关联任务之间的冲突,从而实现更稳定、准确的目标跟踪。
方法概述
背景
传统的端到端多目标跟踪方法,如 MOTR,虽然在关联性能上表现出色,但由于检测与关联任务共享 Transformer 解码器,导致检测性能不佳。MOTRv2 通过引入外部目标检测器,提供高质量的检测结果,作为 proposal queries 的初始化,从而提升整体性能。
核心改进
-
引入预训练目标检测器 YOLOX
-
使用 YOLOX 生成高质量的检测结果,作为 proposal queries 的 anchor points,为 Transformer 解码器提供更准确的初始位置。
-
Proposal Query 生成与传播
-
将 YOLOX 的检测结果转化为 proposal queries,结合原有的 track queries,一同输入 Transformer 解码器,实现检测与跟踪的协同优化。
-
缓解检测与关联任务的冲突
-
通过引入外部检测器,解耦检测与关联任务,避免了二者在共享解码器中相互干扰的问题,提升了模型的稳定性和准确性。
实验结果
MOTRv2 在多个数据集上均取得了优异的性能,尤其在 DanceTrack 数据集上表现突出。
| Dataset | MOTA ↑ | IDF1 ↑ | HOTA ↑ |
|---|---|---|---|
| MOT17 | 79.5 | 78.3 | 69.1 |
| DanceTrack | - | - | 73.4 |
| BDD100K | 43.6 | - | - |
- 在 DanceTrack 数据集上,MOTRv2 的 HOTA 指标达到 73.4%,显著超过其他方法。
- 在 BDD100K 数据集上,MOTRv2 实现了 43.6% 的 mMOTA,超过了之前的最佳方法 Unicorn。
总结
MOTRv2 通过引入预训练的目标检测器 YOLOX,生成高质量的 proposal queries,缓解了检测与关联任务之间的冲突,提升了端到端多目标跟踪的性能。该方法在多个数据集上取得了 SOTA 的结果,展示了其在实际应用中的潜力。
Ref
- https://arxiv.org/abs/2211.09791
- https://github.com/megvii-research/MOTRv2
- https://blog.csdn.net/CV_Autobot/article/details/128141354
- https://zhuanlan.zhihu.com/p/701000249
- https://zhuanlan.zhihu.com/p/701019659
- https://ost.51cto.com/posts/19748
- https://blog.csdn.net/i6101206007/article/details/132133276
- https://aijishu.com/a/1060000000362741