[arXiv 2023] CO-MOT: Contrastive Object-aware Multiple Object Tracking
CO-MOT 是一种基于对比学习的目标感知多目标跟踪方法(Contrastive Object-aware Multiple Object Tracking)。该方法提出了一种无需外部检测器和外部 ReID 模块的端到端多目标跟踪框架。
论文链接:https://arxiv.org/abs/2305.12724
代码地址:https://github.com/BingfengYan/CO-MOT
方法概述
CO-MOT 的核心思想是通过引入目标感知特征和对比学习机制,增强多目标跟踪过程中的目标一致性和区分能力。整体框架由以下几部分组成:
1. 端到端的跟踪框架
- 将检测、ReID 和关联统一在一个 Transformer 架构中完成。
- 不依赖外部检测器或 ReID 模块。
2. 引入对比损失(Contrastive Loss)
- 使用对比学习对同一目标的跨帧表示进行拉近,不同目标进行拉远。
- 定义了 轨迹级别的正负样本对,以实现更稳健的特征学习。
损失函数为:
\[
\mathcal{L}_{\text{contrast}} = -\log \frac{\exp(\text{sim}(z_i, z_j^+)/\tau)}{\sum_{k=1}^{N} \exp(\text{sim}(z_i, z_k)/\tau)}
\]
其中:
- \(z_i\) 是当前帧目标表示;
- \(z_j^+\) 是同一目标的正样本;
- \(z_k\) 为负样本集合;
- \(\text{sim}(\cdot)\) 为相似度函数;
- \(\tau\) 为温度参数。
3. Trajectory Memory
- 引入轨迹记忆模块,用于存储每个目标的历史特征信息。
- 支持长时间目标关联,增强遮挡恢复能力。
4. Matching Strategy
- 使用 Transformer 提取特征后,进行空间和时间上的匹配。
- 综合考虑目标的空间位置、外观特征和运动信息。
实验结果
在多个基准数据集上,CO-MOT 表现优异:
| Dataset | MOTA ↑ | IDF1 ↑ | HOTA ↑ |
|---|---|---|---|
| DanceTrack | 67.1 | 68.9 | 58.5 |
| MOT17 | 76.4 | 75.2 | 66.0 |
与 SOTA 方法相比,在保持精度的同时,显著减少了依赖的模块数量,提升了系统的简洁性与鲁棒性。
可视化展示
- 知乎文章解析:https://zhuanlan.zhihu.com/p/631515442
- B站视频讲解:https://www.bilibili.com/opus/855892381150478361
Ref
https://arxiv.org/abs/2305.12724
https://github.com/BingfengYan/CO-MOT
https://zhuanlan.zhihu.com/p/631515442
https://www.bilibili.com/opus/855892381150478361