Skip to content

[arXiv 2023] CO-MOT: Contrastive Object-aware Multiple Object Tracking

CO-MOT 是一种基于对比学习的目标感知多目标跟踪方法(Contrastive Object-aware Multiple Object Tracking)。该方法提出了一种无需外部检测器和外部 ReID 模块的端到端多目标跟踪框架。

论文链接:https://arxiv.org/abs/2305.12724
代码地址:https://github.com/BingfengYan/CO-MOT

方法概述

CO-MOT 的核心思想是通过引入目标感知特征和对比学习机制,增强多目标跟踪过程中的目标一致性和区分能力。整体框架由以下几部分组成:

1. 端到端的跟踪框架

  • 将检测、ReID 和关联统一在一个 Transformer 架构中完成。
  • 不依赖外部检测器或 ReID 模块。

2. 引入对比损失(Contrastive Loss)

  • 使用对比学习对同一目标的跨帧表示进行拉近,不同目标进行拉远。
  • 定义了 轨迹级别的正负样本对,以实现更稳健的特征学习。

损失函数为:

\[ \mathcal{L}_{\text{contrast}} = -\log \frac{\exp(\text{sim}(z_i, z_j^+)/\tau)}{\sum_{k=1}^{N} \exp(\text{sim}(z_i, z_k)/\tau)} \]

其中:

  • \(z_i\) 是当前帧目标表示;
  • \(z_j^+\) 是同一目标的正样本;
  • \(z_k\) 为负样本集合;
  • \(\text{sim}(\cdot)\) 为相似度函数;
  • \(\tau\) 为温度参数。

3. Trajectory Memory

  • 引入轨迹记忆模块,用于存储每个目标的历史特征信息。
  • 支持长时间目标关联,增强遮挡恢复能力。

4. Matching Strategy

  • 使用 Transformer 提取特征后,进行空间和时间上的匹配。
  • 综合考虑目标的空间位置、外观特征和运动信息。

实验结果

在多个基准数据集上,CO-MOT 表现优异:

Dataset MOTA ↑ IDF1 ↑ HOTA ↑
DanceTrack 67.1 68.9 58.5
MOT17 76.4 75.2 66.0

与 SOTA 方法相比,在保持精度的同时,显著减少了依赖的模块数量,提升了系统的简洁性与鲁棒性。

可视化展示

Ref

https://arxiv.org/abs/2305.12724
https://github.com/BingfengYan/CO-MOT
https://zhuanlan.zhihu.com/p/631515442
https://www.bilibili.com/opus/855892381150478361