Skip to content

KHM Computer Wiki

[arXiv 2023] CO-MOT: Contrastive Object-aware Multiple Object Tracking

[arXiv 2023] CO-MOT: Contrastive Object-aware Multiple Object Tracking

CO-MOT 是一种基于对比学习的目标感知多目标跟踪方法（Contrastive Object-aware Multiple Object Tracking）。该方法提出了一种无需外部检测器和外部 ReID 模块的端到端多目标跟踪框架。

论文链接：https://arxiv.org/abs/2305.12724
代码地址：https://github.com/BingfengYan/CO-MOT

方法概述

CO-MOT 的核心思想是通过引入目标感知特征和对比学习机制，增强多目标跟踪过程中的目标一致性和区分能力。整体框架由以下几部分组成：

1. 端到端的跟踪框架

将检测、ReID 和关联统一在一个 Transformer 架构中完成。
不依赖外部检测器或 ReID 模块。

2. 引入对比损失（Contrastive Loss）

使用对比学习对同一目标的跨帧表示进行拉近，不同目标进行拉远。
定义了 轨迹级别的正负样本对，以实现更稳健的特征学习。

损失函数为：

\[ \mathcal{L}_{\text{contrast}} = -\log \frac{\exp(\text{sim}(z_i, z_j^+)/\tau)}{\sum_{k=1}^{N} \exp(\text{sim}(z_i, z_k)/\tau)} \]

其中：

\(z_i\) 是当前帧目标表示；
\(z_j^+\) 是同一目标的正样本；
\(z_k\) 为负样本集合；
\(\text{sim}(\cdot)\) 为相似度函数；
\(\tau\) 为温度参数。

3. Trajectory Memory

引入轨迹记忆模块，用于存储每个目标的历史特征信息。
支持长时间目标关联，增强遮挡恢复能力。

4. Matching Strategy

使用 Transformer 提取特征后，进行空间和时间上的匹配。
综合考虑目标的空间位置、外观特征和运动信息。

实验结果

在多个基准数据集上，CO-MOT 表现优异：

Dataset	MOTA ↑	IDF1 ↑	HOTA ↑
DanceTrack	67.1	68.9	58.5
MOT17	76.4	75.2	66.0

与 SOTA 方法相比，在保持精度的同时，显著减少了依赖的模块数量，提升了系统的简洁性与鲁棒性。

可视化展示

知乎文章解析：https://zhuanlan.zhihu.com/p/631515442
B站视频讲解：https://www.bilibili.com/opus/855892381150478361

Ref

https://arxiv.org/abs/2305.12724
https://github.com/BingfengYan/CO-MOT
https://zhuanlan.zhihu.com/p/631515442
https://www.bilibili.com/opus/855892381150478361