[Arxiv] TransTrack:基于 DETR 的端到端多目标跟踪方法
📄 论文:TransTrack: Multiple-Object Tracking with Transformer 🗓 发表时间:2020.12 🔗 论文链接:https://arxiv.org/abs/2012.15460 💻 GitHub:https://github.com/PeizeSun/TransTrack
一、任务背景与研究动机
多目标跟踪(Multi-Object Tracking, MOT)旨在检测视频中所有目标并持续为每个目标分配一致的 ID。主流方案大多采用 tracking-by-detection 框架:先检测,再关联。但此类方法通常需要:
- 外部检测器;
- 多阶段关联;
- NMS 后处理。
TransTrack 首次将 Transformer(DETR)架构引入 MOT 任务,提出端到端无后处理框架,可直接同时预测目标位置与 ID 关联,是 DETR 在视频时序场景下的自然延伸。
二、方法概述
TransTrack 架构如下:
其核心创新在于: 将上一帧目标位置作为 track query 融入当前帧 Transformer 中,进行目标跟踪与检测的联合建模。
三、模型结构详解
TransTrack 基于 DETR,核心模块包括:
1. 图像特征提取(Backbone)
- 使用 ResNet-50 + FPN 提取当前帧图像特征;
- 保持高分辨率以利于检测小目标。
2. Transformer 编码器(Encoder)
- 输入:当前帧图像特征 + 位置编码;
- 输出:空间上下文信息增强后的图像全局特征。
3. Object Queries 类型
TransTrack 的创新在于定义了两类查询:
✅ Track Queries(跟踪查询)
- 来自上一帧的目标预测(bounding boxes);
- 编码为 query 向量,带入当前帧 Transformer;
- 模拟“跟踪目标”的延续性。
✅ Detection Queries(检测查询)
- 学习得到的一组 object queries;
- 类似于 DETR,用于发现当前帧中的新目标。
🔁 这样,TransTrack 实现了旧目标的“持续跟踪”+ 新目标的“主动检测”。
4. Transformer 解码器(Decoder)
- 接收 track queries 和 detection queries;
- 输出预测结果,包括边界框和目标类别。
每个输出包括:
- 边界框位置 $[x, y, w, h]$;
- 类别概率(含背景类);
- 隐式的“轨迹匹配分配”结果。
四、ID 分配与关联机制
TransTrack 关键设计在于:用匈牙利匹配一次性完成检测与 ID 分配,即:
- 若 track query 的输出匹配到 GT,则认为该目标延续;
- 若 detection query 匹配到 GT,认为是新出现的目标;
- 若无匹配,则为虚假目标或消失目标。
📌 不需要手工设计的 IoU、ReID 特征或卡尔曼滤波,全部交由 Transformer 处理。
五、损失函数设计
与 DETR 类似,采用 bipartite matching 损失,包括:
1. 分类损失
使用交叉熵损失预测目标类别(包括 no-object 类):
2. 边界框损失
组合 L1 与 GIoU 损失:
3. 总损失函数
所有匹配通过匈牙利算法完成,一步解决目标检测和 ID 分配。
六、TransTrack 与 DETR 对比
| 模块 | DETR (2D 检测) | TransTrack (MOT) |
|---|---|---|
| 输入 | 单帧图像 | 当前帧 + 上一帧目标 |
| Queries | Learnable queries | Track queries + detection queries |
| 匹配策略 | 匈牙利匹配(框 + 类别) | 匈牙利匹配(框 + ID) |
| 输出 | 边界框 + 类别 | 边界框 + ID 分配 |
| 是否端到端 | 是 | 是(检测 + 跟踪) |
| 是否需 ReID | 否 | 否 |
| 是否需后处理 | 否 | 否(无 NMS) |
七、实验与结果
TransTrack 在 MOT17 数据集上与主流方法对比:
| 方法 | MOTA ↑ | IDF1 ↑ | HOTA ↑ | FPS ↑ |
|---|---|---|---|---|
| FairMOT | 76.2 | 72.3 | 63.1 | 25 |
| CenterTrack | 67.8 | 64.7 | 57.6 | 22 |
| TransTrack | 75.9 | 63.5 | 60.5 | 18 |
- MOTA 接近 SOTA;
- 无需 ReID,推理速度快;
- 更适合真实时间场景。
八、主要贡献
- 🎯 首次提出使用 Transformer 端到端处理 MOT 问题;
- 🔄 利用 track queries 实现帧间目标关联;
- 🧹 摒弃传统 ReID、IoU 匹配、卡尔曼等跟踪模块;
- ⚡ 推理快速、框架简洁、训练稳定。