[Arxiv] TransTrack：基于 DETR 的端到端多目标跟踪方法

📄 论文：TransTrack: Multiple-Object Tracking with Transformer 🗓 发表时间：2020.12 🔗 论文链接：https://arxiv.org/abs/2012.15460 💻 GitHub：https://github.com/PeizeSun/TransTrack

一、任务背景与研究动机

多目标跟踪（Multi-Object Tracking, MOT）旨在检测视频中所有目标并持续为每个目标分配一致的 ID。主流方案大多采用 tracking-by-detection 框架：先检测，再关联。但此类方法通常需要：

外部检测器；
多阶段关联；
NMS 后处理。

TransTrack 首次将 Transformer（DETR）架构引入 MOT 任务，提出端到端无后处理框架，可直接同时预测目标位置与 ID 关联，是 DETR 在视频时序场景下的自然延伸。

二、方法概述

TransTrack 架构如下：

当前帧图像 + 上一帧检测结果 → Backbone CNN → Transformer Encoder-Decoder → 输出目标框 + ID 关联

其核心创新在于： 将上一帧目标位置作为 track query 融入当前帧 Transformer 中，进行目标跟踪与检测的联合建模。

三、模型结构详解

TransTrack 基于 DETR，核心模块包括：

1. 图像特征提取（Backbone）

使用 ResNet-50 + FPN 提取当前帧图像特征；
保持高分辨率以利于检测小目标。

2. Transformer 编码器（Encoder）

输入：当前帧图像特征 + 位置编码；
输出：空间上下文信息增强后的图像全局特征。

3. Object Queries 类型

TransTrack 的创新在于定义了两类查询：

✅ Track Queries（跟踪查询）

来自上一帧的目标预测（bounding boxes）；
编码为 query 向量，带入当前帧 Transformer；
模拟“跟踪目标”的延续性。

✅ Detection Queries（检测查询）

学习得到的一组 object queries；
类似于 DETR，用于发现当前帧中的新目标。

🔁 这样，TransTrack 实现了旧目标的“持续跟踪”+ 新目标的“主动检测”。

4. Transformer 解码器（Decoder）

接收 track queries 和 detection queries；
输出预测结果，包括边界框和目标类别。

每个输出包括：

边界框位置 $[x, y, w, h]$；
类别概率（含背景类）；
隐式的“轨迹匹配分配”结果。

四、ID 分配与关联机制

TransTrack 关键设计在于：用匈牙利匹配一次性完成检测与 ID 分配，即：

若 track query 的输出匹配到 GT，则认为该目标延续；
若 detection query 匹配到 GT，认为是新出现的目标；
若无匹配，则为虚假目标或消失目标。

📌 不需要手工设计的 IoU、ReID 特征或卡尔曼滤波，全部交由 Transformer 处理。

五、损失函数设计

与 DETR 类似，采用 bipartite matching 损失，包括：

1. 分类损失

使用交叉熵损失预测目标类别（包括 no-object 类）：

\[ \mathcal{L}_{cls} = - \sum y_i \log \hat{p}_i \]

2. 边界框损失

组合 L1 与 GIoU 损失：

\[ \mathcal{L}_{bbox} = \lambda_1 \cdot \mathcal{L}_{L1} + \lambda_2 \cdot \mathcal{L}_{GIoU} \]

3. 总损失函数

\[ \mathcal{L} = \mathcal{L}_{cls} + \mathcal{L}_{bbox} \]

所有匹配通过匈牙利算法完成，一步解决目标检测和 ID 分配。

六、TransTrack 与 DETR 对比

模块	DETR (2D 检测)	TransTrack (MOT)
输入	单帧图像	当前帧 + 上一帧目标
Queries	Learnable queries	Track queries + detection queries
匹配策略	匈牙利匹配（框 + 类别）	匈牙利匹配（框 + ID）
输出	边界框 + 类别	边界框 + ID 分配
是否端到端	是	是（检测 + 跟踪）
是否需 ReID	否	否
是否需后处理	否	否（无 NMS）

七、实验与结果

TransTrack 在 MOT17 数据集上与主流方法对比：

方法	MOTA ↑	IDF1 ↑	HOTA ↑	FPS ↑
FairMOT	76.2	72.3	63.1	25
CenterTrack	67.8	64.7	57.6	22
TransTrack	75.9	63.5	60.5	18

MOTA 接近 SOTA；
无需 ReID，推理速度快；
更适合真实时间场景。

八、主要贡献

🎯 首次提出使用 Transformer 端到端处理 MOT 问题；
🔄 利用 track queries 实现帧间目标关联；
🧹 摒弃传统 ReID、IoU 匹配、卡尔曼等跟踪模块；
⚡ 推理快速、框架简洁、训练稳定。