Skip to content

[Arxiv] TransTrack:基于 DETR 的端到端多目标跟踪方法

📄 论文:TransTrack: Multiple-Object Tracking with Transformer 🗓 发表时间:2020.12 🔗 论文链接:https://arxiv.org/abs/2012.15460 💻 GitHub:https://github.com/PeizeSun/TransTrack


一、任务背景与研究动机

多目标跟踪(Multi-Object Tracking, MOT)旨在检测视频中所有目标并持续为每个目标分配一致的 ID。主流方案大多采用 tracking-by-detection 框架:先检测,再关联。但此类方法通常需要:

  • 外部检测器;
  • 多阶段关联;
  • NMS 后处理。

TransTrack 首次将 Transformer(DETR)架构引入 MOT 任务,提出端到端无后处理框架,可直接同时预测目标位置与 ID 关联,是 DETR 在视频时序场景下的自然延伸。


二、方法概述

TransTrack 架构如下:

当前帧图像 + 上一帧检测结果 → Backbone CNN → Transformer Encoder-Decoder → 输出目标框 + ID 关联

其核心创新在于: 将上一帧目标位置作为 track query 融入当前帧 Transformer 中,进行目标跟踪与检测的联合建模。


三、模型结构详解

TransTrack 基于 DETR,核心模块包括:

1. 图像特征提取(Backbone)

  • 使用 ResNet-50 + FPN 提取当前帧图像特征;
  • 保持高分辨率以利于检测小目标。

2. Transformer 编码器(Encoder)

  • 输入:当前帧图像特征 + 位置编码;
  • 输出:空间上下文信息增强后的图像全局特征。

3. Object Queries 类型

TransTrack 的创新在于定义了两类查询:

✅ Track Queries(跟踪查询)

  • 来自上一帧的目标预测(bounding boxes);
  • 编码为 query 向量,带入当前帧 Transformer;
  • 模拟“跟踪目标”的延续性。

✅ Detection Queries(检测查询)

  • 学习得到的一组 object queries;
  • 类似于 DETR,用于发现当前帧中的新目标。

🔁 这样,TransTrack 实现了旧目标的“持续跟踪”+ 新目标的“主动检测”。

4. Transformer 解码器(Decoder)

  • 接收 track queries 和 detection queries;
  • 输出预测结果,包括边界框和目标类别。

每个输出包括:

  • 边界框位置 $[x, y, w, h]$;
  • 类别概率(含背景类);
  • 隐式的“轨迹匹配分配”结果。

四、ID 分配与关联机制

TransTrack 关键设计在于:用匈牙利匹配一次性完成检测与 ID 分配,即:

  • 若 track query 的输出匹配到 GT,则认为该目标延续;
  • 若 detection query 匹配到 GT,认为是新出现的目标;
  • 若无匹配,则为虚假目标或消失目标。

📌 不需要手工设计的 IoU、ReID 特征或卡尔曼滤波,全部交由 Transformer 处理。


五、损失函数设计

与 DETR 类似,采用 bipartite matching 损失,包括:

1. 分类损失

使用交叉熵损失预测目标类别(包括 no-object 类):

\[ \mathcal{L}_{cls} = - \sum y_i \log \hat{p}_i \]

2. 边界框损失

组合 L1 与 GIoU 损失:

\[ \mathcal{L}_{bbox} = \lambda_1 \cdot \mathcal{L}_{L1} + \lambda_2 \cdot \mathcal{L}_{GIoU} \]

3. 总损失函数

\[ \mathcal{L} = \mathcal{L}_{cls} + \mathcal{L}_{bbox} \]

所有匹配通过匈牙利算法完成,一步解决目标检测和 ID 分配。


六、TransTrack 与 DETR 对比

模块 DETR (2D 检测) TransTrack (MOT)
输入 单帧图像 当前帧 + 上一帧目标
Queries Learnable queries Track queries + detection queries
匹配策略 匈牙利匹配(框 + 类别) 匈牙利匹配(框 + ID)
输出 边界框 + 类别 边界框 + ID 分配
是否端到端 是(检测 + 跟踪)
是否需 ReID
是否需后处理 否(无 NMS)

七、实验与结果

TransTrack 在 MOT17 数据集上与主流方法对比:

方法 MOTA ↑ IDF1 ↑ HOTA ↑ FPS ↑
FairMOT 76.2 72.3 63.1 25
CenterTrack 67.8 64.7 57.6 22
TransTrack 75.9 63.5 60.5 18
  • MOTA 接近 SOTA;
  • 无需 ReID,推理速度快;
  • 更适合真实时间场景。

八、主要贡献

  • 🎯 首次提出使用 Transformer 端到端处理 MOT 问题
  • 🔄 利用 track queries 实现帧间目标关联;
  • 🧹 摒弃传统 ReID、IoU 匹配、卡尔曼等跟踪模块;
  • ⚡ 推理快速、框架简洁、训练稳定。

Ref