[CVPR 2022] MeMOT:基于记忆机制的多目标跟踪
📄 论文链接:https://arxiv.org/abs/2203.16761 📘 IEEE 发布:https://ieeexplore.ieee.org/document/9880137 📦 项目(暂未开源):暂无 GitHub 仓库
📌 简介
MeMOT 是一个引入显式记忆机制的端到端多目标跟踪(MOT)方法,发表在 CVPR 2022。其主要目标是提升遮挡恢复、ID 保持和跨时帧建模能力。
与传统方法相比,MeMOT 显著改进了目标间的长期关联能力。
🧠 方法核心
MeMOT 的关键设计包括:
1. Memory-Enhanced Association
- 构建一个外部记忆模块,存储历史帧中目标的关键特征。
- 每一帧通过查询历史记忆进行目标关联。
2. Memory Attention Module
- 类似于 Transformer 的注意力机制,当前帧目标通过 Query 与 Memory 中的历史 Key/Value 进行匹配。
- 解决遮挡或消失后重新出现目标的 ID 匹配问题。
3. End-to-End 联合训练
- 将检测与关联任务统一在一个可微结构中。
- 不依赖外部 Re-ID 模块或 Kalman Filter。
🔍 框架结构
Video Frames
↓
Backbone (e.g. ResNet)
↓
Encoder-Decoder Transformer
↓ ↖
Query Embeddings Memory Bank (History Features)
↓ ↑
Prediction Memory Attention Module
↓
Tracking Output (Boxes + IDs)
🧪 实验结果(MOT17)
| 方法 | MOTA ↑ | IDF1 ↑ | HOTA ↑ | IDs ↓ |
|---|---|---|---|---|
| MeMOT | 76.6 | 74.3 | 59.5 | 225 |
| MOTR | 73.4 | 71.0 | 57.6 | 321 |
| QDTrack | 68.7 | 66.5 | 54.3 | 472 |
📌 MeMOT 在 ID 保持(IDF1)和遮挡恢复方面表现尤为突出,适合于复杂场景和长时间视频。
🎯 优势总结
- ✅ 强遮挡鲁棒性:Memory Bank 能“记住”目标历史状态。
- ✅ 跨帧信息融合:缓解短期帧差误匹配问题。
- ✅ 无需手工设计关联策略:完全端到端学习。
- ✅ 适配 Transformer 架构:与如 DETR、MOTR 可无缝集成。
⚠️ 与 MeMOTR 的区别
| 特性 | MeMOT (CVPR 2022) | MeMOTR (ICCV 2023) |
|---|---|---|
| 记忆机制 | 单独显式记忆模块 | 双分支 Transformer + 显式 Memory |
| 框架基础 | 自研 Encoder-Decoder | 基于 MOTR/DETR 扩展 |
| 查询更新策略 | 静态查询 + 动态匹配 | Memory Query 重新分配 |
| 适用场景 | 通用跟踪,遮挡鲁棒 | 更适合长时、复杂场景 |
| GitHub 项目 | 暂无 | MeMOTR 项目 |