Skip to content

[CVPR 2022] MeMOT:基于记忆机制的多目标跟踪

📄 论文链接:https://arxiv.org/abs/2203.16761 📘 IEEE 发布:https://ieeexplore.ieee.org/document/9880137 📦 项目(暂未开源):暂无 GitHub 仓库


📌 简介

MeMOT 是一个引入显式记忆机制的端到端多目标跟踪(MOT)方法,发表在 CVPR 2022。其主要目标是提升遮挡恢复、ID 保持和跨时帧建模能力。

与传统方法相比,MeMOT 显著改进了目标间的长期关联能力。


🧠 方法核心

MeMOT 的关键设计包括:

1. Memory-Enhanced Association

  • 构建一个外部记忆模块,存储历史帧中目标的关键特征。
  • 每一帧通过查询历史记忆进行目标关联。

2. Memory Attention Module

  • 类似于 Transformer 的注意力机制,当前帧目标通过 Query 与 Memory 中的历史 Key/Value 进行匹配。
  • 解决遮挡或消失后重新出现目标的 ID 匹配问题。

3. End-to-End 联合训练

  • 将检测与关联任务统一在一个可微结构中。
  • 不依赖外部 Re-ID 模块或 Kalman Filter。

🔍 框架结构

 Video Frames
Backbone (e.g. ResNet)
Encoder-Decoder Transformer
     ↓                         ↖
Query Embeddings              Memory Bank (History Features)
     ↓                         ↑
  Prediction             Memory Attention Module
 Tracking Output (Boxes + IDs)

🧪 实验结果(MOT17)

方法 MOTA ↑ IDF1 ↑ HOTA ↑ IDs ↓
MeMOT 76.6 74.3 59.5 225
MOTR 73.4 71.0 57.6 321
QDTrack 68.7 66.5 54.3 472

📌 MeMOT 在 ID 保持(IDF1)和遮挡恢复方面表现尤为突出,适合于复杂场景和长时间视频。


🎯 优势总结

  • 强遮挡鲁棒性:Memory Bank 能“记住”目标历史状态。
  • 跨帧信息融合:缓解短期帧差误匹配问题。
  • 无需手工设计关联策略:完全端到端学习。
  • 适配 Transformer 架构:与如 DETR、MOTR 可无缝集成。

⚠️ 与 MeMOTR 的区别

特性 MeMOT (CVPR 2022) MeMOTR (ICCV 2023)
记忆机制 单独显式记忆模块 双分支 Transformer + 显式 Memory
框架基础 自研 Encoder-Decoder 基于 MOTR/DETR 扩展
查询更新策略 静态查询 + 动态匹配 Memory Query 重新分配
适用场景 通用跟踪,遮挡鲁棒 更适合长时、复杂场景
GitHub 项目 暂无 MeMOTR 项目

🔗 参考资料