[CVPR 2022] MeMOT：基于记忆机制的多目标跟踪

📄 论文链接：https://arxiv.org/abs/2203.16761 📘 IEEE 发布：https://ieeexplore.ieee.org/document/9880137 📦 项目（暂未开源）：暂无 GitHub 仓库

📌 简介

MeMOT 是一个引入显式记忆机制的端到端多目标跟踪（MOT）方法，发表在 CVPR 2022。其主要目标是提升遮挡恢复、ID 保持和跨时帧建模能力。

与传统方法相比，MeMOT 显著改进了目标间的长期关联能力。

🧠 方法核心

MeMOT 的关键设计包括：

1. Memory-Enhanced Association

构建一个外部记忆模块，存储历史帧中目标的关键特征。
每一帧通过查询历史记忆进行目标关联。

2. Memory Attention Module

类似于 Transformer 的注意力机制，当前帧目标通过 Query 与 Memory 中的历史 Key/Value 进行匹配。
解决遮挡或消失后重新出现目标的 ID 匹配问题。

3. End-to-End 联合训练

将检测与关联任务统一在一个可微结构中。
不依赖外部 Re-ID 模块或 Kalman Filter。

🔍 框架结构

 Video Frames
     ↓
Backbone (e.g. ResNet)
     ↓
Encoder-Decoder Transformer
     ↓                         ↖
Query Embeddings              Memory Bank (History Features)
     ↓                         ↑
  Prediction             Memory Attention Module
     ↓
 Tracking Output (Boxes + IDs)

🧪 实验结果（MOT17）

方法	MOTA ↑	IDF1 ↑	HOTA ↑	IDs ↓
MeMOT	76.6	74.3	59.5	225
MOTR	73.4	71.0	57.6	321
QDTrack	68.7	66.5	54.3	472

📌 MeMOT 在 ID 保持（IDF1）和遮挡恢复方面表现尤为突出，适合于复杂场景和长时间视频。

🎯 优势总结

✅ 强遮挡鲁棒性：Memory Bank 能“记住”目标历史状态。
✅ 跨帧信息融合：缓解短期帧差误匹配问题。
✅ 无需手工设计关联策略：完全端到端学习。
✅ 适配 Transformer 架构：与如 DETR、MOTR 可无缝集成。

⚠️ 与 MeMOTR 的区别

特性	MeMOT (CVPR 2022)	MeMOTR (ICCV 2023)
记忆机制	单独显式记忆模块	双分支 Transformer + 显式 Memory
框架基础	自研 Encoder-Decoder	基于 MOTR/DETR 扩展
查询更新策略	静态查询 + 动态匹配	Memory Query 重新分配
适用场景	通用跟踪，遮挡鲁棒	更适合长时、复杂场景
GitHub 项目	暂无	MeMOTR 项目

🔗 参考资料

阿里云技术解读：https://developer.aliyun.com/article/1410892
CSDN 阅读笔记：https://blog.csdn.net/wjpwjpwjp0831/article/details/124713941