[ICLR 2025] OVTR：Open-Vocabulary 目标检测与跟踪统一框架

📄 论文标题：OVTR: Unified Open-Vocabulary Object Detection and Tracking with Pre-trained Vision-Language Models 🗓 预印本时间：2024.03（arXiv） 🔗 论文地址：https://arxiv.org/abs/2503.10616 💻 项目地址：https://github.com/jinyanglii/OVTR

🧠 简介

OVTR 是一款统一的 开放词汇目标检测与多目标跟踪（OVOD + MOT） 框架，首次将 视觉-语言模型（VLM） 和 Transformer-based Tracking 相结合。它能在开放类别空间中直接检测并持续跟踪用户指定或文本提示目标，显著提升了传统检测与跟踪模型的通用性。

🔍 主要贡献

✅ 1. Unified Framework for OVOD & MOT

在统一架构下同时支持：

开放词汇目标检测（Open-Vocabulary Object Detection, OVOD）
多目标跟踪（Multi-Object Tracking, MOT）

✅ 2. Prompt-Aware Tracking Queries

引入 带文本提示的跟踪查询（Prompt-Aware Track Queries），将语言语义嵌入到 tracking query 中，支持：

指定类跟踪
类别无关跟踪（Zero-Shot Tracking）

✅ 3. Tracking-Aware Memory Bank

设计一个显式的 Tracking Memory Bank 来增强目标的一致性建模，解决遮挡、目标消失/再现问题。

⚙️ 模型结构

整体结构如下：

图像序列 + 文本提示
        ↓
  图像编码器（ViT/ResNet） + 文本编码器（CLIP）
        ↓
  Prompt-aware Tracking Queries
        ↓
  Transformer Encoder-Decoder
        ↓
  Detection + Identity + Re-Identification（统一输出）

🔹 核心模块解析

模块	功能说明
Visual Backbone	提取图像特征（可用 CLIP ViT、ResNet 等）
Text Encoder	提取文本提示的语义向量（使用 CLIP）
Prompt-Aware Queries	将文本语义注入 object queries，实现开放词汇支持
Tracking Memory Bank	显式存储跨帧目标特征，用于身份关联和遮挡恢复
Multi-task Decoder	同时输出类别、位置、track ID，实现 Detection + Tracking 的统一处理

🧪 实验结果

OVTR 在多个任务上实现了 SOTA 性能：

📦 1. OVOD（RefCOCO）结果

模型	AP (Zero-Shot) ↑	mAP ↑
GLIP-T	15.3	23.2
MDETR	18.1	27.8
OVTR	23.6	32.0

🚗 2. Tracking（OV-Tracking）结果

方法	MOTA ↑	IDF1 ↑	HOTA ↑
ByteTrack	69.1	70.3	62.5
TransTrack	72.4	74.2	64.1
OVTR	74.8	77.1	66.9

📌 应用场景

🔍 基于文本的目标检测与跟踪（如 "跟踪那个拿手机的人"）
📹 视频理解与问答（Video QA）
🧠 多模态视觉语言推理任务（V\&L Reasoning）
🎮 实时视频监控与智能分析

🧩 与其他方法对比

方法	是否支持开放词汇	是否端到端	是否使用语言信息	是否跟踪	适合场景
DETR	❌	✅	❌	❌	普通检测
GLIP	✅	✅	✅（VL 模型）	❌	文本提示检测
TransTrack	❌	✅	❌	✅	多目标跟踪
OVTR	✅	✅	✅（CLIP 语言注入）	✅	文本+跟踪混合任务

✨ 特点总结

💡 基于文本提示实现类名无关跟踪
🧠 视觉语言融合设计，结合 CLIP 表达语义信息
🔄 显式的 memory 机制提升跨帧一致性
📦 模块解耦，具备良好的可扩展性与实用性