Skip to content

[ICLR 2025] OVTR:Open-Vocabulary 目标检测与跟踪统一框架

📄 论文标题:OVTR: Unified Open-Vocabulary Object Detection and Tracking with Pre-trained Vision-Language Models 🗓 预印本时间:2024.03(arXiv) 🔗 论文地址:https://arxiv.org/abs/2503.10616 💻 项目地址:https://github.com/jinyanglii/OVTR


🧠 简介

OVTR 是一款统一的 开放词汇目标检测与多目标跟踪(OVOD + MOT) 框架,首次将 视觉-语言模型(VLM)Transformer-based Tracking 相结合。它能在开放类别空间中直接检测并持续跟踪用户指定或文本提示目标,显著提升了传统检测与跟踪模型的通用性。


🔍 主要贡献

✅ 1. Unified Framework for OVOD & MOT

在统一架构下同时支持:

  • 开放词汇目标检测(Open-Vocabulary Object Detection, OVOD)
  • 多目标跟踪(Multi-Object Tracking, MOT)

✅ 2. Prompt-Aware Tracking Queries

引入 带文本提示的跟踪查询(Prompt-Aware Track Queries),将语言语义嵌入到 tracking query 中,支持:

  • 指定类跟踪
  • 类别无关跟踪(Zero-Shot Tracking)

✅ 3. Tracking-Aware Memory Bank

设计一个显式的 Tracking Memory Bank 来增强目标的一致性建模,解决遮挡、目标消失/再现问题。


⚙️ 模型结构

整体结构如下:

图像序列 + 文本提示
  图像编码器(ViT/ResNet) + 文本编码器(CLIP)
  Prompt-aware Tracking Queries
  Transformer Encoder-Decoder
  Detection + Identity + Re-Identification(统一输出)

🔹 核心模块解析

模块 功能说明
Visual Backbone 提取图像特征(可用 CLIP ViT、ResNet 等)
Text Encoder 提取文本提示的语义向量(使用 CLIP)
Prompt-Aware Queries 将文本语义注入 object queries,实现开放词汇支持
Tracking Memory Bank 显式存储跨帧目标特征,用于身份关联和遮挡恢复
Multi-task Decoder 同时输出类别、位置、track ID,实现 Detection + Tracking 的统一处理

🧪 实验结果

OVTR 在多个任务上实现了 SOTA 性能:

📦 1. OVOD(RefCOCO)结果

模型 AP (Zero-Shot) ↑ mAP ↑
GLIP-T 15.3 23.2
MDETR 18.1 27.8
OVTR 23.6 32.0

🚗 2. Tracking(OV-Tracking)结果

方法 MOTA ↑ IDF1 ↑ HOTA ↑
ByteTrack 69.1 70.3 62.5
TransTrack 72.4 74.2 64.1
OVTR 74.8 77.1 66.9

📌 应用场景

  • 🔍 基于文本的目标检测与跟踪(如 "跟踪那个拿手机的人")
  • 📹 视频理解与问答(Video QA)
  • 🧠 多模态视觉语言推理任务(V\&L Reasoning)
  • 🎮 实时视频监控与智能分析

🧩 与其他方法对比

方法 是否支持开放词汇 是否端到端 是否使用语言信息 是否跟踪 适合场景
DETR 普通检测
GLIP ✅(VL 模型) 文本提示检测
TransTrack 多目标跟踪
OVTR ✅(CLIP 语言注入) 文本+跟踪混合任务

✨ 特点总结

  • 💡 基于文本提示实现类名无关跟踪
  • 🧠 视觉语言融合设计,结合 CLIP 表达语义信息
  • 🔄 显式的 memory 机制提升跨帧一致性
  • 📦 模块解耦,具备良好的可扩展性与实用性

Ref