Skip to content

[CVPR 2024] iKun: Speak to Trackers without Retraining

论文链接:https://arxiv.org/abs/2312.16245
代码地址:https://github.com/dyhBUPT/iKUN
会议论文:https://openaccess.thecvf.com/content/CVPR2024/papers/Du_iKUN_Speak_to_Trackers_without_Retraining_CVPR_2024_paper.pdf

iKun 是一款针对多目标跟踪的创新方法,突破了传统需要重新训练模型的限制,实现了通过自然语言指令动态调整跟踪目标,极大提升了多目标跟踪系统的灵活性与交互性。

方法概述

背景

  • 传统多目标跟踪系统通常需要针对新的目标或场景重新训练模型,适应性较差。
  • iKun 致力于实现无需重新训练,通过语言指令控制跟踪器的能力,使得用户能灵活指定关注对象。

核心技术

  1. 语言驱动的目标选择

  2. 利用预训练的视觉语言模型,将自然语言指令映射到目标特征空间,实现对指定目标的精准识别和跟踪。

  3. 无缝集成现有跟踪器

  4. iKun 设计为模块化架构,可以嵌入多种主流跟踪器,无需对基础跟踪器进行额外训练。

  5. 动态目标管理

  6. 通过语言交互动态添加、删除或切换跟踪目标,实现实时的多目标管理。

  7. 跨模态对齐机制

  8. 建立语言与视觉特征的有效对齐,提升语言指令的理解和执行准确度。

实验结果

  • iKun 在多个多目标跟踪数据集上验证了其有效性,展现了良好的语言指令响应能力和稳定的跟踪性能。
  • 在无须重新训练的条件下,依然保持了较高的 MOTA 和 IDF1 指标。

总结

iKun 通过引入语言驱动机制,实现了多目标跟踪器的无训练动态控制,极大提高了多目标跟踪的灵活性和可用性。该工作为人机交互与视觉跟踪的结合提供了新方向。

Ref