[CVPR 2024] iKun: Speak to Trackers without Retraining
论文链接:https://arxiv.org/abs/2312.16245
代码地址:https://github.com/dyhBUPT/iKUN
会议论文:https://openaccess.thecvf.com/content/CVPR2024/papers/Du_iKUN_Speak_to_Trackers_without_Retraining_CVPR_2024_paper.pdf
iKun 是一款针对多目标跟踪的创新方法,突破了传统需要重新训练模型的限制,实现了通过自然语言指令动态调整跟踪目标,极大提升了多目标跟踪系统的灵活性与交互性。
方法概述
背景
- 传统多目标跟踪系统通常需要针对新的目标或场景重新训练模型,适应性较差。
- iKun 致力于实现无需重新训练,通过语言指令控制跟踪器的能力,使得用户能灵活指定关注对象。
核心技术
-
语言驱动的目标选择
-
利用预训练的视觉语言模型,将自然语言指令映射到目标特征空间,实现对指定目标的精准识别和跟踪。
-
无缝集成现有跟踪器
-
iKun 设计为模块化架构,可以嵌入多种主流跟踪器,无需对基础跟踪器进行额外训练。
-
动态目标管理
-
通过语言交互动态添加、删除或切换跟踪目标,实现实时的多目标管理。
-
跨模态对齐机制
-
建立语言与视觉特征的有效对齐,提升语言指令的理解和执行准确度。
实验结果
- iKun 在多个多目标跟踪数据集上验证了其有效性,展现了良好的语言指令响应能力和稳定的跟踪性能。
- 在无须重新训练的条件下,依然保持了较高的 MOTA 和 IDF1 指标。
总结
iKun 通过引入语言驱动机制,实现了多目标跟踪器的无训练动态控制,极大提高了多目标跟踪的灵活性和可用性。该工作为人机交互与视觉跟踪的结合提供了新方向。
Ref
- https://arxiv.org/abs/2312.16245
- https://github.com/dyhBUPT/iKUN
- https://openaccess.thecvf.com/content/CVPR2024/papers/Du_iKUN_Speak_to_Trackers_without_Retraining_CVPR_2024_paper.pdf
- https://zhuanlan.zhihu.com/p/675270458
- https://blog.csdn.net/qq_34919792/article/details/140027727
- https://paperreading.club/page?id=201789
- https://zhuanlan.zhihu.com/p/697740677