Skip to content

[CVPR 2025] SAMURAI:基于运动感知记忆的零样本视觉跟踪方法(Reddit)

SAMURAI(Segment Anything Model for Unified and Robust Adaptation with motion-aware Instance-level memory)是一种针对视频目标跟踪任务优化的 Segment Anything Model 2(SAM 2)扩展方法。该方法引入了运动建模和动态记忆机制,显著提升了模型在复杂场景中的零样本跟踪能力。(arXiv)


背景知识

SAM 2 在视频分割任务中表现出色,但在视觉目标跟踪(VOT)场景中仍面临挑战,尤其是在处理快速运动、遮挡和目标外观变化时。其固定窗口的记忆机制未能充分利用历史帧中的运动信息,导致跟踪性能下降。SAMURAI 旨在通过引入运动感知的记忆选择机制,提升模型在这些复杂场景中的跟踪能力。(arXiv, yangchris11.github.io)


方法概述

1. 运动建模与掩码选择

SAMURAI 引入了运动建模模块,通过分析目标在时间序列中的运动轨迹,预测其在当前帧中的位置,并据此优化掩码选择过程。这一机制使得模型在处理快速移动或遮挡的目标时,能够更准确地定位目标位置,减少跟踪误差。(arXiv)

2. 运动感知记忆选择机制

与 SAM 2 采用的固定窗口记忆机制不同,SAMURAI 设计了一种运动感知的记忆选择机制。该机制结合了掩码相似度、目标特征和运动信息,对历史帧进行评分,选择最相关的记忆帧用于当前帧的特征增强,从而提高跟踪的鲁棒性。(arXiv)

3. 零样本跟踪能力

SAMURAI 采用零样本学习策略,无需对特定目标进行额外的训练或微调。通过引入运动建模和动态记忆机制,模型能够在未见过的目标上实现准确的跟踪,展现出强大的泛化能力。


实验结果

在多个视觉目标跟踪基准数据集上,SAMURAI 展现了优异的性能。在 LaSOT$_{\text{ext}}$ 数据集上,成功率(AUC)提升了 7.1%,在 GOT-10k 数据集上,平均重叠率(AO)提升了 3.5%。此外,SAMURAI 在 LaSOT 数据集上取得了与完全监督方法相当的结果,证明了其在复杂跟踪场景中的鲁棒性和实际应用潜力。(arXiv, arXiv)


结论

SAMURAI 通过引入运动建模和运动感知的记忆选择机制,有效提升了 SAM 2 在视觉目标跟踪任务中的性能。其零样本学习能力使得模型无需额外训练即可在多种复杂场景中实现准确的目标跟踪,具有广泛的应用前景。(arXiv)


Ref