[CVPR 2024] MASA：通过 Segment Anything 实现任意目标匹配(CVPR 2025)

MASA（Matching Anything by Segmenting Anything）是一种无需追踪标签即可在多领域视频中实现任意目标匹配的通用实例关联方法。该方法利用 Segment Anything Model（SAM）生成的丰富分割信息，通过自监督学习建立实例级别的对应关系，从而实现零样本多目标追踪。(CVF开放访问, CVPR 2025)

背景知识

多目标追踪（MOT）在复杂场景中对同一目标在视频帧间的鲁棒关联对于自动驾驶、视频分析等应用至关重要。然而，现有方法主要依赖于带标签的特定领域视频数据集，限制了所学相似性嵌入的跨领域泛化能力。MASA 旨在通过自监督学习，从无标签的静态图像中学习通用的实例关联模型，提升跨领域的多目标追踪性能。(CVPR 2025)

方法概述

1. 自监督实例关联学习

MASA 的核心思想是通过自监督方式学习实例级别的对应关系。具体步骤如下：(Scribd)

对无标签图像应用强数据增强，生成两个不同视图。
利用 SAM 对每个视图进行分割，获取密集的目标区域提议。
通过几何变换建立像素级别的对应关系，并将其提升为实例级别的对应关系。
使用这些对应关系作为自监督信号，训练一个通用的 MASA 适配器，以学习判别性的实例表示。(arXiv)

这种方法使得模型能够从多样化的无标签图像中学习到强大的实例关联能力，提升了跨领域的多目标追踪性能。(arXiv)

2. MASA 适配器

MASA 设计了一个通用的适配器模块，可以与现有的分割或检测基础模型（如 SAM、Detic、Grounding-DINO）协同工作，实现对检测到的任意目标的追踪。该适配器在训练过程中冻结基础模型的参数，仅对适配器进行训练，从而保持原始模型的分割和检测能力。(arXiv)

3. 多任务训练策略

为了进一步提升模型性能，MASA 引入了多任务训练策略，联合进行 SAM 的检测知识蒸馏和实例相似性学习。这种联合训练方式使得模型能够同时学习到丰富的检测信息和判别性的实例表示，提升了多目标追踪的准确性。(CVF开放访问, Scribd)

实验结果

MASA 在多个具有挑战性的 MOT 和 MOTS 基准上进行了广泛的测试，展示了其强大的零样本追踪能力。在 Open-vocabulary MOT Benchmark 上，MASA 在多个指标上均超过了现有的最先进方法，具体结果如下：(arXiv, GitHub)

方法	Base TETA	Base AssocA	Novel TETA	Novel AssocA
OVTrack (CVPR23)	35.5	36.9	27.8	33.6
MASA-R50	46.5	43.0	41.1	42.7
MASA-SAM-ViTB	47.2	44.5	41.4	42.3
MASA-SAM-ViTH	47.5	45.1	40.5	40.5
MASA-Detic	47.7	44.1	41.5	41.6
MASA-GroundingDINO	47.3	44.7	41.9	44.0

这些结果表明，MASA 在不依赖任何视频标签的情况下，能够在复杂场景中实现强大的多目标追踪性能，甚至超过了使用完全注释的同领域视频序列训练的最先进方法。(CVF开放访问)

结论

MASA 提出了一种新的自监督实例关联学习方法，利用 SAM 的丰富分割信息，从无标签的静态图像中学习通用的实例表示。通过设计通用的 MASA 适配器，MASA 能够与现有的分割和检测模型协同工作，实现对任意目标的追踪。实验结果表明，MASA 在多个基准上实现了最先进的性能，展示了其在多目标追踪任务中的巨大潜力。(GitHub)