[CVPR 2022] OW-DETR：开放世界目标检测的 Transformer 框架

OW-DETR（Open-world Detection Transformer）是一种面向开放世界目标检测（OWOD）任务的端到端 Transformer 框架。该方法旨在同时检测已知类别的目标并识别未知类别的目标，并在后续训练中逐步学习这些新类别。OW-DETR 通过引入注意力驱动的伪标签、新颖性分类和目标性评分等组件，有效地解决了开放世界目标检测中的关键挑战。

背景

开放世界目标检测（OWOD）要求模型在检测已知目标类别的同时，能够识别未知目标，并在后续训练中逐步学习这些新类别。与传统的封闭世界目标检测不同，OWOD 需要模型具备以下能力：

生成高质量的候选框：对于潜在的未知目标，模型需要生成高质量的候选框。
区分未知目标与背景：模型需要利用已知目标的知识，将未知目标从背景中分离出来。
检测多样化的未知目标：模型需要能够检测不同大小和类型的未知目标。

现有的方法（如 ORE）虽然在 OWOD 任务上进行了初步探索，但仍存在一些问题，例如依赖于带有弱监督的验证集来估计新类别的分布，以及无法有效建模未知目标的多样性。

方法

OW-DETR 的核心思想是通过多尺度上下文编码和注意力机制，提升模型对未知目标的检测能力。它基于 Deformable DETR 框架，引入了以下三个关键组件：

1. 注意力驱动的伪标签

通过注意力图生成高质量的伪未知目标候选框。具体而言，利用 Transformer 解码器中的注意力权重，识别出可能对应未知目标的查询，并将其作为伪标签用于训练。

2. 新颖性分类

引入一个新类别标签，使模型能够区分已知目标和未知目标。该分类器将目标查询嵌入分类为已知类别或未知类别，从而提高模型对未知目标的识别能力。

3. 目标性评分

通过目标性分支，学习前景目标（已知和伪未知目标）与背景之间的分离。该分支输出每个查询的目标性评分，用于指导模型更好地检测前景目标。

架构设计

OW-DETR 的整体架构基于 Deformable DETR，包含以下部分：

特征提取：使用 ResNet-50 作为骨干网络，提取多尺度特征。
Transformer 编码器-解码器：对特征进行编码和解码，生成目标查询嵌入。
三个分支：
边界框回归：预测目标的位置。
新颖性分类：将目标查询嵌入分类为已知类别或未知类别。
目标性评分：评估目标查询嵌入是否为前景目标。

训练与推理

训练

使用联合损失函数进行端到端训练，包括：

边界框回归损失：用于优化目标的位置预测。
新颖性分类损失：用于优化已知类别与未知类别的分类。
目标性评分损失：用于优化前景目标与背景的分离。

在增量学习阶段，使用 exemplar replay 策略缓解灾难性遗忘。

推理

对于测试图像，计算目标查询嵌入的边界框和类别预测，选择高分检测结果用于评估。

实验与结果

数据集与设置

OW-DETR 在 MS-COCO 和 PASCAL VOC 数据集上进行了广泛的实验。MS-COCO 数据集被划分为四个任务，逐步引入新类别，以模拟开放世界场景。

实验结果

与 ORE 的比较：OW-DETR 在未知类召回率（U-Recall）上优于 ORE，绝对增益范围从 1.8% 到 3.3%。
增量目标检测：OW-DETR 在 PASCAL VOC 数据集上的增量目标检测任务中，优于所有现有方法。

消融实验

OW-DETR 进行了广泛的消融实验，验证了注意力驱动的伪标签、新颖性分类和目标性评分等组件的有效性。实验结果表明，这些组件在多个任务上表现最佳。

结论

OW-DETR 通过引入注意力驱动的伪标签、新颖性分类和目标性评分等组件，有效解决了开放世界目标检测中的关键挑战。该方法在多个视觉任务上表现出色，具有广泛的应用前景。