Skip to content

[CVPR 2022] OW-DETR:开放世界目标检测的 Transformer 框架

OW-DETR(Open-world Detection Transformer)是一种面向开放世界目标检测(OWOD)任务的端到端 Transformer 框架。该方法旨在同时检测已知类别的目标并识别未知类别的目标,并在后续训练中逐步学习这些新类别。OW-DETR 通过引入注意力驱动的伪标签、新颖性分类和目标性评分等组件,有效地解决了开放世界目标检测中的关键挑战。

背景

开放世界目标检测(OWOD)要求模型在检测已知目标类别的同时,能够识别未知目标,并在后续训练中逐步学习这些新类别。与传统的封闭世界目标检测不同,OWOD 需要模型具备以下能力:

  • 生成高质量的候选框:对于潜在的未知目标,模型需要生成高质量的候选框。
  • 区分未知目标与背景:模型需要利用已知目标的知识,将未知目标从背景中分离出来。
  • 检测多样化的未知目标:模型需要能够检测不同大小和类型的未知目标。

现有的方法(如 ORE)虽然在 OWOD 任务上进行了初步探索,但仍存在一些问题,例如依赖于带有弱监督的验证集来估计新类别的分布,以及无法有效建模未知目标的多样性。

方法

OW-DETR 的核心思想是通过多尺度上下文编码和注意力机制,提升模型对未知目标的检测能力。它基于 Deformable DETR 框架,引入了以下三个关键组件:

1. 注意力驱动的伪标签

通过注意力图生成高质量的伪未知目标候选框。具体而言,利用 Transformer 解码器中的注意力权重,识别出可能对应未知目标的查询,并将其作为伪标签用于训练。

2. 新颖性分类

引入一个新类别标签,使模型能够区分已知目标和未知目标。该分类器将目标查询嵌入分类为已知类别或未知类别,从而提高模型对未知目标的识别能力。

3. 目标性评分

通过目标性分支,学习前景目标(已知和伪未知目标)与背景之间的分离。该分支输出每个查询的目标性评分,用于指导模型更好地检测前景目标。

架构设计

OW-DETR 的整体架构基于 Deformable DETR,包含以下部分:

  • 特征提取:使用 ResNet-50 作为骨干网络,提取多尺度特征。
  • Transformer 编码器-解码器:对特征进行编码和解码,生成目标查询嵌入。
  • 三个分支

  • 边界框回归:预测目标的位置。

  • 新颖性分类:将目标查询嵌入分类为已知类别或未知类别。
  • 目标性评分:评估目标查询嵌入是否为前景目标。

训练与推理

训练

使用联合损失函数进行端到端训练,包括:

  • 边界框回归损失:用于优化目标的位置预测。
  • 新颖性分类损失:用于优化已知类别与未知类别的分类。
  • 目标性评分损失:用于优化前景目标与背景的分离。

在增量学习阶段,使用 exemplar replay 策略缓解灾难性遗忘。

推理

对于测试图像,计算目标查询嵌入的边界框和类别预测,选择高分检测结果用于评估。

实验与结果

数据集与设置

OW-DETR 在 MS-COCO 和 PASCAL VOC 数据集上进行了广泛的实验。MS-COCO 数据集被划分为四个任务,逐步引入新类别,以模拟开放世界场景。

实验结果

  • 与 ORE 的比较:OW-DETR 在未知类召回率(U-Recall)上优于 ORE,绝对增益范围从 1.8% 到 3.3%。
  • 增量目标检测:OW-DETR 在 PASCAL VOC 数据集上的增量目标检测任务中,优于所有现有方法。

消融实验

OW-DETR 进行了广泛的消融实验,验证了注意力驱动的伪标签、新颖性分类和目标性评分等组件的有效性。实验结果表明,这些组件在多个任务上表现最佳。

结论

OW-DETR 通过引入注意力驱动的伪标签、新颖性分类和目标性评分等组件,有效解决了开放世界目标检测中的关键挑战。该方法在多个视觉任务上表现出色,具有广泛的应用前景。

Ref