[CVPR 2022] OW-DETR:开放世界目标检测的 Transformer 框架
OW-DETR(Open-world Detection Transformer)是一种面向开放世界目标检测(OWOD)任务的端到端 Transformer 框架。该方法旨在同时检测已知类别的目标并识别未知类别的目标,并在后续训练中逐步学习这些新类别。OW-DETR 通过引入注意力驱动的伪标签、新颖性分类和目标性评分等组件,有效地解决了开放世界目标检测中的关键挑战。
背景
开放世界目标检测(OWOD)要求模型在检测已知目标类别的同时,能够识别未知目标,并在后续训练中逐步学习这些新类别。与传统的封闭世界目标检测不同,OWOD 需要模型具备以下能力:
- 生成高质量的候选框:对于潜在的未知目标,模型需要生成高质量的候选框。
- 区分未知目标与背景:模型需要利用已知目标的知识,将未知目标从背景中分离出来。
- 检测多样化的未知目标:模型需要能够检测不同大小和类型的未知目标。
现有的方法(如 ORE)虽然在 OWOD 任务上进行了初步探索,但仍存在一些问题,例如依赖于带有弱监督的验证集来估计新类别的分布,以及无法有效建模未知目标的多样性。
方法
OW-DETR 的核心思想是通过多尺度上下文编码和注意力机制,提升模型对未知目标的检测能力。它基于 Deformable DETR 框架,引入了以下三个关键组件:
1. 注意力驱动的伪标签
通过注意力图生成高质量的伪未知目标候选框。具体而言,利用 Transformer 解码器中的注意力权重,识别出可能对应未知目标的查询,并将其作为伪标签用于训练。
2. 新颖性分类
引入一个新类别标签,使模型能够区分已知目标和未知目标。该分类器将目标查询嵌入分类为已知类别或未知类别,从而提高模型对未知目标的识别能力。
3. 目标性评分
通过目标性分支,学习前景目标(已知和伪未知目标)与背景之间的分离。该分支输出每个查询的目标性评分,用于指导模型更好地检测前景目标。
架构设计
OW-DETR 的整体架构基于 Deformable DETR,包含以下部分:
- 特征提取:使用 ResNet-50 作为骨干网络,提取多尺度特征。
- Transformer 编码器-解码器:对特征进行编码和解码,生成目标查询嵌入。
-
三个分支:
-
边界框回归:预测目标的位置。
- 新颖性分类:将目标查询嵌入分类为已知类别或未知类别。
- 目标性评分:评估目标查询嵌入是否为前景目标。
训练与推理
训练
使用联合损失函数进行端到端训练,包括:
- 边界框回归损失:用于优化目标的位置预测。
- 新颖性分类损失:用于优化已知类别与未知类别的分类。
- 目标性评分损失:用于优化前景目标与背景的分离。
在增量学习阶段,使用 exemplar replay 策略缓解灾难性遗忘。
推理
对于测试图像,计算目标查询嵌入的边界框和类别预测,选择高分检测结果用于评估。
实验与结果
数据集与设置
OW-DETR 在 MS-COCO 和 PASCAL VOC 数据集上进行了广泛的实验。MS-COCO 数据集被划分为四个任务,逐步引入新类别,以模拟开放世界场景。
实验结果
- 与 ORE 的比较:OW-DETR 在未知类召回率(U-Recall)上优于 ORE,绝对增益范围从 1.8% 到 3.3%。
- 增量目标检测:OW-DETR 在 PASCAL VOC 数据集上的增量目标检测任务中,优于所有现有方法。
消融实验
OW-DETR 进行了广泛的消融实验,验证了注意力驱动的伪标签、新颖性分类和目标性评分等组件的有效性。实验结果表明,这些组件在多个任务上表现最佳。
结论
OW-DETR 通过引入注意力驱动的伪标签、新颖性分类和目标性评分等组件,有效解决了开放世界目标检测中的关键挑战。该方法在多个视觉任务上表现出色,具有广泛的应用前景。