Skip to content

DETReg:基于区域先验的无监督预训练目标检测方法

https://github.com/amirbar/DETReg https://arxiv.org/abs/2106.04550 https://ieeexplore.ieee.org/document/9879947

概述

DETReg(DETection with Region priors)是一种创新的无监督预训练方法,旨在解决目标检测任务中对大量标注数据的依赖问题。传统的目标检测方法通常需要大量的标注数据来训练模型,这不仅成本高昂,而且在某些隐私敏感的应用场景中难以实现。DETReg通过无监督预训练,利用区域先验知识,显著降低了对标注数据的需求,并在多个基准测试中表现出色。

研究背景

目标检测是计算机视觉中的一个关键任务,广泛应用于图像识别、视频监控、自动驾驶等领域。然而,构建大规模标注数据集不仅成本高昂,而且在某些应用场景中(如医疗影像或个人照片)可能因隐私问题而难以实现。近年来,自监督学习方法在减少标注数据需求方面取得了显著进展,但大多数方法仅对检测网络的主干部分进行预训练,忽略了检测架构中的关键部件,如目标定位和区域嵌入组件。DETReg通过在无监督预训练阶段同时学习目标定位和编码,填补了这一空白。

方法介绍

核心思想

DETReg的核心思想是利用无监督区域提议生成器提供的定位信息和自监督图像编码器的特征嵌入,对整个目标检测网络进行预训练。具体来说,DETReg通过以下两个任务实现预训练:

  1. 目标定位任务(Object Localization Task):使用简单的区域提议方法(如Selective Search)生成类别无关的边界框,作为预训练阶段的监督信号。这些提议方法能够在不需要大量训练数据的情况下,以高召回率生成包含目标的区域提议。
  2. 目标嵌入任务(Object Embedding Task):通过自监督图像编码器(如SwAV)对目标区域的特征进行编码,生成特征嵌入作为目标嵌入任务的监督信号。这使得检测网络能够学习到与自监督图像编码器一致的特征表示。

预训练过程

在预训练过程中,DETReg使用DETR系列检测器作为基础架构。DETR通过Transformer架构实现了端到端的目标检测,无需传统的锚点生成和非极大值抑制(NMS)后处理步骤。DETReg在DETR的基础上,引入了两个额外的预测头:一个用于预测目标嵌入(femb),另一个用于预测目标类别(fcat)。预训练的目标是最小化检测器输出与无监督生成的伪标签之间的差异。

匹配与损失函数

在预训练过程中,DETReg使用匈牙利算法对检测器输出的预测框和无监督生成的伪标签框进行匹配。匹配后的损失函数包括以下几部分:

  • 分类损失(Lclass):用于判断预测框是否为目标框。
  • 边界框回归损失(Lbox):基于L1损失和广义交并比(GIoU)损失,用于优化预测框的定位精度。
  • 嵌入损失(Lemb):通过L1损失对齐预测的特征嵌入与目标嵌入。

实验与结果

数据集

DETReg在多个标准目标检测数据集上进行了实验,包括:

  • ImageNet ILSVRC 2012(IN1K):包含120万张图像,分为1000个类别。
  • MS COCO:包含121K张标注图像,涵盖80个目标类别。
  • PASCAL VOC:包含约20K张自然图像,涵盖21个目标类别。
  • Airbus Ship Detection:包含约231K张卫星图像,标注了船只的边界框。

实验结果

全数据集微调

在全数据集微调实验中,DETReg在MS COCO、PASCAL VOC和Airbus Ship Detection数据集上均取得了优于现有方法的结果。例如,在MS COCO数据集上,DETReg在150个训练周期后,平均精度(AP)达到了41.9,比UP-DETR提高了1.4个百分点,甚至超过了300个周期的监督训练基线(40.8 AP)。

低数据环境

在低数据环境中,DETReg表现出显著的优势。例如,在仅使用1%标注数据的MS COCO数据集上,DETReg的AP达到了14.58,比监督基线(11.31)提高了3.27个百分点。在2%、5%和10%标注数据的设置中,DETReg也一致优于其他预训练方法。

少样本学习

在少样本学习实验中,DETReg在10-shot和30-shot设置中均取得了优异的性能。例如,在COCO数据集的30-shot设置中,DETReg的AP达到了22.6,比现有的基于ResNet50的方法提高了2.2个百分点。

优势与特点

无监督预训练

DETReg无需标注数据即可进行预训练,大大降低了数据收集和标注的成本。这对于隐私敏感的应用场景(如医疗影像)具有重要意义。

全网络预训练

与传统方法仅预训练主干网络不同,DETReg对整个目标检测网络进行了预训练,包括目标定位和嵌入组件。这使得整个检测网络都能从预训练中受益,从而在下游任务中取得更好的性能。

高性能

DETReg在多个基准测试中表现出色,尤其是在低数据环境和少样本学习场景中。这表明该方法在数据稀缺的情况下具有强大的适应能力和泛化能力。

易于使用

DETReg提供了详细的安装和使用指南,用户可以轻松上手,并利用预训练模型进行进一步的微调。

未来研究方向

尽管DETReg在目标检测任务中取得了显著的成果,但仍有一些挑战和问题有待解决。例如:

  • 区域提议方法的选择:当前DETReg使用Selective Search作为区域提议方法,但该方法的召回率和精度仍有提升空间。未来可以探索更高效的区域提议算法。
  • 特征嵌入的优化:当前使用的自监督图像编码器(如SwAV)虽然能够生成强大的特征嵌入,但在某些复杂场景下可能仍存在不足。未来可以研究更先进的特征嵌入方法。
  • 模型的可扩展性:虽然DETReg基于DETR架构实现了端到端的目标检测,但该架构在处理大规模数据集时仍面临一定的计算挑战。未来可以探索更高效的模型架构,以提高模型的可扩展性。

Ref

https://blog.csdn.net/q1w2e3r4470/article/details/125035999 https://zhuanlan.zhihu.com/p/483851509 https://blog.csdn.net/gitblog_00031/article/details/142045737 https://zhuanlan.zhihu.com/p/580880168 https://developer.baidu.com/article/details/1904112