Skip to content

Align-DETR:基于IoU感知BCE损失改进DETR的目标检测方法

https://github.com/FelixCaae/AlignDETR https://arxiv.org/abs/2304.07527

摘要

Align-DETR是一种基于DETR(DEtection with Transformer)的目标检测方法,通过引入简单的IoU感知二元交叉熵(BCE)损失,有效解决了DETR输出分布中的错位问题,显著提升了模型的检测精度。该方法在COCO数据集上取得了优异的性能,成为当前的最新水平(SOTA)。

1. 介绍

DETR通过将目标检测任务建模为集合预测问题,开创了一种端到端的目标检测范式。然而,DETR存在一个被忽视的问题:分类置信度与定位精度之间的错位。这种错位导致最佳回归样本(BR)未能获得高置信度,从而降低了模型的准确性。Align-DETR通过提出一种新的IoU感知分类损失(IA-BCE)和混合匹配策略,解决了这一问题,并引入了主样本加权机制,以提高训练效率和样本质量。

2. 研究背景与动机

DETR及其变体在目标检测领域取得了显著进展,但其输出错位问题仍未得到充分解决。错位问题表现为分类置信度高的样本可能具有较低的IoU分数,反之亦然。为了解决这一问题,Align-DETR提出了一个新的评估指标——最佳回归样本的召回率(recall of BR samples),并基于此设计了IA-BCE损失函数。此外,Align-DETR还采用了多对一匹配策略和主样本加权机制,以加速训练并提高样本质量。

3. 方法

Align-DETR的核心贡献包括以下三个方面:

3.1 IoU感知分类损失(IA-BCE)

IA-BCE损失通过结合分类置信度和IoU分数作为目标,动态调整前景样本的目标值,从而增强分类与定位之间的相关性。具体而言,损失函数的目标值 \( t \) 定义为: [ t = s^\alpha \cdot u^{(1-\alpha)} ] 其中,\( s \) 是预测的分类置信度,\( u \) 是预测框与真实框的IoU分数,\( \alpha \) 是一个超参数,用于平衡两者的权重。对于前景样本,使用BCE损失;对于背景样本,保留焦点损失(focal loss)进行难负样本挖掘。

3.2 混合匹配策略

Align-DETR在浅层解码器中采用多对一匹配策略,在顶层采用一对一匹配策略。这种混合匹配策略允许更多正样本参与训练,从而加速模型的收敛。具体而言,对于每个中间层,将真实值复制 \( k \) 次,使得每个真实值可以分配给 \( k \) 个预测框。通过这种方式,每个真实值在中间层中可以产生 \( (L-1) \times (k-1) \) 个辅助正样本,其中 \( L \) 是解码器层数。

3.3 主样本加权机制

由于查询的稀疏性,多对一匹配策略可能会导致一些正样本的质量下降,接近背景样本。为了克服这一问题,Align-DETR引入了主样本加权机制,通过降低次要正样本的权重来抑制其对训练的干扰。具体而言,对于每个真实值所属的样本组,根据样本的相对排名 \( r_i \) 计算权重: [ w_i = \exp(-r_i / \tau) ] 其中,\( \tau \) 是温度参数,用于控制权重的锐度。通过这种方式,主要正样本(排名靠前的样本)将获得更高的权重,而次要正样本的权重将被降低。

4. 实验

4.1 数据集与设置

所有实验均在MS-COCO 2017数据集上进行,使用平均精度(mAP)作为评估指标。实验分为单尺度方法和多尺度方法两组,分别使用DAB-DETR和DINO作为基线。

4.2 主要结果

4.2.1 单尺度方法对比

以DAB-DETR为基线,Align-DETR在不同CNN骨干网络(如ResNet-50、ResNet-101等)上均取得了显著的性能提升。例如,在ResNet-50骨干网络下,Align-DETR相较于DAB-DETR提升了3.8%的AP值。这表明Align-DETR在高IoU阈值指标(如AP75)上具有显著优势,验证了其解决错位问题的有效性。

4.2.2 多尺度方法对比

以DINO为基线,Align-DETR在1x和2x训练计划下均取得了优于DINO的性能,分别提升了1.2%和0.9%的AP值。此外,Align-DETR还优于其他最新方法,如Group-DETR和H-DETR,且在查询数量上更为高效。

4.2.3 与其他方法对比

Align-DETR还与其他相关方法进行了对比,如质量焦点损失(QFL)、变焦损失(VFL)等。实验结果表明,Align-DETR在平均精度上优于这些方法,尤其是在高IoU阈值指标上。这进一步证明了Align-DETR在解决DETR错位问题上的有效性。

4.3 消融研究

4.3.1 组件有效性分析

通过消融实验验证了IA-BCE损失和混合匹配策略的有效性。实验结果表明,这两种策略均对最终性能有显著贡献,其中IA-BCE损失的贡献更为显著。

4.3.2 超参数分析

对超参数 \( \alpha \)\( k \)\( \tau \) 进行了敏感性分析。实验结果表明,\( \alpha \) 对性能的影响最大,而 \( k \)\( \tau \) 的影响相对较小。这支持了将 \( \alpha \) 保持较小值以避免有效训练信号被抑制的假设。

4.3.3 主样本加权机制的有效性

通过对比实验验证了主样本加权机制的有效性。实验结果表明,启用该机制后,模型的性能提升了约0.5%的AP值,证明了其在抑制次要正样本干扰方面的有效性。

5. 结论

Align-DETR通过引入IoU感知BCE损失、混合匹配策略和主样本加权机制,有效解决了DETR中的错位问题,并显著提升了模型的训练效率和检测精度。在COCO数据集上的实验结果表明,Align-DETR在单尺度和多尺度方法上均取得了优异的性能,成为当前目标检测领域的新水平。

Ref