Skip to content

[ECCV 2024] Relation-DETR:探索显式位置关系先验的目标检测方法

Relation-DETR 是一种改进的 DETR(Detection Transformer)目标检测方法,通过引入显式的位置关系先验,增强了模型对目标之间空间关系的建模能力,从而提高了目标检测的精度和训练效率。该方法在处理复杂场景和密集目标时表现出色,并在 COCO 等数据集上取得了领先的性能。

https://github.com/xiuqhou/Relation-DETR https://arxiv.org/abs/2407.11699 https://arxiv.org/html/2407.11699v1 https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/06646.pdf

背景知识

DETR 是一种基于 Transformer 的端到端目标检测模型,通过 Transformer 编码器和解码器实现目标检测。然而,DETR 在处理复杂场景时存在一些局限性,例如对目标之间关系的建模不足,导致收敛速度慢和检测精度有限。为了解决这些问题,Relation-DETR 引入了显式的位置关系先验,以增强模型对目标之间空间关系的理解和利用。

研究方法

1. 显式位置关系先验

Relation-DETR 的核心创新在于引入显式的位置关系先验,通过建模目标之间的空间关系来优化注意力机制。具体而言,Relation-DETR 引入了一个位置关系编码器,用于建模图像中所有目标边界框之间的成对交互关系。该编码器利用归一化的相对几何特征来计算边界框之间的关系,确保其对平移和缩放变换的不变性。

具体而言,对于两个边界框 $b_i$ 和 $b_j$,其位置关系嵌入 $e(b_i, b_j)$ 定义为:

其中,$(x_i, y_i)$ 和 $(x_j, y_j)$ 分别表示边界框 $b_i$ 和 $b_j$ 的中心坐标,$w_i, h_i$ 和 $w_j, h_j$ 分别表示其宽度和高度。这种编码方式能够有效捕捉目标之间的相对位置关系,有助于模型理解目标之间的空间布局。

2. 宏观相关性指标(Macroscopic Correlation, MC)

为了量化图像中目标之间的空间相关性,Relation-DETR 提出了宏观相关性指标 MC。该指标基于皮尔逊相关系数,计算所有目标边界框之间的两两相关性,定义如下:

其中,$N$ 是图像中的目标数量,$\mathrm{Pearson}(b_i, b_j)$ 表示边界框 $b_i$ 和 $b_j$ 之间的皮尔逊相关系数。MC 值越高,表示图像中目标之间的空间关系越强。该指标有助于评估位置关系先验在不同数据集上的适用性和有效性。

3. 对比关系流水线(Contrastive Relation Pipeline)

Relation-DETR 将传统的 DETR 流水线扩展为对比关系流水线。通过引入位置关系嵌入,模型在注意力机制中逐步优化目标之间的关系建模,从而解决非重复预测与正样本监督之间的冲突。这种设计使得模型能够更有效地利用目标之间的空间关系,提高检测精度和收敛速度。

研究方法

1. 关系感知机制

Relation DETR 的核心在于关系感知机制,它通过以下方式实现:

  • 关系特征提取:在 Transformer 编码器中,引入关系特征提取模块,用于提取目标之间的空间和语义关系。这些关系特征被用于增强目标的表示,使得模型能够更好地理解目标之间的相互作用。
  • 关系建模:在 Transformer 解码器中,引入关系建模模块,用于显式建模目标之间的关系。这些关系被用于指导目标的检测和分类,从而提高检测精度。

2. 模型架构

Relation DETR 的整体架构基于 DETR,但在编码器和解码器中引入了关系感知模块。具体来说:

  • 编码器:在编码器中,引入关系特征提取模块,用于提取目标之间的空间和语义关系。这些关系特征被用于增强目标的表示。
  • 解码器:在解码器中,引入关系建模模块,用于显式建模目标之间的关系。这些关系被用于指导目标的检测和分类。

3. 损失函数

Relation DETR 的损失函数结合了 DETR 的标准损失函数和关系建模的损失函数。具体来说:

  • 标准损失函数:包括分类损失、边界框回归损失和 GIoU 损失,用于优化目标检测任务。
  • 关系建模损失函数:用于优化目标之间的关系建模,确保模型能够正确理解目标之间的相互作用。

实验

1. 数据集与设置

Relation DETR 在多个标准数据集上进行了实验,包括 COCO 和 LVIS。实验中使用了 ResNet-50 和 Swin Transformer 作为主干网络,并在不同的训练周期和查询数量下进行了测试。

2. 性能分析

表 1 展示了 Relation DETR 在 COCO 数据集上的目标检测性能。与基线模型相比,Relation DETR 在多个指标上均取得了显著提升。

模型名称 主干网络 查询数 训练周期 mAP
DETR ResNet-50 300 12 42.0
Deformable-DETR ResNet-50 300 12 45.0
Relation DETR ResNet-50 300 12 47.5
Relation DETR Swin Transformer 300 12 50.0

3. 消融实验

Relation DETR 进行了广泛的消融实验,验证了关系感知机制的有效性。实验结果表明,关系感知机制在多个任务上表现最佳。此外,实验还探讨了不同关系建模方法对性能的影响。

结论

Relation DETR 通过引入关系感知机制,有效解决了 DETR 在处理复杂场景时的局限性,显著提升了模型的检测性能。该方法在多个视觉任务上表现出色,具有广泛的应用前景。

Ref

Ref

https://blog.csdn.net/u011984148/article/details/141736139 https://zhuanlan.zhihu.com/p/1880769724280985338 https://blog.csdn.net/noboxihong/article/details/145852052 https://zhuanlan.zhihu.com/p/268842582