[ECCV 2024] Relation-DETR:探索显式位置关系先验的目标检测方法
Relation-DETR 是一种改进的 DETR(Detection Transformer)目标检测方法,通过引入显式的位置关系先验,增强了模型对目标之间空间关系的建模能力,从而提高了目标检测的精度和训练效率。该方法在处理复杂场景和密集目标时表现出色,并在 COCO 等数据集上取得了领先的性能。
https://github.com/xiuqhou/Relation-DETR https://arxiv.org/abs/2407.11699 https://arxiv.org/html/2407.11699v1 https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/06646.pdf
背景知识
DETR 是一种基于 Transformer 的端到端目标检测模型,通过 Transformer 编码器和解码器实现目标检测。然而,DETR 在处理复杂场景时存在一些局限性,例如对目标之间关系的建模不足,导致收敛速度慢和检测精度有限。为了解决这些问题,Relation-DETR 引入了显式的位置关系先验,以增强模型对目标之间空间关系的理解和利用。
研究方法
1. 显式位置关系先验
Relation-DETR 的核心创新在于引入显式的位置关系先验,通过建模目标之间的空间关系来优化注意力机制。具体而言,Relation-DETR 引入了一个位置关系编码器,用于建模图像中所有目标边界框之间的成对交互关系。该编码器利用归一化的相对几何特征来计算边界框之间的关系,确保其对平移和缩放变换的不变性。
具体而言,对于两个边界框 $b_i$ 和 $b_j$,其位置关系嵌入 $e(b_i, b_j)$ 定义为:
其中,$(x_i, y_i)$ 和 $(x_j, y_j)$ 分别表示边界框 $b_i$ 和 $b_j$ 的中心坐标,$w_i, h_i$ 和 $w_j, h_j$ 分别表示其宽度和高度。这种编码方式能够有效捕捉目标之间的相对位置关系,有助于模型理解目标之间的空间布局。
2. 宏观相关性指标(Macroscopic Correlation, MC)
为了量化图像中目标之间的空间相关性,Relation-DETR 提出了宏观相关性指标 MC。该指标基于皮尔逊相关系数,计算所有目标边界框之间的两两相关性,定义如下:
其中,$N$ 是图像中的目标数量,$\mathrm{Pearson}(b_i, b_j)$ 表示边界框 $b_i$ 和 $b_j$ 之间的皮尔逊相关系数。MC 值越高,表示图像中目标之间的空间关系越强。该指标有助于评估位置关系先验在不同数据集上的适用性和有效性。
3. 对比关系流水线(Contrastive Relation Pipeline)
Relation-DETR 将传统的 DETR 流水线扩展为对比关系流水线。通过引入位置关系嵌入,模型在注意力机制中逐步优化目标之间的关系建模,从而解决非重复预测与正样本监督之间的冲突。这种设计使得模型能够更有效地利用目标之间的空间关系,提高检测精度和收敛速度。
研究方法
1. 关系感知机制
Relation DETR 的核心在于关系感知机制,它通过以下方式实现:
- 关系特征提取:在 Transformer 编码器中,引入关系特征提取模块,用于提取目标之间的空间和语义关系。这些关系特征被用于增强目标的表示,使得模型能够更好地理解目标之间的相互作用。
- 关系建模:在 Transformer 解码器中,引入关系建模模块,用于显式建模目标之间的关系。这些关系被用于指导目标的检测和分类,从而提高检测精度。
2. 模型架构
Relation DETR 的整体架构基于 DETR,但在编码器和解码器中引入了关系感知模块。具体来说:
- 编码器:在编码器中,引入关系特征提取模块,用于提取目标之间的空间和语义关系。这些关系特征被用于增强目标的表示。
- 解码器:在解码器中,引入关系建模模块,用于显式建模目标之间的关系。这些关系被用于指导目标的检测和分类。
3. 损失函数
Relation DETR 的损失函数结合了 DETR 的标准损失函数和关系建模的损失函数。具体来说:
- 标准损失函数:包括分类损失、边界框回归损失和 GIoU 损失,用于优化目标检测任务。
- 关系建模损失函数:用于优化目标之间的关系建模,确保模型能够正确理解目标之间的相互作用。
实验
1. 数据集与设置
Relation DETR 在多个标准数据集上进行了实验,包括 COCO 和 LVIS。实验中使用了 ResNet-50 和 Swin Transformer 作为主干网络,并在不同的训练周期和查询数量下进行了测试。
2. 性能分析
表 1 展示了 Relation DETR 在 COCO 数据集上的目标检测性能。与基线模型相比,Relation DETR 在多个指标上均取得了显著提升。
| 模型名称 | 主干网络 | 查询数 | 训练周期 | mAP |
|---|---|---|---|---|
| DETR | ResNet-50 | 300 | 12 | 42.0 |
| Deformable-DETR | ResNet-50 | 300 | 12 | 45.0 |
| Relation DETR | ResNet-50 | 300 | 12 | 47.5 |
| Relation DETR | Swin Transformer | 300 | 12 | 50.0 |
3. 消融实验
Relation DETR 进行了广泛的消融实验,验证了关系感知机制的有效性。实验结果表明,关系感知机制在多个任务上表现最佳。此外,实验还探讨了不同关系建模方法对性能的影响。
结论
Relation DETR 通过引入关系感知机制,有效解决了 DETR 在处理复杂场景时的局限性,显著提升了模型的检测性能。该方法在多个视觉任务上表现出色,具有广泛的应用前景。
Ref
- GitHub - Relation DETR
- arXiv - Relation DETR: Relational Reasoning for DETR
- ECCV 2024 - Relation DETR: Relational Reasoning for DETR
Ref
https://blog.csdn.net/u011984148/article/details/141736139 https://zhuanlan.zhihu.com/p/1880769724280985338 https://blog.csdn.net/noboxihong/article/details/145852052 https://zhuanlan.zhihu.com/p/268842582