Skip to content

Decoupled DETR:解耦定位与分类以提升 DETR 性能

https://openaccess.thecvf.com/content/ICCV2023/papers/Zhang_Decoupled_DETR_Spatially_Disentangling_Localization_and_Classification_for_Improved_End-to-End_ICCV_2023_paper.pdf https://hub.baai.ac.cn/view/32556

Decoupled DETR 是一种改进的 DETR(DEtection TRansformer)架构,通过解耦定位和分类任务,显著提升了目标检测的性能和效率。本文将详细介绍 Decoupled DETR 的核心思想、技术细节以及其实验结果。

背景与动机

DETR 是一种基于 Transformer 的端到端目标检测算法,它通过编码器-解码器架构将目标检测视为一个集合预测问题。然而,DETR 的解码器在进行分类和框定位时使用了共享的查询(Query)和交叉注意力(Cross-Attention)层,这导致了特征和预测的不对齐问题,从而限制了其性能。

具体来说,分类任务通常依赖于目标的显著区域,而定位任务则更关注目标的边界区域。这种空间上的不对齐使得 DETR 在训练过程中难以同时优化分类和定位任务,导致收敛速度缓慢且性能受限。

Decoupled DETR 的核心思想

为了解决上述问题,Decoupled DETR 提出了以下改进策略:

1. 空间解耦的特征学习(Spatially Disentangled Feature Learning)

Decoupled DETR 将解码器中的交叉注意力模块拆分为两个独立的分支:一个用于分类任务,另一个用于定位任务。这样,每个分支可以专注于其感兴趣的不同视觉区域,从而减少特征冲突。

同时,两个分支共享自注意力(Self-Attention)模块,以保持信息的传播和交互。这种设计既实现了特征学习的解耦,又避免了完全分离带来的信息丢失问题。

2. 任务感知的查询生成(Task-Aware Query Generation)

为了更好地初始化分类和定位查询,Decoupled DETR 引入了任务感知的查询生成模块。该模块基于锚框(Anchor Box)生成任务特定的查询,通过选择锚框内的关键点来初始化内容嵌入(Content Embedding)和位置嵌入(Positional Embedding)。

这种方法使得每个分支的查询能够更好地匹配其对应的视觉区域,从而提高特征提取的效率和准确性。

3. 对齐损失(Alignment Loss)

在分类和定位任务中,高置信度的分类结果和高精度的定位结果之间往往存在不对齐问题。为了解决这一问题,Decoupled DETR 引入了对齐损失(Alignment Loss),通过结合分类置信度和交并比(IoU)来优化模型的训练。

对齐损失的引入使得模型在训练过程中能够动态地优先考虑高质量的查询,从而提高分类和定位的一致性。

实验结果

Decoupled DETR 在 COCO 数据集上的实验结果表明,该方法显著提升了 DETR 的性能。与 Conditional DETR 相比,Decoupled DETR 的平均精度(AP)提高了 4.5 个百分点。此外,Decoupled DETR 在不同尺度的目标检测上均表现出色,尤其是在小目标检测上,性能提升更为明显。

总结

Decoupled DETR 通过解耦定位和分类任务,解决了 DETR 中的特征和预测不对齐问题。通过空间解耦的特征学习、任务感知的查询生成和对齐损失,Decoupled DETR 在目标检测任务中实现了更高的性能和更快的收敛速度。这一改进为基于 Transformer 的目标检测算法提供了新的思路和方向。

Ref

https://openaccess.thecvf.com/content/ICCV2023/papers/Zhang_Decoupled_DETR_Spatially_Disentangling_Localization_and_Classification_for_Improved_End-to-End_ICCV_2023_paper.pdf https://hub.baai.ac.cn/view/32556