Skip to content

Group DETR:分组一对多匹配加速 DETR 收敛的关键

在端到端的物体检测领域,DETR(Detection Transformer)算法因其无需手工设计的后处理过程(如 NMS)而备受关注。然而,DETR 的训练收敛速度较慢,这成为了其应用的一大瓶颈。本文将探讨百度和北京大学的研究团队如何通过分组一对多匹配策略解决这一问题。

DETR 的收敛难题

DETR 的核心思想是通过 Transformer 架构实现端到端的物体检测,但其训练过程需要较长的时间才能收敛。研究团队发现,DETR 中使用的一对一标签分配策略是导致收敛速度缓慢的主要原因之一。在训练过程中,一对一匹配限制了正样本(positive object query)的数量,从而减少了监督信号的强度。这使得网络需要更长时间的训练才能达到较好的性能。

分组一对多匹配策略

为了加速 DETR 的收敛,研究团队提出了分组一对多匹配策略。该策略允许每个目标与多个预测结果匹配,从而显著增加了正样本的数量,增强了监督信号。通过这种方式,网络能够更快地学习到目标检测的关键特征,从而加速收敛。

然而,一对多匹配也带来了新的挑战:如何去除重复的预测结果。传统方法依赖于 NMS(非极大值抑制),但这与 DETR 的设计理念相悖。为了解决这一问题,研究团队引入了分组机制,将预测结果分组处理,从而避免了重复预测的问题。

实验与分析

实验结果表明,分组一对多匹配策略显著提高了 DETR 的收敛速度。与原始的一对一匹配相比,该策略在相同的训练轮数下能够达到更高的检测精度。此外,分组机制有效地解决了重复预测的问题,保持了 DETR 的端到端特性。

代码实现

分组一对多匹配策略已经集成到 Conditional DETR 中,感兴趣的读者可以访问以下链接获取代码并进行尝试:

Ref

https://zhuanlan.zhihu.com/p/549573717