DAB-Deformable-DETR
在 DAB-DETR(Dynamic Anchor Boxes-DETR)中,所谓的“4D 参考点”指的是将每个查询(query)明确表示为一个四维锚框坐标,即 $(x, y, w, h)$,其中:(Medium)
这种设计使得查询不仅包含位置的中心信息,还包含目标的尺度信息,从而为交叉注意力机制提供了更丰富的空间先验。具体来说,DAB-DETR 使用这些锚框坐标作为 Transformer 解码器中的查询,并在每一层中动态地更新它们。通过这种方式,模型能够更准确地聚焦于目标对象,并提高检测性能。(CSDN博客, CSDN博客)
此外,DAB-DETR 还通过引入宽度和高度信息来调节交叉注意力图,使其适应不同尺度的对象。这种方法不仅提高了模型的收敛速度,还增强了对多尺度目标的检测能力。(CSDN博客)
总之,DAB-DETR 的 4D 参考点设计为 Transformer 解码器提供了更强的位置和尺度先验,从而提升了目标检测的准确性和效率。(CSDN博客)