MI-DETR:基于多时间查询机制的目标检测模型
https://github.com/CQU-ADHRI-Lab/MI-DETR https://www.arxiv.org/abs/2503.01463
摘要
MI-DETR 是一种新型的目标检测模型,旨在解决传统 DETR 模型中级联解码器架构的局限性。通过引入并行的多时间查询(Multi-time Inquiries,MI)机制,MI-DETR 能够让目标查询学习到更全面的图像特征信息,从而在自然场景中实现更精准的目标检测。该模型在 COCO 基准测试中表现出色,尤其是在使用 ResNet-50 骨干网络时,相较于 DINO 和 Relation-DETR 等现有模型,平均精度均值(AP)分别提升了 2.3 和 0.6。
研究动机
在自然场景中,目标检测面临着诸多挑战,例如目标尺寸极小、严重遮挡以及与背景混淆等问题。这些问题要求目标检测模型能够充分利用图像特征。然而,现有的基于 DETR 的模型普遍采用的级联解码器架构存在缺陷:它限制了目标查询在级联方向上的更新,使得目标查询只能从图像特征中学习到相对有限的信息。因此,本文提出了 MI-DETR 模型,通过并行的多时间查询机制来解决这一问题。
方法
MI-DETR 的核心在于其创新的解码器架构,该架构通过并行的多时间查询机制来提升特征利用率。具体来说,目标查询通过多个参数无关的查询头并行执行多次查询,然后将这些查询结果融合。此外,MI-DETR 还引入了类 U 形特征交互(U-like Feature Interaction,UFI)模块,进一步提高了特征利用率。
多时间查询机制
多时间查询机制的关键思想是让目标查询与图像特征进行多次交互,以提高特征利用率。每一层解码器可以分为两部分:多时间查询和查询融合。
- 多时间查询:第 \(i\) 层解码器的输入是第 \(i-1\) 层解码器的输出作为 \(q\),第 \(L-i+1\) 层编码器输出和最后一层编码器输出融合后的特征作为 \(k\) 和 \(v\)。每一层执行的操作如下: $$ q_i = \text{LayerNorm}(q_{i-1} + \text{MultiHead}(q_{i-1}, k_i, v_i)) $$
- 查询融合:将多个查询头的结果进行融合,以获得更全面的目标查询表示: $$ q_{\text{final}} = \text{LayerNorm}(q_i + \text{FFN}(q_i)) $$
类 U 形特征交互模块
受 U-Net 的启发,MI-DETR 提出了类 U 形特征交互模块(UFI),充分利用不同 Transformer 编码器层的特征。靠前的解码器层利用靠后的编码器层的输出作为输入,从而增强特征的传递和利用。
实验
实验结果表明,MI-DETR 在不同骨干网络和训练轮次下均优于现有的 DETR 类模型。以下是部分实验结果:
| 模型名称 | 骨干网络 | 训练轮次 | AP | 下载链接 |
|---|---|---|---|---|
| MI-DETR | ResNet50 | 12 | 50.2 | 模型 |
| MI-DETR | ResNet50 | 24 | 51.2 | 模型 |
| MI-DETR | Swin-Large-384 | 12 | 57.5 | 模型 |
此外,MI-DETR 在小目标检测方面也表现出色。例如,在 SEU-PML、VisDrone2019 和 AI-TOD 数据集上,MI-DETR 的准确率分别达到 70.2%、34.5% 和 34.1%,小目标检测准确率分别为 19.8%、11.5% 和 12.6%。与之前的模型相比,参数减少了 40%,计算量降低了 5%,延迟也显著降低。
应用场景
MI-DETR 的高效性和高精度使其在多种实际应用场景中具有重要价值,例如自动驾驶、实时监控等。其对小目标的检测能力尤其适用于需要高精度实时处理的场景。
Ref
https://zhuanlan.zhihu.com/p/28196451137 https://blog.csdn.net/smile_yolk/article/details/146389733 https://www.ebiotrade.com/newsf/2025-5/20250508160816921.htm https://www.x-mol.com/paper/1913746049624944640