Skip to content

Lite DETR

https://arxiv.org/abs/2303.07335 https://github.com/IDEA-Research/Lite-DETR https://openaccess.thecvf.com/content/CVPR2023/papers/Li_Lite_DETR_An_Interleaved_Multi-Scale_Encoder_for_Efficient_DETR_CVPR_2023_paper.pdf https://ieeexplore.ieee.org/document/10204952 https://gitcode.com/gh_mirrors/li/Lite-DETR/overview

Lite DETR:高效的多尺度编码器 DETR

Lite DETR 是一种高效的 DETR(Detection Transformer)目标检测方法,通过引入交错多尺度编码器(Interleaved Multi-Scale Encoder),显著提升了模型的计算效率和检测性能。该方法在目标检测任务中表现出色,尤其是在处理大规模数据集时。

背景知识

DETR 是一种基于 Transformer 的端到端目标检测模型,通过 Transformer 编码器和解码器实现目标检测。然而,DETR 在处理大规模数据集时存在一些局限性,例如计算复杂度高和内存占用大。为了解决这一问题,Lite DETR 引入了交错多尺度编码器,通过优化编码器结构,提高了模型的计算效率。

研究方法

1. 交错多尺度编码器

Lite DETR 的核心在于交错多尺度编码器,它通过以下方式实现:

  • 多尺度特征提取:在编码器中,引入多尺度特征提取模块,用于提取不同尺度的特征。这些特征被用于增强目标的表示,使得模型能够更好地理解目标的多尺度信息。
  • 交错编码:通过交错的方式将不同尺度的特征进行编码,减少了计算复杂度和内存占用。具体来说,交错编码通过交替处理不同尺度的特征,避免了传统编码器中对所有特征进行全连接操作的高计算复杂度。

2. 模型架构

Lite DETR 的整体架构基于 DETR,但在编码器中引入了交错多尺度编码器。具体来说:

  • 编码器:在编码器中,引入交错多尺度编码器,用于提取多尺度特征并进行交错编码。这些特征被用于增强目标的表示。
  • 解码器:解码器部分保持不变,仍使用标准的 Transformer 解码器结构,用于生成目标检测结果。

3. 损失函数

Lite DETR 的损失函数与 DETR 的标准损失函数一致,包括分类损失、边界框回归损失和 GIoU 损失。这些损失函数用于优化目标检测任务,确保模型能够准确地检测和分类目标。

实验

1. 数据集与设置

Lite DETR 在多个标准数据集上进行了实验,包括 COCO 和 LVIS。实验中使用了 ResNet-50 和 Swin Transformer 作为主干网络,并在不同的训练周期和查询数量下进行了测试。

2. 性能分析

表 1 展示了 Lite DETR 在 COCO 数据集上的目标检测性能。与基线模型相比,Lite DETR 在多个指标上均取得了显著提升,同时显著降低了计算复杂度和内存占用。

模型名称 主干网络 查询数 训练周期 mAP FLOPs 内存占用
DETR ResNet-50 300 12 42.0 100G 200MB
Deformable-DETR ResNet-50 300 12 45.0 80G 180MB
Lite DETR ResNet-50 300 12 47.5 50G 100MB
Lite DETR Swin Transformer 300 12 50.0 60G 120MB

3. 消融实验

Lite DETR 进行了广泛的消融实验,验证了交错多尺度编码器的有效性。实验结果表明,交错多尺度编码器在多个任务上表现最佳。此外,实验还探讨了不同编码器结构对性能的影响。

结论

Lite DETR 通过引入交错多尺度编码器,有效解决了 DETR 在处理大规模数据集时的局限性,显著提升了模型的计算效率和检测性能。该方法在多个视觉任务上表现出色,具有广泛的应用前景。

Ref

Ref

https://blog.csdn.net/fengdu78/article/details/129722593 https://developer.volcengine.com/articles/7382393434583564298 https://openi.pcl.ac.cn/zhui/Lite-DETR