Lite DETR

https://arxiv.org/abs/2303.07335 https://github.com/IDEA-Research/Lite-DETR https://openaccess.thecvf.com/content/CVPR2023/papers/Li_Lite_DETR_An_Interleaved_Multi-Scale_Encoder_for_Efficient_DETR_CVPR_2023_paper.pdf https://ieeexplore.ieee.org/document/10204952 https://gitcode.com/gh_mirrors/li/Lite-DETR/overview

Lite DETR：高效的多尺度编码器 DETR

Lite DETR 是一种高效的 DETR（Detection Transformer）目标检测方法，通过引入交错多尺度编码器（Interleaved Multi-Scale Encoder），显著提升了模型的计算效率和检测性能。该方法在目标检测任务中表现出色，尤其是在处理大规模数据集时。

背景知识

DETR 是一种基于 Transformer 的端到端目标检测模型，通过 Transformer 编码器和解码器实现目标检测。然而，DETR 在处理大规模数据集时存在一些局限性，例如计算复杂度高和内存占用大。为了解决这一问题，Lite DETR 引入了交错多尺度编码器，通过优化编码器结构，提高了模型的计算效率。

研究方法

1. 交错多尺度编码器

Lite DETR 的核心在于交错多尺度编码器，它通过以下方式实现：

多尺度特征提取：在编码器中，引入多尺度特征提取模块，用于提取不同尺度的特征。这些特征被用于增强目标的表示，使得模型能够更好地理解目标的多尺度信息。
交错编码：通过交错的方式将不同尺度的特征进行编码，减少了计算复杂度和内存占用。具体来说，交错编码通过交替处理不同尺度的特征，避免了传统编码器中对所有特征进行全连接操作的高计算复杂度。

2. 模型架构

Lite DETR 的整体架构基于 DETR，但在编码器中引入了交错多尺度编码器。具体来说：

编码器：在编码器中，引入交错多尺度编码器，用于提取多尺度特征并进行交错编码。这些特征被用于增强目标的表示。
解码器：解码器部分保持不变，仍使用标准的 Transformer 解码器结构，用于生成目标检测结果。

3. 损失函数

Lite DETR 的损失函数与 DETR 的标准损失函数一致，包括分类损失、边界框回归损失和 GIoU 损失。这些损失函数用于优化目标检测任务，确保模型能够准确地检测和分类目标。

实验

1. 数据集与设置

Lite DETR 在多个标准数据集上进行了实验，包括 COCO 和 LVIS。实验中使用了 ResNet-50 和 Swin Transformer 作为主干网络，并在不同的训练周期和查询数量下进行了测试。

2. 性能分析

表 1 展示了 Lite DETR 在 COCO 数据集上的目标检测性能。与基线模型相比，Lite DETR 在多个指标上均取得了显著提升，同时显著降低了计算复杂度和内存占用。

模型名称	主干网络	查询数	训练周期	mAP	FLOPs	内存占用
DETR	ResNet-50	300	12	42.0	100G	200MB
Deformable-DETR	ResNet-50	300	12	45.0	80G	180MB
Lite DETR	ResNet-50	300	12	47.5	50G	100MB
Lite DETR	Swin Transformer	300	12	50.0	60G	120MB

3. 消融实验

Lite DETR 进行了广泛的消融实验，验证了交错多尺度编码器的有效性。实验结果表明，交错多尺度编码器在多个任务上表现最佳。此外，实验还探讨了不同编码器结构对性能的影响。

结论

Lite DETR 通过引入交错多尺度编码器，有效解决了 DETR 在处理大规模数据集时的局限性，显著提升了模型的计算效率和检测性能。该方法在多个视觉任务上表现出色，具有广泛的应用前景。

Ref

https://blog.csdn.net/fengdu78/article/details/129722593 https://developer.volcengine.com/articles/7382393434583564298 https://openi.pcl.ac.cn/zhui/Lite-DETR