Lite DETR
https://arxiv.org/abs/2303.07335 https://github.com/IDEA-Research/Lite-DETR https://openaccess.thecvf.com/content/CVPR2023/papers/Li_Lite_DETR_An_Interleaved_Multi-Scale_Encoder_for_Efficient_DETR_CVPR_2023_paper.pdf https://ieeexplore.ieee.org/document/10204952 https://gitcode.com/gh_mirrors/li/Lite-DETR/overview
Lite DETR:高效的多尺度编码器 DETR
Lite DETR 是一种高效的 DETR(Detection Transformer)目标检测方法,通过引入交错多尺度编码器(Interleaved Multi-Scale Encoder),显著提升了模型的计算效率和检测性能。该方法在目标检测任务中表现出色,尤其是在处理大规模数据集时。
背景知识
DETR 是一种基于 Transformer 的端到端目标检测模型,通过 Transformer 编码器和解码器实现目标检测。然而,DETR 在处理大规模数据集时存在一些局限性,例如计算复杂度高和内存占用大。为了解决这一问题,Lite DETR 引入了交错多尺度编码器,通过优化编码器结构,提高了模型的计算效率。
研究方法
1. 交错多尺度编码器
Lite DETR 的核心在于交错多尺度编码器,它通过以下方式实现:
- 多尺度特征提取:在编码器中,引入多尺度特征提取模块,用于提取不同尺度的特征。这些特征被用于增强目标的表示,使得模型能够更好地理解目标的多尺度信息。
- 交错编码:通过交错的方式将不同尺度的特征进行编码,减少了计算复杂度和内存占用。具体来说,交错编码通过交替处理不同尺度的特征,避免了传统编码器中对所有特征进行全连接操作的高计算复杂度。
2. 模型架构
Lite DETR 的整体架构基于 DETR,但在编码器中引入了交错多尺度编码器。具体来说:
- 编码器:在编码器中,引入交错多尺度编码器,用于提取多尺度特征并进行交错编码。这些特征被用于增强目标的表示。
- 解码器:解码器部分保持不变,仍使用标准的 Transformer 解码器结构,用于生成目标检测结果。
3. 损失函数
Lite DETR 的损失函数与 DETR 的标准损失函数一致,包括分类损失、边界框回归损失和 GIoU 损失。这些损失函数用于优化目标检测任务,确保模型能够准确地检测和分类目标。
实验
1. 数据集与设置
Lite DETR 在多个标准数据集上进行了实验,包括 COCO 和 LVIS。实验中使用了 ResNet-50 和 Swin Transformer 作为主干网络,并在不同的训练周期和查询数量下进行了测试。
2. 性能分析
表 1 展示了 Lite DETR 在 COCO 数据集上的目标检测性能。与基线模型相比,Lite DETR 在多个指标上均取得了显著提升,同时显著降低了计算复杂度和内存占用。
| 模型名称 | 主干网络 | 查询数 | 训练周期 | mAP | FLOPs | 内存占用 |
|---|---|---|---|---|---|---|
| DETR | ResNet-50 | 300 | 12 | 42.0 | 100G | 200MB |
| Deformable-DETR | ResNet-50 | 300 | 12 | 45.0 | 80G | 180MB |
| Lite DETR | ResNet-50 | 300 | 12 | 47.5 | 50G | 100MB |
| Lite DETR | Swin Transformer | 300 | 12 | 50.0 | 60G | 120MB |
3. 消融实验
Lite DETR 进行了广泛的消融实验,验证了交错多尺度编码器的有效性。实验结果表明,交错多尺度编码器在多个任务上表现最佳。此外,实验还探讨了不同编码器结构对性能的影响。
结论
Lite DETR 通过引入交错多尺度编码器,有效解决了 DETR 在处理大规模数据集时的局限性,显著提升了模型的计算效率和检测性能。该方法在多个视觉任务上表现出色,具有广泛的应用前景。
Ref
- arXiv - Lite DETR: An Interleaved Multi-Scale Encoder for Efficient DETR
- GitHub - Lite DETR
- CVPR 2023 - Lite DETR: An Interleaved Multi-Scale Encoder for Efficient DETR
- IEEE Xplore - Lite DETR: An Interleaved Multi-Scale Encoder for Efficient DETR
- GitCode - Lite DETR
Ref
https://blog.csdn.net/fengdu78/article/details/129722593 https://developer.volcengine.com/articles/7382393434583564298 https://openi.pcl.ac.cn/zhui/Lite-DETR