Skip to content

D-Fine

论文

https://github.com/Peterande/D-FINE/blob/master/src/zoo/dfine/blog_cn.md

视频

文章解析

https://zhuanlan.zhihu.com/p/21152714767 https://blog.csdn.net/amusi1994/article/details/143459668

D-FINE:实时目标检测新突破

论文

D-FINE 是一种新型的实时目标检测算法,由中国科学技术大学的研究团队提出。它通过重新定义边界框回归任务,引入细粒度分布优化(FDR)和全局最优定位自蒸馏(GO-LSD)技术,显著提升了实时目标检测的性能和效率。相关论文和代码已开源,可在以下链接查看:

文章解析

2. D-FINE 的创新点

https://blog.csdn.net/sexy19910923/article/details/143054214

D-FINE重新定义了基于 DETR 的对象检测器中的回归任务,具有两种核心方法 FDR 和 GO-LSD。

FDR(细粒度分布细化)将边界框生成过程解耦:

  1. 初始框预测: 与传统 DETR 方法类似,D-FINE首先将查询转换为解码器第一层中的几个初始边界框。这些框不需要高度准确,仅作为初始化。
  2. 细粒度分布细化: D-FINE解码器不是像传统方法那样直接解码新的边界框,而是根据这些初始边界框生成四个概率分布,并逐层迭代细化它们。这些分布本质上充当了检测框的“细粒度中间表示”。结合精心设计的加权函数,D-FINE通过微调这些表示来调整初始边界框,从而允许对边缘(顶部、底部、左侧和右侧)进行细微修改或显著移动。

FDR 的主要优势:

简化监督:在使用传统 L1 损失和 IOU损失优化检测框的同时,可以使用基本事实和预测之间的“残差”来约束中间概率分布。这使得每个解码层能够更有效地关注和解决其当前面临的定位误差。随着层数的增加,它们的优化目标变得越来越简单,从而简化了整体优化过程。 复杂场景中的稳健性:概率分布本质上代表了对每个边缘进行不同“微调”调整的置信度。这使得检测器能够在每个阶段独立地模拟每个边缘的不确定性,使其能够以比直接回归四个固定值更高的稳健性处理复杂的现实场景,如遮挡、运动模糊和低光条件。 灵活的细化机制:通过加权和将概率分布转化为最终的框偏移量。精心设计的加权函数确保在初始框准确时进行细粒度调整,并在必要时进行大幅度偏移。 研究潜力与可扩展性:通过将回归任务转化为与分类任务一致的概率分布预测问题,FDR不仅增强了与其他任务的兼容性,而且还使对象检测模型能够从知识提炼、多任务学习和分布建模等领域的创新中受益。这为未来的研究开辟了新的途径。 GO-LSD(全局最优定位自蒸馏):将知识蒸馏集成到基于 FDR 的检测器中。 基于上述情况,配备FDR的探测器满足以下两点:

实现知识迁移:网络的输出变成概率分布,这些分布携带局部化知识,通过计算 KLD损失可以从较深的层迁移到较浅的层。这是传统固定框表示(Dirac δ 函数)无法实现的。 一致的优化目标:由于每一层都有一个共同的目标,即减少初始边界框和地面真实边界框之间的残差,因此最后一层生成的精确概率分布可以指导前面的层进行蒸馏。

因此,在FDR的基础上提出了GO-LSD,通过实现网络层间局部化知识提炼,进一步扩展了D-FINE的功能。

这产生了双赢的协同效应:随着训练的进行,最后一层的预测变得越来越准确,其生成的软标签可以更好地帮助前面的层提高定位精度。相反,前面的层可以更快地学会准确定位,从而简化更深层的优化任务并进一步提高整体准确性。

D-FINE 通过以下两个关键创新解决了上述问题:

细粒度分布优化(FDR)

FDR 将边界框回归任务从预测固定坐标转变为预测概率分布。具体来说,它将边界框的生成过程分解为初始框预测和细粒度分布优化两个阶段:

  1. 初始框预测:解码器在第一层生成初始边界框,这些框不需要特别精确,仅作为参考。
  2. 细粒度分布优化:后续解码层基于初始框生成四组概率分布,并通过逐层优化调整这些分布。这些分布作为边界框的“细粒度中间表征”,允许模型对每条边进行独立的微调。

FDR 的优点包括:

  • 简化优化过程:通过“残差”约束中间态的概率分布,使每个解码层能够更有效地关注当前的定位误差。
  • 增强鲁棒性:在复杂场景(如遮挡、低光照)下表现出更强的鲁棒性。
  • 灵活的优化机制:通过加权函数实现对边界框的灵活调整。

FDR

全局最优定位自蒸馏(GO-LSD)

GO-LSD 是一种自蒸馏机制,它将深层网络生成的精确概率分布作为软标签,传递给浅层网络。这种机制使得浅层网络能够学习到更准确的定位知识,从而简化深层网络的优化任务,进一步提升整体性能。

GO-LSD

3. 实验结果

D-FINE 在 COCO 数据集上取得了卓越的性能:

  • D-FINE-L:在 NVIDIA T4 GPU 上以 124 FPS 的速度实现了 54.0% 的 AP。
  • D-FINE-X:在 NVIDIA T4 GPU 上以 78 FPS 的速度实现了 55.8% 的 AP。

此外,D-FINE 在 Objects365 数据集上预训练后,进一步提升了性能,AP 达到 59.3%,超过了所有现有的实时检测器。

4. 优势总结

D-FINE 的主要优势包括:

  • 高性能:在实时性和检测精度之间取得了良好的平衡。
  • 轻量化:通过优化架构设计,降低了参数量和计算复杂度。
  • 鲁棒性:在复杂场景下表现出更强的鲁棒性。
  • 可扩展性:FDR 和 GO-LSD 可以无缝集成到其他 DETR 架构中,提升性能。

秘法AI

秘塔AI https://metaso.cn/search/8590328114185105408 以下是DFINE模型中两个核心创新点FDR(细粒度分布细化)和GO-LSD(全局最优定位自蒸馏)的详细分析:

  1. FDR(细粒度分布细化) 核心思想与实现原理 FDR通过将边界框回归任务从坐标预测转化为概率分布优化,解决了传统检测器中固定坐标回归难以建模定位不确定性的问题。具体实现分为两阶段:

    1. 初始框预测:与传统DETR类似,首层解码器生成初始边界框作为参考框(无需高精度)。
    2. 分布迭代优化: ○ 概率分布建模:每个边界框的四个边缘(上、下、左、右)被建模为独立的离散概率分布,每个分布由多个候选偏移值的概率组成。 ○ 残差式迭代调整:后续解码层通过预测残差logits逐步细化分布,公式为: \logits(l)=\logits(l−1)+Δ\logits(l)\logits(l)=\logits(l−1)+Δ\logits(l) 其中,Δ\logits(l)Δ\logits(l)是当前层预测的残差,通过softmax生成细化后的分布。 • 加权函数与缩放机制:通过非均匀加权函数将分布转换为实际偏移量,并根据初始框的宽高进行比例缩放,确保调整幅度与目标尺寸适配。 技术优势 • 细粒度调整能力:分布表示允许对每个边缘独立进行微调或大幅度修正,解决了传统L1/IoU损失对微小偏移敏感的问题。 • 不确定性建模:概率分布可捕捉边缘位置的不确定性,提升遮挡、模糊等复杂场景的鲁棒性。 • 简化监督信号:通过残差优化直接约束中间分布,结合FGL(细粒度定位损失)实现更精确的梯度传播。 实验效果 • 在COCO数据集上,FDR将定位精度(AP)提升3.4%~5.3%。 • 对小目标检测(APS)的改进尤为显著,因分布细化能有效缓解固定坐标回归的粗粒度问题。
  2. GO-LSD(全局最优定位自蒸馏) 核心思想与实现原理 GO-LSD通过跨层知识蒸馏实现定位能力的双向优化,解决了传统蒸馏方法在检测任务中兼容性差、训练成本高的问题:

    1. 全局最优匹配: ○ 匈牙利匹配聚合:各解码层的预测通过匈牙利算法进行局部匹配,并聚合所有层的匹配结果形成全局最优候选集。 ○ 解耦权重策略(DDF) :对高IoU但低置信度的预测分配更高权重,确保精确定位的候选框在蒸馏中占主导。
    2. 自蒸馏机制: ○ KLD损失迁移知识:深层解码器的细化分布作为软标签,通过KL散度损失指导浅层分布优化: LKD=KL(P深层∥P浅层)LKD​=KL(P深层​∥P浅层​) ○ 温度参数平滑分布:引入温度参数ττ软化logits,增强类间关系的学习。
    3. 双向优化效应: ○ 浅层通过蒸馏快速学习准确位置,深层则专注于残差细化,形成协同优化。 技术优势 • 加速收敛:浅层提前获得高质量定位信号,训练周期缩短约30%。 • 零额外推理成本:蒸馏仅在训练阶段进行,不影响模型推理速度。 • 跨架构兼容性:可无缝集成到Deformable DETR、DINO等模型中,AP提升2.0%~5.3%。 实验效果 • 在Objects365预训练后,GO-LSD使D-FINE-L/X的AP达到57.1%/59.3%,超过YOLOv10等实时检测器。 • 蒸馏过程的内存占用增加小于2%,训练时间仅增加6%。

创新点对比与协同效应 维度 FDR(分布细化) GO-LSD(自蒸馏) 核心贡献 将坐标回归转化为概率分布优化 通过跨层蒸馏实现定位知识迁移 优化目标 提升单层预测的细粒度调整能力 增强跨层预测的一致性 关键技术 残差logits、加权函数、FGL损失 全局匹配、解耦权重、KLD损失 性能增益 定位精度提升(AP↑) 训练速度加快(收敛轮次↓)、整体AP↑ 协同效应 提供高质量的中间表示供蒸馏使用 通过知识迁移强化分布优化的效果

总结 1. FDR通过概率分布建模和迭代细化,突破了传统坐标回归的局限性,显著提升了定位精度。 2. GO-LSD利用自蒸馏机制,实现了跨层定位知识的高效迁移,在加速训练的同时进一步优化全局性能。 3. 两者的协同作用使D-FINE在COCO数据集上以124 FPS达到54.0% AP(D-FINE-L),在保持实时性的同时超越了YOLO系列和RT-DETR等主流模型。 这一组合创新为实时目标检测提供了新的优化范式,尤其适用于自动驾驶、无人机巡检等高精度、低延迟场景。

来自 https://metaso.cn/search/8590328114185105408?q=%E8%AF%B7%E4%BD%A0%E5%B8%AE%E6%88%91%E5%88%86%E6%9E%90dfine%E7%9A%84%E4%B8%A4%E4%B8%AA%E5%88%9B%E6%96%B0%E7%82%B9%EF%BC%9A++++FDR%EF%BC%88%E7%BB%86%E7%B2%92%E5%BA%A6%E5%88%86%E5%B8%83%E7%BB%86%E5%8C%96%EF%BC%89%EF%BC%9A%E5%B0%86%E8%BE%B9%E7%95%8C%E6%A1%86%E7%94%9F%E6%88%90%E8%BF%87%E7%A8%8B%E8%A7%A3%E8%80%A6%E4%B8%BA%E5%88%9D%E5%A7%8B%E6%A1%86%E9%A2%84%E6%B5%8B%E5%92%8C%E7%BB%86%E7%B2%92%E5%BA%A6%E5%88%86%E5%B8%83%E7%BB%86%E5%8C%96%E4%B8%A4%E4%B8%AA%E6%AD%A5%E9%AA%A4%E3%80%82%E5%88%9D%E5%A7%8B%E6%A1%86%E9%A2%84%E6%B5%8B%E4%B8%8E%E4%BC%A0%E7%BB%9F+DETR+%E6%96%B9%E6%B3%95%E7%B1%BB%E4%BC%BC%EF%BC%8C%E8%80%8C%E7%BB%86%E7%B2%92%E5%BA%A6%E5%88%86%E5%B8%83%E7%BB%86%E5%8C%96%E5%88%99%E6%98%AF%E6%A0%B9%E6%8D%AE%E5%88%9D%E5%A7%8B%E8%BE%B9%E7%95%8C%E6%A1%86

Ref