Skip to content

MonoDETR:基于 Transformer 的单目 3D 目标检测器

📄 论文:MonoDETR: Depth-Aware Transformer for Monocular 3D Object Detection 📅 会议:ICCV 2023 🔗 论文地址:https://arxiv.org/abs/2203.13310 💻 GitHub:https://github.com/ZrrSkywalker/MonoDETR


一、背景介绍

单目 3D 目标检测(Monocular 3D Object Detection)是指仅依赖单张 RGB 图像预测三维边界框,具备成本低、部署简单等优势。但由于缺乏深度信息、尺度模糊严重,该任务极具挑战。

MonoDETR 是首个将 Transformer 引入单目 3D 检测的端到端方法,借鉴 DETR 思路,通过引入 深度感知机制(Depth-aware Fusion),有效缓解单目图像中尺度歧义、特征不稳定的问题。


二、整体框架

MonoDETR 架构包含 4 个核心模块:

图像 → CNN 提取特征 → 深度引导特征融合(DFF)→ Transformer 编解码器 → 3D 框 + 类别输出

模块组成

1. 图像特征提取(Backbone)

  • 使用 ResNet-50/101 等卷积网络提取特征图。
  • 输出多尺度特征供后续模块使用。

2. 深度引导特征融合(Depth-aware Fusion)

  • 引入深度预测网络,辅助学习像素点的相对深度。
  • 将预测深度作为条件,引导 Transformer 聚合空间一致性强的区域。

融合方式如下:

\[ F_{fused} = \text{DFF}(F_{img}, D_{pred}) \]

其中 $F_{img}$ 是图像特征,$D_{pred}$ 是深度估计。

3. Transformer 编解码器

  • Encoder:对深度引导后的特征做全局建模;
  • Decoder:输入固定数量的 object queries,输出 3D 边界框与类别。

注意:Encoder 输入加上了 位置编码(含图像坐标与深度信息),以增强空间感知能力。

4. 3D 边界框预测头

每个 query 输出通过 MLP 得到:

  • 类别概率 $\hat{c}_i$
  • 三维边界框参数:
\[ \hat{b}_i = [x, y, z, w, h, l, \theta] \]

这里 $(x, y, z)$ 是中心坐标,$(w, h, l)$ 是尺寸,$\theta$ 是朝向角。


三、损失函数设计

MonoDETR 借鉴 DETR 的 bipartite matching 思路,定义以下损失项:

1. 匹配成本(Matching Cost)

结合分类损失与位置误差(L1 + IoU)作为匈牙利匹配的 cost:

\[ \text{Cost}(i, j) = \lambda_{cls} \cdot \mathcal{L}_{cls} + \lambda_{box} \cdot \mathcal{L}_{L1} + \lambda_{iou} \cdot \mathcal{L}_{IoU} \]

2. 分类损失(Focal Loss)

MonoDETR 采用 Focal Loss 而非 Cross Entropy,更适合处理单目检测中前景/背景比例极不均衡的问题。

3. 边界框损失

由两部分构成:

  • L1 Loss:直接预测框与 GT 的参数差异
  • GIoU 3D Loss:衡量预测框与 GT 的空间重叠程度

最终总损失为:

\[ \mathcal{L} = \mathcal{L}_{focal} + \lambda_{L1} \cdot \mathcal{L}_{L1} + \lambda_{giou} \cdot \mathcal{L}_{giou} \]

四、MonoDETR vs. DETR 对比分析

模块 DETR (2D 图像) MonoDETR (单目 3D 检测)
输入 RGB 图像 RGB 图像
任务目标 2D BBox + 类别 3D BBox + 类别
Backbone CNN (ResNet) CNN + Depth-Net
空间建模 图像平面位置编码 图像坐标 + 深度编码
匹配策略 匈牙利匹配 匈牙利匹配
损失函数 Cross Entropy + L1 + IoU Focal Loss + L1 + GIoU
优化难点 正负样本匹配不稳定 深度估计误差大,尺度模糊

五、性能表现

在 KITTI 数据集的测试集上,MonoDETR 在多个类别上优于先前 SOTA 单目方法,尤其在中/远距离目标检测上效果更佳。

方法 模型类型 Easy Moderate Hard
MonoDIS anchor-based 10.5 7.0 5.3
MonoFlex anchor-based 13.9 9.1 7.5
MonoDETR transformer-based 14.5 10.2 7.9

六、关键贡献

  • 🚀 首次将 DETR 引入到单目 3D 检测领域,统一检测流程;
  • 🧠 引入深度感知特征增强模块(DFF),提升空间建模;
  • 🔄 端到端训练,无需 anchor、NMS、后处理;
  • 📈 在 KITTI 等标准数据集上达成 SOTA 性能。

七、可视化建议(可自行补充)

建议加入以下内容:

  • 网络结构流程图(CNN + DFF + Transformer)
  • 匹配过程与 loss 分布示意
  • KITTI 上预测框与 GT 的 3D 叠图

Ref