DG-DETR:面向领域泛化的检测 Transformer
本文介绍了一种面向领域泛化的检测 Transformer(DG-DETR),旨在提高 DETR 模型在分布外(Out-of-Distribution,OOD)场景下的鲁棒性。该方法通过新颖的领域无关查询选择策略和小波分解技术,有效去除了领域偏差并保留了语义特征,显著提升了 DETR 在单领域泛化任务中的性能。
背景知识
深度神经网络(DNN)在目标检测任务中取得了显著的性能,但当模型部署到与训练集分布不同的真实场景时,性能往往会因领域偏移而大幅下降。例如,在自动驾驶等安全敏感的应用中,这种性能下降可能导致严重后果。现有的领域泛化(Domain Generalization,DG)研究主要集中在基于卷积神经网络(CNN)的检测器上,而对 DETR 的鲁棒性提升关注较少。
DETR(Detection Transformer)作为一种基于 Transformer 的端到端目标检测模型,具有强大的检测性能,但由于其对领域偏移较为敏感,因此在领域泛化方面存在挑战。本文提出了一种简单、有效的插件式方法 DG-DETR,通过领域无关查询选择和小波引导的风格增强,显著提升了 DETR 的领域泛化能力。
研究方法
1. 领域无关查询选择
在 DETR 模型中,对象查询(object queries)是一组固定的可学习嵌入,用于解码器的输入。这些查询作为潜在的对象表示,与全局图像特征交互并逐步优化以映射到图像中的对象实例。然而,领域偏移主要来自视觉风格的变化,会引入显著的风格诱导偏差(domain-induced biases),限制模型的泛化能力。因此,去除查询中的领域诱导偏差可以增强 DETR 模型对真实世界领域偏移的鲁棒性。
本文提出的领域无关查询选择(Domain-agnostic Query Selection,DAQS)方法利用潜在空间中的正交性,将查询投影到与风格无关的语义轴上。具体来说,给定风格相关的统计信息(例如均值和方差),构建一个潜在风格表示:
其中,\(s \in \mathbb{R}^D\) 是风格嵌入,\(D\) 是特征维度,\(E_s\) 是由线性层和归一化层组成的风格编码器。设 \(L\) 是由 \(s\) 张成的子空间,\(Q \in \mathbb{R}^{N \times D}\) 表示展平后的编码图像特征,其中 \(N\) 是特征序列的数量。通过以下公式去除 \(Q\) 中沿 \(L\) 轴的分量:
其中,\(\alpha\) 是一个介于 0 和 1 之间的超参数,用于控制去除风格分量的程度。在训练过程中,\(\alpha\) 固定为 1。从 \(\hat{Q}\) 中,使用置信度分数选择得分最高的 \(K\) 个特征作为初始对象查询:
其中,\(\hat{Q}_{\text{select}}\) 表示选择的 \(K\) 个特征,\(E_c\) 是用于选择 top-K 特征的辅助预测头。
2. 小波引导的风格增强
风格增强可能会导致对象语义漂移,从而影响目标检测的精度和分类准确性。本文提出利用小波变换分解图像的高频和低频特征,以实现风格增强的同时保留对象语义。
小波变换将图像分解为低频和高频子带。低频分量(如纹理)包含整体风格信息,而高频分量(如形状)保留对象的语义信息。具体来说,给定一个中间 CNN 特征图 \(F \in \mathbb{R}^{H \times W \times C}\),离散小波变换(DWT)应用四个核(LLT、LHT、HLT、HHT),将特征图分解为四个小波子带:\(F_{ll}\)、\(F_{lh}\)、\(F_{hl}\) 和 \(F_{hh}\)。本文将低频分量 \(F_{ll}\) 记为 \(F_{\text{low}}\),高频分量 \([F_{lh}, F_{hl}, F_{hh}]\) 记为 \(F_{\text{high}}\)。
为了增强风格多样性,本文在低频分量上应用归一化扰动(Normalization Perturbation,NP)来合成新的领域风格。具体公式如下:
其中,NP 的公式为:
其中,\(\{\mu_c, \sigma_c\} \in \mathbb{R}^C\) 和 \(\{\mu_s, \sigma_s\} \in \mathbb{R}^C\) 分别表示输入内容图像和风格化图像的均值和方差。最后,将扰动后的低频分量 \(\hat{F}_{ll}\) 和高频分量 \(F_{\text{high}}\) 输入到逆离散小波变换(IDWT)层,重建风格增强后的特征图 \(\hat{F} \in \mathbb{R}^{H \times W \times C}\)。
实验
1. 数据集与设置
本文使用 Diverse Weather Dataset(DWD)进行实验,该数据集包含五种不同的天气条件:白天晴朗(Daytime-Sunny)、夜间晴朗(Night-Sunny)、夜间雨天(Night-Rainy)、黄昏雨天(Dusk-Rainy)和白天雾天(Daytime-Foggy)。实验中,模型仅在白天晴朗条件下进行训练,并在其他恶劣天气条件下进行测试。所有实验均采用 RT-DETR 作为基础检测器。
2. 性能分析
表 1 展示了在不同天气条件下的领域泛化性能。DG-DETR 在三个数据集上取得了最佳性能,与基线相比,分别在 Night-Sunny、Dusk-Rainy、Night-Rainy 和 Daytime-Foggy 条件下提升了 4.3%、4.6%、7.9% 和 2.4%。此外,归一化方法未能提升 OOD 鲁棒性,因为这些方法会削弱特征的判别能力。
表 2 展示了在同域场景下的性能比较。DG-DETR 在训练和测试集来自同一域的情况下,依然显著优于现有方法,表明所提出的方法在提升泛化能力的同时,不会损害模型在原始域上的性能。
3. 消融实验
表 3 展示了对关键模块的消融实验结果。实验表明,去除任何一个模块都会降低 DG-DETR 的性能,证明了每个模块的有效性。特别是领域无关查询选择(DAQS)即使在没有增强或归一化技术的情况下,也能通过去除对象查询中的领域诱导偏差来提升模型性能。
表 4 展示了对不同频率分量进行扰动的消融分析。仅对高频分量进行扰动会导致性能下降,而对低频分量进行扰动则可以提升性能,这表明低频扰动通过学习领域不变表示,有效提升了模型的泛化能力。
结论
本文提出的 DG-DETR 是一种面向 DETR 的领域泛化方法。通过小波引导的风格增强(WaveNP)和领域无关查询选择(DAQS),DG-DETR 在保留对象语义的同时去除了领域偏差,显著提升了 DETR 模型在未见领域中的泛化能力。实验结果表明,DG-DETR 在多种恶劣天气条件下均表现出色,证明了其在目标检测任务中的有效性和鲁棒性。