Anchor DETR 中锚点的生成与运用详解
I. Anchor DETR 及其基于锚点的理念简介
A. Transformer 目标检测的演进:DETR 的兴起
近年来,基于 Transformer 的端到端检测器(DETRs)通过整合语言模态,在闭集和开放词汇目标检测(OVD)任务中均展现出卓越性能 1。目标检测领域的研究视角,从锚点机制来看,经历了从基于锚点的方法到无锚点方法的演变 1。在模型结构方面,两种主流的目标检测架构分别是基于 CNN 的检测器和基于 Transformer 的检测器(DETRs)1。DETR (DEtection TRansformer) 的提出,标志着目标检测领域的一次范式革新。它是首个成功将 Transformer 作为检测流程核心构建块的目标检测框架 2。DETR 相较于以往的目标检测系统,彻底改变了其架构,用一个单一的端到端神经网络取代了由人工设计的组件构成的复杂流程 2。这种“简洁的流程和端到端的方法” 1 使得 DETR 及其后续变体,如 DINO 和 Co-DETR,在 COCO 等基准数据集上取得了令人瞩目的成果,证明了 DETR 架构的巨大潜力 1。
B. 原始 DETR 的局限性与 Anchor DETR 的动机
尽管 DETR 开创了新局面,但其原始设计也存在一些固有的挑战。其中最为显著的是其收敛速度缓慢,通常需要大量的训练周期才能达到理想性能 3。此外,原始 DETR 中的目标查询 (object queries) 是一组可学习的嵌入向量 (learned embeddings) 3。这些嵌入向量缺乏明确的物理意义,导致难以解释每个查询具体关注图像的哪个区域,也使得优化过程变得困难,因为每个目标查询的预测槽没有特定的关注模式或空间先验 3。换言之,每个目标查询并不会先验地聚焦于某个特定区域 3。这些局限性促使研究者们探索改进 DETR 类模型的方法。
C. Anchor DETR:通过锚点重新引入空间先验
为解决上述问题,Anchor DETR 被提出,其核心在于对 Transformer 检测器的查询设计进行了创新 3。Anchor DETR 的目标查询基于锚点 (anchor points),这是一种在基于 CNN 的检测器中广泛使用的概念 3。通过将锚点的坐标进行编码作为目标查询的一部分,每个目标查询便拥有了明确的物理意义,即其关注的初始空间位置 3。这种设计旨在使查询更具可解释性,并且更容易优化 3。
Anchor DETR 的设计理念体现了一种对现有范式的综合与发展。DETR 的出现推动了目标检测向“无锚点”方向发展,其采用可学习的查询摆脱了对预定义锚框的依赖 2。而传统的目标检测方法则普遍“基于锚点”,依赖于一组预先定义的具有不同尺度和长宽比的锚框 1。Anchor DETR 则采用了锚点,这些锚点并非传统意义上的完整锚框,而是二维坐标点,为查询提供了初始的空间定位信息 3。这表明 Anchor DETR 并非简单地回归到旧的锚框方法,而是试图融合两者的优点:既保留了锚点带来的可解释性和引导式搜索能力,又继承了 DETR 简洁的流程。这种设计思路反映出在 Transformer 查询设计上的一种更务实的态度,即承认了显式的空间引导对于提升模型性能和训练效率的潜在益处。
II. Anchor DETR 中锚点的生成与定义
A. 概念转变:从锚框到锚点
理解 Anchor DETR 的关键在于区分其使用的“锚点”与传统 CNN 检测器中的“锚框”。Anchor DETR 利用的是锚点,即图像或特征图上的二维坐标点 (Posq),而非具有预定义尺度和长宽比的锚框 3。原始论文并未明确说明 Anchor DETR 如何确定锚框的尺度和长宽比,正是因为它采用的是锚点而非锚框机制 3。这种转变极大地简化了锚点的定义,因为尺度和长宽比等属性不再需要预先设定,而是由网络结合后续引入的“多模式”机制在训练过程中学习得到。这一根本性的区别使得 Anchor DETR 在引入空间先验的方式上与传统检测器显著不同。
B. 锚点生成的类型
Anchor DETR 探索了两种主要的锚点生成方式:
- 固定网格锚点 (Fixed Grid Anchor Points):
在这种方式下,锚点被预定义为在特征图或图像上均匀分布的网格点 3。这些锚点的位置在整个训练过程中保持固定不变 3。 - 可学习锚点 (Learned Anchor Points):
另一种方式是将锚点的初始坐标(例如,随机初始化)视为可学习的参数,并在训练过程中通过反向传播进行更新 3。研究表明,尤其是在像 MS COCO 这样目标分布广泛的数据集上,这些可学习的锚点在训练后倾向于在图像上均匀分布,其最终分布模式与固定的网格锚点相似 3。
C. 编码锚点坐标以生成查询
无论是固定锚点还是可学习锚点,其二维坐标 Posq 都需要被编码以形成目标查询中的位置部分,即查询位置嵌入 Qp 3。这种编码过程可以将锚点的坐标信息转化为 Transformer 模型能够有效利用的表征。常用的编码方法包括正弦-余弦位置编码函数 (sine-cosine position encoding) 或一个小型多层感知机 (MLP) 网络 3。
固定网格锚点和可学习锚点之间的选择,反映了在模型设计中对空间先验编码方式与学习能力之间的一种权衡。固定网格点提供了一种强烈的、显式的空间先验,模型从一开始就知道这些特定位置是需要关注的。相比之下,可学习锚点初始时可能只具有较弱的先验信息(如随机位置),模型必须在训练中学习到最优的锚点布局。然而,正如实验所观察到的,在像 COCO 这样物体分布多样且广泛的数据集上,可学习锚点最终也趋向于形成均匀分布,与网格点类似 3。更重要的是,两种方式在性能上表现相近(例如,使用网格锚点达到 44.1 AP,使用可学习锚点达到 44.2 AP)3。这表明,对于通用的目标检测任务,如果数据集中对象的空间分布本身就比较均匀,那么一个固定的、均匀的网格可能已经提供了足够强大且更简洁的空间先验。学习锚点位置的额外能力在这种情况下可能不会带来显著的性能提升,因为网络实质上是学习到了一个网格结构已经能提供的信息。当然,对于那些物体位置分布具有特定偏向性的数据集,可学习锚点或许能展现出其灵活性优势,但对于通用检测而言,固定网格锚点在效率和效果上均表现出色。
III. 查询构建:锚点与“多模式”机制
A. Transformer 检测器中的目标查询:基础
在基于 Transformer 的检测器中,目标查询是 Transformer 解码器的关键输入。它们扮演着“探针”的角色,负责在编码器输出的图像特征中搜寻并描述潜在的目标物体 2。在原始的 DETR 模型中,这些目标查询是一组可学习的嵌入向量,不带有预设的空间信息 2。
B. 锚点作为 Anchor DETR 中查询的空间基础
与原始 DETR 不同,Anchor DETR 将锚点作为其查询设计的核心。经过编码的锚点坐标 Qp 为每个查询提供了明确的空间定位 3。这意味着每个查询从一开始就与图像中的一个特定区域相关联,拥有了显式的物理意义 3。
C. “多模式”创新:处理目标密度与多样性
- “同一区域,多个目标”的挑战:
仅使用锚点坐标作为查询的空间基础,会面临一个固有的难题:当多个目标物体出现在同一位置或紧邻同个锚点时,模型难以区分和检测所有目标 3。这一“同一区域,多个目标”的问题是基于位置的检测方法需要解决的关键挑战之一 3。 - 多模式的定义:
为了解决上述问题,Anchor DETR 引入了“多模式” (multiple patterns) 机制。这些模式是一小组可学习的嵌入向量,记为 Qfi 3。关键在于,这些模式嵌入在所有锚点之间是共享的,以保持模型的平移不变性 3。模式的数量 Np 通常较小,例如,在论文的实验中常设为 3 3。每个模式嵌入 Qfi 的维度为 C,与特征通道维度一致,因此模式集合可以表示为 Qif∈RNp×C 3。 - 模式的角色与特化:
每个模式使得一个锚点有能力预测一个独立的目标。因此,如果模型定义了 Na 个锚点和 Np 个模式,那么总共会生成 Na×Np 个目标查询。至关重要的是,这些模式在训练过程中会逐渐特化,以检测具有不同特征的目标,尤其是在目标尺寸方面 3。例如,某些模式可能倾向于检测小目标,而另一些模式则可能专注于检测大的水平或垂直方向的物体,或是中等尺寸的物体 3。论文中的图示(未在此处复现)通过颜色编码清晰地展示了这种特化现象:绿色点对应小包围框,红色点对应大的水平包围框,蓝色点对应大的垂直包围框,而黑色点则代表锚点本身 3。
D. 构建最终目标查询
最终的目标查询 Q 是由初始查询特征(源自模式嵌入 Qfi)和查询位置嵌入 Qp(源自锚点坐标)共同组合而成的 3。具体的组合方式(例如,相加或拼接后通过线性层映射)在原始论文的架构中有详细说明。
“多模式”机制与锚点的结合,可以被理解为一种学习到的、局部化的“锚框”代理。传统检测器在每个网格单元通常会预设多个具有不同尺度和长宽比的锚框(例如,3 种尺度 × 3 种长宽比 = 9 个锚框)。相比之下,Anchor DETR 在每个锚点位置应用 Np 个(例如,3 个)模式。每个(锚点 + 模式)的组合都会生成一个独立的查询,进而产生一个潜在的检测结果。由于这些模式在训练中会特化以适应不同尺寸或特征的目标 3,这意味着模型能够从同一个空间位置(即锚点)出发,预测出多个具有不同特性的目标。这与传统 CNN 检测器中多个锚框所实现的功能是类似的。然而,一个关键的区别在于,这些“形状”或“特性”并非预先定义,而是由模式动态学习得到,这为模型适应数据集的统计特性提供了更大的灵活性,可能比固定的锚框比例更优。因此,这是一种更高效、更具学习性的方式,用以达到与密集、预定义锚框相似的目标。
为了更清晰地展示锚点与多模式如何协同工作以生成多样化的查询,可以参考下表:
表 1: Anchor DETR 中锚点与模式交互的概念总览
| 锚点 (Anchor Point) | 模式 (Pattern) | 生成的目标查询 (Resulting Object Query) | 潜在的特化检测 (Potential Specialized Detection) |
|---|---|---|---|
| AP1 (例如, 位于 (x1,y1)) | 模式 PA | 查询 Q1A | 位于 (x1,y1) 附近的小尺寸目标 |
| AP1 (例如, 位于 (x1,y1)) | 模式 PB | 查询 Q1B | 位于 (x1,y1) 附近的大的水平方向目标 |
| AP1 (例如, 位于 (x1,y1)) | 模式 PC | 查询 Q1C | 位于 (x1,y1) 附近的中等尺寸或垂直方向目标 |
| ... | ... | ... | ... |
| APN (例如, 位于 (xN,yN)) | 模式 PA | 查询 QNA | 位于 (xN,yN) 附近的小尺寸目标 |
| APN (例如, 位于 (xN,yN)) | 模式 PB | 查询 QNB | 位于 (xN,yN) 附近的大的水平方向目标 |
| APN (例如, 位于 (xN,yN)) | 模式 PC | 查询 QNC | 位于 (xN,yN) 附近的中等尺寸或垂直方向目标 |
此表直观地说明了 Na 个锚点和 Np 个模式如何产生 Na×Np 个独特的查询,每个查询都有潜力专注于检测特定类型的目标。这有助于理解 Anchor DETR 如何利用多模式机制来解决“同一区域,多个目标”的挑战 4。
IV. 训练阶段锚点的运用
A. 标签分配:二分图匹配的角色
与原始 DETR 类似,Anchor DETR 采用一种基于集合的全局损失 (set-based global loss),这需要在训练过程中对预测结果与真实目标 (ground truth objects) 进行二分图匹配 1。匈牙利算法 (Hungarian algorithm) 通常被用来寻找这种最优的一对一匹配,其目标是最小化一个预定义的代价函数 (cost function) 3。这种匹配机制强制模型产生唯一的预测 1。
B. 匹配的代价函数
用于匹配的代价函数通常包含以下几个部分:
- 类别预测代价: 例如,使用 Focal Loss 来计算分类损失。
- 边界框相似度代价: 例如,使用 L1 损失、GIoU (Generalized Intersection over Union) 损失或 CIoU (Complete Intersection over Union) 损失。值得注意的是,一些后续的 DETR 变体(如 NAN-DETR)引入了 CIoU 损失以更精确地衡量锚点与真实框之间的相似性,并优化检测结果,这表明了在该领域持续改进的趋势 5。
Anchor DETR 中锚点的使用意味着其查询从一开始就具有了空间位置属性。这种固有的空间定位特性可能会对匹配过程产生影响,例如,通过优先匹配那些其锚点位置接近真实目标边界框的查询。尽管 Anchor DETR 的原始论文 3 并未明确详述其是否针对 DETR 的匹配算法进行了基于锚点的修改,但这种空间先验的引入是其核心设计之一。
C. 定义正负样本
基于二分图匹配的结果,(由锚点+模式生成的)查询所产生的预测结果会被划分为正样本或负样本 3。
- 与某个真实目标成功匹配的预测结果被视为该目标类别的正样本 3。
- 未能匹配到任何真实目标的预测结果则被视为负样本,并通常被分配给一个“无目标”或背景类别 3。
D. 对损失函数的影响
总的损失函数是分类损失(针对所有正负样本)和边界框回归损失(仅针对正样本)的组合。Anchor DETR 中基于锚点的查询,通过提供更具定位性的初始“猜测”,旨在使优化过程更加容易,并促使这些损失函数更快地收敛 3。
锚点在 Anchor DETR 中的作用可以被视为一种隐式的感兴趣区域 (Region of Interest, RoI) 提议机制。原始 DETR 的可学习查询在初始阶段没有空间偏向性,它们是全局的,需要在训练中逐渐学习到关注特定区域 3。相比之下,Anchor DETR 的查询由于与锚点绑定,从一开始就具有了初始的空间焦点 3。在进行二分图匹配时,代价函数会考虑预测框与真实框的相似度。一个已经“注视”正确位置(得益于其锚点)的查询,更有可能生成一个与附近真实目标具有较高 IoU 的边界框。这种预先的定位能力,相较于那些可能最初指向图像中任何位置的查询,简化了匹配问题。这种简化应当能够带来更稳定和更快速的学习信号,这与实验中观察到的 Anchor DETR 更快的收敛速度是一致的 3。
V. 推理过程中锚点的运用
A. 从基于锚点的查询生成检测结果
在推理(或称测试)阶段,输入图像首先通过骨干网络 (backbone) 和 Transformer 编码器进行特征提取。随后,预定义的(或在训练中学习到的)锚点与它们各自的多个模式相结合,形成一组目标查询。这些查询被送入 Transformer 解码器进行处理。解码器的输出是针对每个查询的类别标签预测和边界框坐标预测 3,这与 DETR 的通用推理流程一致 2。
B. 无 NMS 的优势
Anchor DETR 继承了 DETR 的一个关键特性,即它无需非极大值抑制 (Non-Maximum Suppression, NMS) 后处理步骤 3。在训练过程中采用的基于集合的损失和二分图匹配机制,激励模型直接输出一组唯一的、非冗余的预测结果 1。这简化了检测流程,并避免了 NMS 阈值选择可能带来的问题 2。Anchor DETR 的论文明确指出其是 NMS-free 的 3,它避免了传统检测器中对锚框和 NMS 的依赖 3。
“多模式”机制对于在密集场景中实现无 NMS 的检测至关重要。如果每个锚点只能预测一个目标,那么在目标物体彼此非常接近的情况下,模型可能难以在不使用 NMS 的前提下输出多个清晰区分的目标。模式的存在使得每个锚点 位置 都能负责产生多个潜在的、特化的检测。例如,同一个锚点关联的不同模式可能分别专注于检测在该位置附近可能同时出现的不同尺寸或长宽比的物体 3。训练过程中的二分图匹配则会确保这些源自同一锚点但不同模式的多个查询,如果对应图像中确实存在多个不同的真实目标,它们会学习去预测这些不同的目标;如果不存在,则学习预测为“无目标”。这种机制使得模型能够有效解决目标间的歧义,并在不需要 NMS 后处理的情况下检测到多个邻近的目标。
VI. Anchor DETR 锚点设计的优势与对比分析
A. 提升收敛速度
Anchor DETR 相较于原始 DETR 在收敛速度上表现出显著优势。它能够用远少于原始 DETR 的训练周期数(例如,减少至十分之一)达到具有竞争力的性能水平 3。例如,文献中提到 Anchor DETR 可以在比 DETR 少 10 倍训练周期的情况下取得更好性能且运行更快 3。
B. 改善检测性能 (AP)
在检测精度方面,Anchor DETR 通常能够取得与原始 DETR相当甚至更好的平均精度 (Average Precision, AP),尤其是在考虑到其训练时间大幅缩短的情况下 3。例如,当使用 ResNet50-DC5 特征并在 COCO 数据集上训练 50 个周期时,Anchor DETR 可以达到 44.2 AP,而原始 DETR 在相同骨干网络下训练 500 个周期才能达到 43.3 AP 3。多模式机制的应用,使得模型能够更有效地检测不同尺度的目标,因为不同的模式倾向于关注不同大小的物体,有的关注小目标,有的关注大目标 3。
C. 增强查询可解释性
与 DETR 中抽象的、纯粹学习得到的查询嵌入不同,Anchor DETR 的查询基于具有图像中明确二维坐标的锚点 3。这赋予了每个查询清晰的物理意义,使得理解各个查询主要关注图像的哪个区域变得更加容易和直观 3。
D. 与原始 DETR (学习式查询) 的比较
总结而言,Anchor DETR 相对于原始 DETR 的主要优势在于更快的收敛速度和更强的查询可解释性。Anchor DETR 的查询从一开始就带有一个强烈的空间归纳偏置 (spatial inductive bias),而 DETR 的查询则必须完全从数据中学习这种空间对应关系。
E. 与基于 CNN 的检测器 (密集锚框) 的比较
传统的基于 CNN 的检测器通常依赖于在图像上密集铺设的大量预定义锚框 2。Anchor DETR 则采用稀疏的锚点集合(例如,默认使用 300 个锚点),而非密集的锚框 3。这种设计显著减少了需要预定义的元素数量,并降低了与生成和处理海量锚框相关的计算开销。同时,Anchor DETR 保持了 NMS-free 的特性,进一步简化了检测流程,这与大多数需要 NMS 后处理的 CNN 检测器形成了对比 3。Anchor DETR 的方法可以看作是结合了锚框提供的显式空间参考和稀疏表示带来的效率优势 3。
Anchor DETR 的设计哲学体现了对目标检测流程效率和简洁性的追求。通过使用稀疏的锚点替代密集的锚框,并通过将查询与具体的空间位置更直接地关联起来,它旨在减少计算负担和超参数调整的复杂性。与其前身(原始 DETR)和传统的基于锚框的方法相比,Anchor DETR 在提升训练动态的同时,也力求保持或超越其性能水平,从而在复杂性、性能和可解释性之间找到了一个有吸引力的平衡点。
以下表格汇总了 Anchor DETR 与其他一些代表性检测器在 COCO 数据集上的性能对比,以更直观地展示其优势:
表 2: Anchor DETR 及相关模型性能对比 (ResNet-50 骨干网络)
| 模型 | 特征级别 (Feature) | 训练周期 (Epochs) | AP (%) | GFLOPs | 推理速度 (FPS) |
|---|---|---|---|---|---|
| DETR | DC5 | 500 | 43.3 | 187 | 10 (12) |
| SMCA | multi-level | 50 | 43.7 | 152 | 10 |
| Deformable DETR | multi-level | 50 | 43.8 | 173 | 15 |
| Conditional DETR | DC5 | 50 | 43.8 | 195 | 10 |
| Anchor DETR | DC5 | 50 | 44.3 | 172 | 16 (19) |
| DETR-R50 | C5 | 500 (推测) | 41.7 | 95.2 B | 37 (3090 GPU) |
| AnchorDETR-R50 | C5 | 50 | 42.1 | 97.0 B | 37 (3090 GPU) |
注:DC5 指使用 ResNet C5 特征图,并增加了一个 dilation。括号内的推理速度为使用 torchscript 优化后的结果。部分数据来源于不同研究 4,硬件和具体配置可能略有差异,但总体趋势具有参考价值。AP 指 COCO val AP。
从表格中可以看出,Anchor DETR (DC5, 50 epochs) 相比于 DETR (DC5, 500 epochs) 在训练周期大幅减少的情况下,AP 仍有提升,并且 GFLOPs 和推理速度也具有竞争力。这有力地支持了 Anchor DETR 在收敛速度和综合性能上的优势。
VII. Anchor DETR 中的行列解耦注意力 (RCDA)
A. 高分辨率特征中注意力的挑战
Transformer 中的标准自注意力机制,其计算复杂度与输入序列长度(在视觉中对应于特征图的像素或 patch 数量)的平方成正比。当处理高分辨率特征图时,这种二次复杂度会导致巨大的计算量和内存消耗,成为一个显著的瓶颈 3。
B. 行列解耦注意力 (RCDA) 简介
为了应对这一挑战,Anchor DETR 的作者们提出了一种名为行列解耦注意力 (Row-Column Decoupled Attention, RCDA) 的注意力变体 3。RCDA 的核心思想是将二维特征图上的注意力计算分解为两个一维过程:它首先将二维的键 (key) 特征解耦为一维的行特征和列特征,然后相继在行方向和列方向上执行注意力计算 3。
C. 优势:内存效率与性能
RCDA 的主要优势在于其显著降低了内存消耗,尤其是在处理高分辨率特征时 3。同时,实验表明,RCDA 能够达到与 DETR 中标准注意力机制相似甚至略优的性能水平 3。
D. 与锚点机制的关系
RCDA 的设计在很大程度上是与 Anchor DETR 中基于锚点的查询设计正交的贡献 3。它主要解决的是注意力机制本身的效率问题,无论查询是如何形成的。然而,将 RCDA 包含在 Anchor DETR 的工作中,体现了作者们在改进 DETR 类模型时所采取的一种整体性视角,即同时关注查询设计的有效性和计算效率的提升。RCDA 不仅可以与基于锚点的查询协同工作,也可以应用于原始 DETR 的学习式查询 3。实验结果显示,当 RCDA 与 Anchor DETR 提出的基于锚点的查询设计结合使用时,其性能与标准注意力机制相当 3。
尽管 RCDA 与锚点机制在架构上是分离的组件,但 RCDA 所带来的内存节省可以间接地使锚点机制受益。通过降低注意力计算的成本,RCDA 使得模型能够更经济地处理更高分辨率的特征图。更高分辨率的特征图通常包含更丰富的细节信息,这对于提升目标定位的精度至关重要,尤其是对于小目标的检测。锚点为查询提供了初始的空间定位,而更高质量的特征图则能为这些锚点周围区域的查询提供更精细的视觉线索。因此,RCDA 通过支持模型使用更丰富的特征输入,可以间接补充和增强基于锚点的查询设计所追求的精确定位能力。
VIII. 结论
A. Anchor DETR 中锚点生成与运用的回顾
Anchor DETR 通过引入基于锚点的查询设计,对 Transformer 目标检测器进行了重要改进。其核心在于使用固定的或可学习的锚点,结合创新的“多模式”机制,来构建具有明确物理意义且易于优化的目标查询。锚点为查询提供了初始的空间定位,而多模式则允许每个锚点位置能够检测具有不同特征(尤其是尺寸)的多个目标,有效解决了“同一区域,多个目标”的难题。在训练阶段,这些基于锚点的查询通过与真实目标进行二分图匹配来进行标签分配和损失计算,其固有的空间先验有助于加速模型的收敛。在推理阶段,模型能够直接输出唯一的检测结果,无需 NMS 后处理。
B. 基于锚点的查询设计的意义
Anchor DETR 的方法成功地将传统锚点机制带来的显式空间先验优势与 Transformer 检测器的端到端理念相结合。它有效地解决了原始 DETR 在收敛速度和查询可解释性方面的一些关键局限性,使得基于 Transformer 的目标检测方法更加实用、高效且易于理解。这种设计表明,在端到端的学习框架中审慎地重新引入轻量级的、设计良好的归纳偏置,可以显著提升模型的性能和训练效率。
C. 更广泛的影响与未来方向
Anchor DETR 的成功为未来基于 Transformer 的视觉模型的发展提供了一个有益的启示:即融合精心设计的、轻量级的空间先验信息是一个富有成效的研究方向。将可学习的模式或特化查询组件与空间位置信息相结合的理念,可能会激发在各种计算机视觉任务中对查询设计的进一步探索。
目标检测领域从最初的 DETR 到 Anchor DETR 1,以及后续出现的如 NAN-DETR 等采用“基于解码器的多锚点策略”和“中心化噪声机制”的变体 5,清晰地展示了研究社区在不断优化和完善基于 Transformer 的检测器方面的持续努力。Anchor DETR 在这一演进过程中扮演了重要的角色,它不仅自身取得了显著的进步,也为后续的研究奠定了基础,推动了整个领域向着更高效、更鲁棒、更易用的方向发展。未来,我们有望看到更多借鉴此类思想的创新,进一步拓展 Transformer 在计算机视觉领域的应用边界。
引用的著作
- Real-time Transformer-based Open-Vocabulary Detection with Efficient Fusion Head - arXiv, 访问时间为 五月 9, 2025, https://arxiv.org/html/2403.06892v2
- Introduction to DETR - Part 1 | DigitalOcean, 访问时间为 五月 9, 2025, https://www.digitalocean.com/community/tutorials/introduction-detr-hungarian-algorithm-1
- ojs.aaai.org, 访问时间为 五月 9, 2025, https://ojs.aaai.org/index.php/AAAI/article/view/20158/19917
- megvii-research/AnchorDETR: An official implementation of ... - GitHub, 访问时间为 五月 9, 2025, https://github.com/megvii-research/AnchorDETR
- NAN-DETR: noising multi-anchor makes DETR better for object detection - Frontiers, 访问时间为 五月 9, 2025, https://www.frontiersin.org/journals/neurorobotics/articles/10.3389/fnbot.2024.1484088/full
- RichardMinsooGo-ML/Bible_4_Part_L_08_DETR_Anchor_DETR - GitHub, 访问时间为 五月 9, 2025, https://github.com/RichardMinsooGo-ML/Bible_4_Part_L_08_DETR_Anchor_DETR