摘要
在过去的十年中,目标检测取得了显著的进展。然而,由于以下内在原因,定向和高密度物体的检测仍然具有挑战性:
(1)神经元的感受都是轴向对齐的,形状相同,而物体通常是不同的形状,沿着不同的方向排列
(2)检测模型通常使用通用知识进行训练,在测试时不能很好地泛化处理特定的对象;
(3)数据集有限,阻碍了本任务的发展。
为了解决前两个问题,本文提出了一种由两部分组成的动态细化网络:特征选择模块(FSM)和动态细化头(DRH)。我们的FSM使神经元能够根据目标物体的形状和方向调整感受野,而DRH使我们的模型能够以对象感知的方式动态地改进预测。为了解决相关基准测试可用性有限的问题,我们收集了一个广泛的、完全注释的数据集,即SKU110K-R,它基于面向边界框进行重新标记。我们对几个公开的基准进行定量评估,包括DOTA,HRSC2016,SKU110K和我们自己的SKU110K- R数据集。实验结果表明,与基线方法相比,该方法取得了一致且显著的增益。
1.介绍
在深度学习的帮助下,目标检测在一些基准(如VOC[6]和COCO[24])上取得了显著的进展。许多精心设计的方法[35,44,46,34,3]已经证明了很好的结果。然而,当物体(如航空图像中的物体)方向任意且分布密集时,大多数探测器会遇到问题。此外,几乎所有的检测器都对训练集上的模型参数进行优化,并在之后保持不变。这种使用一般知识的静态范例可能不够灵活,无法在测试期间检测特定的样本。
最近在定向目标检测方面的大部分进展都是基于R-CNN系列框架[8,7,35]。这些方法首先生成大量的水平边界框作为候选区域,然后根据区域特征预测分类和定位。不幸的是,水平roi通常会在边界框和定向对象之间严重失调[40,29]。例如,航拍图像中的物体通常具有任意的方向和密集的排列,导致几个实例通常拥挤在一个水平RoI[5]中。 因此,提取准确的视觉特征变得困难。其他方法[40,26,29,28]利用定向边界框作为锚来处理旋转的对象。然而,这些方法的计算复杂度很高,因为它们获得了许多设计良好的锚,具有不同的角度、尺度和宽高比。近年来,RoI Trans[5]通过旋转RoI学习器,利用旋转位置敏感的RoI对齐模块提取旋转不变区域特征,将水平方向RoI转化为定向方向RoI。但是,这种方法仍然需要精心设计的锚,而且不够灵活。
模型训练是一个由特殊到一般的过程,推理是一个由一般到特殊的过程。然而,几乎所有的方法都遵循平稳范式,不能基于样本进行灵活的推理。动态过滤器是一种简单而有效的方法,可以使模型在不同的样本上进行更改。现有的方法[4,38]采用动态滤波器进行特征重组,取得了较好的效果。然而,检测器有两个不同的任务,即分类和回归。图1显示了一些说明性的例子。对于分类任务,关键是细化特征嵌入以提高可判别性。然而,对于一个回归问题,直接细化预测值是可取的。针对上述两个方面,我们提出了两个版本的动态优化头(DRHs)。