论文地址:Feature Adaption with Predicted Boxes for Oriented Object Detection in Aerial Images | SpringerLink
目录
摘要
目标检测是计算机视觉的一个基础研究领域。任意方向的物体不可避免地出现在人脸、自然场景文本和航空图像检测中,近年来引起了广泛的关注。然而,由于采用固定的卷积核来检测任意方向和变形物体,现有的旋转检测器仍然存在特征不对中问题。本文提出了一种新颖的航空图像定向目标检测方法——单阶段特征自适应网络(OFANet)。提出了一种由可变形卷积和对齐卷积实现的特征自适应模块,根据预测的偏移量和解码盒对特征映射进行细化。此外,针对检测中长期存在的周期角度回归问题,将盒回归分支解耦为尺寸分支和角度分支,在角度回归分支中增加新的周期损失,以利用对象的周期方向。大量的实验证明了我们的方法的有效性,与最先进的方法相比,在三个基准数据集,DOTA, HRSC2016和UCAS-AOD取得了很好的结果。
小结:单阶段特征自适应网络(OFANet)
- 由可变形卷积和对齐卷积实现的特征自适应模块,根据预测的偏移量和解码盒对特征映射进行细化。
- 周期角度回归问题,将盒回归分支解耦为尺寸分支和角度分支,在角度回归分支中增加新的周期损失,以利用对象的周期方向。
关键词:深度学习·计算机视觉·目标检测
1 介绍
基于深度学习的目标检测是图像处理和计算机视觉中具有广泛应用前景的重要课题。具体来说,目标检测的目标是用矩形框定位目标,并从图像或视频中对其进行分类。传统的基于轴向边界盒的目标检测方法无法从航测图像中准确地检测到无处不在的旋转目标,如飞机、船舶、车辆和港口等,带来的背景信息为噪声[8]。近年来,带有可旋转矩形盒的任意方向目标检测在航空图像处理、自然场景文本检测[10]、人脸识别[16]和机器人抓取[26]等方面发挥了相当大的作用。已经提出了一系列基于深度学习的先进旋转检测器,重点关注包围盒[20]、小物体[23]和密集分布物体的表示[21,23]。虽然这些旋转检测器已经取得了令人满意的性能,但在任意方向(图1(a))和变形(图1(b))情况下,由于受到轴向和固定卷积核的使用的限制,精确的目标检测仍然是一个具有挑战性的问题。该方法不能捕获不同形状物体的基本信息,导致特征错位问题。
为此,我们设计了一个新的特征自适应模块,从预测偏移量和解码盒中提取信息,通过联合引入对齐卷积[6]和可变形卷积[3]来细化特征映射。本工作的主要贡献如下:
- 为了缓解由于采用固定卷积核检测任意方向和变形对象而导致的特征不对准问题,提出了一种由变形卷积和对齐卷积实现的特征自适应模块,针对预测偏移量和解码盒对特征映射进行细化。
- 为适应角度周期性回归,将盒形回归分支解耦为尺寸分支和角度分支,提出了一种新的角度回归分支周期损耗计算方法,以缓解回归损耗计算的不一致性,提高整体性能。
- 将上述特征自适应模块与带有角度损耗的去耦回归分支相结合,提出了一种通用的方法,即单阶段特征自适应网络(One-stage feature adaption Network, OFANett),以生成适应良好的特征地图和高质量的包围盒,实现面向目标的精确检测。
小结
原因:轴向和固定卷积核的使用的限制
问题:该方法不能捕获不同形状物体的基本信息,导致特征错位问题。
解决:设计了一个新的特征自适应模块,从预测偏移量和解码盒中提取信息,通过联合引入对齐卷积[6]和可变形卷积[3]来细化特征映射。
2 相关工作
2.1 面向对象检测
定向对象的检测是一个研究热点。Yang[25]等人设计了一个采样融合网络,融合了多层特征图,提高了对任意方向的小物体的检测灵敏度。Yang[23] 等人设计了一种高精度、快速的单级旋转探测器,用于大长宽比物体。针对类不平衡问题,提出了一种两阶段特征细化模块(FRM)。Pan等[12]提出一种特征选择模块(FSM)和动态细化的分类/回归(DRH-C / R)来解决这个问题,接受所有字段的卷积核排列沿轴和有相同的形状,对象通常被安排在不同的方向有不同的形状。
定向对象的检测相关工作
Yang[25] 设计了一个采样融合网络,融合了多层特征图,提高了对任意方向的小物体的检测灵敏度。 Yang[23] 设计了一种高精度、快速的单级旋转探测器,用于大长宽比物体。针对类不平衡问题,提出了一种两阶段特征细化模块(FRM)。 Pan[12] 提出一种特征选择模块(FSM)和动态细化的分类/回归(DRH-C / R)来解决这个问题,接受所有字段的卷积核排列沿轴和有相同的形状,对象通常被安排在不同的方向有不同的形状。
2.2 特性适应
针对特征不一致问题,提出了相应的处理方法。例如,可变形卷积[3]使用一个额外的卷积层从输入特征映射学习偏移量,并调整输入特征映射。Yang [23]等人设计了一个特征细化模块,利用特征插值得到的细化锚的信息重构特征地图。然而,这些基于变形的特征自适应方法是隐式的,经常在没有监督信息的情况下从额外结构中获得偏移量。Han[6]等人提出了一种明确的方式,这种方式是人工设计,不能表达真实的特征适应过程。与这些方法相比,我们的方法可以结合预测偏移量和解码盒的隐式和显式信息来实现特征对齐。
特征不一致问题相关工作
可变形卷积[3] 使用一个额外的卷积层从输入特征映射学习偏移量,并调整输入特征映射。 Yang [23] 特征细化模块,利用特征插值得到的细化锚的信息重构特征地图。 基于变形的特征自适应方法是隐式的,经常在没有监督信息的情况下从额外结构中获得偏移量。 Han[6] 明确的方式,这种方式是人工设计,不能表达真实的特征适应过程。 本文方法 结合预测偏移量和解码盒的隐式和显式信息来实现特征对齐。
2.3 回归损失
对于目前最常用的定向包围盒方法,在水平包围盒的基础上增加一个额外的角度变量,并利用基于距离的损耗来优化角度。IoU平滑L1损失[25]和模块化旋转损失[14]分别取代了IoU因子和RIoU计算回归损失的方法。然而,这些方法很复杂,在不同的情况下并不总是有效的。最常用的方法仍然是基于5个参数(x坐标、y坐标、宽度、高度、角度)的光滑L1损失[5],但仍然没有解决角度周期性与旋转盒损失函数的不匹配,由于预测的边界框不同,在某些情况下,在相同的位置会得到相同的损失值[25]。为此,我们提出了一种新的周期角损失函数,该函数能适应角度的周期性,收敛速度较快。
回归损失相关工作
目前最常用的定向包围盒方法,在水平包围盒的基础上增加一个额外的角度变量,并利用基于距离的损耗来优化角度。
IoU平滑L1损失[25] 取代了IoU因子计算回归损失的方法 模块化旋转损失[14] 取代了RIoU计算回归损失的方法 上:方法很复杂,在不同的情况下并不总是有效的。
最常用的方法仍然是基于5个参数(x、y、宽、高、角度)的光滑L1损失[5]。
仍没解决角度周期性与旋转盒损失函数的不匹配,由于预测的边界框不同。
(在某些情况下,在相同的位置会得到相同的损失值[25]。)
本文新的周期角损失函数 能适应角度的周期性,收敛速度较快。
3 提出的方法
我们在图2中给出了我们方法的概述。该框架由特征提取主干、特征金字塔网络和回归分类头三个部分组成。基线是一个基于RetinaNet网络的一级旋转检测器。在头部添加特征适应模块,重建特征映射。为了实现旋转检测,我们使用5个参数(x, y, w, h, θ)来表示不同方向的矩形。θ为与x轴锐角,另一侧对应束。角的范围为[−π/2,0]。回归目标如下:
3.1 特征适配模块
如图3所示,我们设计了特征适配模块的不同结构。隐式结构使用可变形的卷积[3]和从3×3卷积的预测偏移量中学习到的偏移量。显式方法使用解码后的预测框信息,这些信息被输入对齐卷积[6],以细化特征映射。该方法将隐式和显式相结合,以并行或串联的方式利用预测偏移量和解码盒的信息,达到特征对齐的目的。并行结构将精细的特征映射与3×3卷积核串联起来,序列结构将隐式精细的特征映射转化为显式精细的特征映射,具体如图4所示。
3.2 解耦的分支
考虑到角度是周期变量,不同于其他回归变量,但所有预测变量共享相同的特征映射,将回归分支解耦为大小和角度分支,以适应各种回归任务。三支结构在头部部分(图2)。
3.3 角度回归损耗
匹配两个面向框的仿真结果(图5(一个)显示两个弧度的关系并不完全是线性分布(深点的颜色,更多的数据位于),这意味着两个预测方向包围盒将视为同一个甚至他们的角度是完全不同的。针对这一问题,设计了一种新的角度损失函数用于角度回归。Theta loss损耗函数基于Smooth L1损耗,计算公式如下:
与光滑L1损耗(图5(b))相比,Theta损耗具有周期性,且在接近零点的一个周期内,当x远离零点时,其梯度更大,这意味着损耗值下降得更快。
4 实验与分析
4.1 数据集
我们的实验在DOTA [18], HRSC2016[9]和UCAS-AOD[27]三个面向数据集上进行。这些数据集中的所有对象都是面向任意方向的,地面真实盒被转换为面向方向的边界盒。
略
4.2 实现细节
这些方法是在mmdetection[2]项目的基础上使用PyTorch[13]实现的。我们使用单级检测器RetinaNet网络作为基线。如果没有指定,我们使用ResNet-50和FPN,初始化来自PyTorch[13]的预训练模型作为实验骨干网络,并在RTX 2080Ti或RTX 3090上训练网络,总批量大小为2。训练计划采用与mmdetection[2]相同的方法。我们训练所有的模型16新纪元的DOTA, 36新纪元的UCAS-AOD和72新纪元的HRSC2016。采用随机梯度下降(SGD)方法,初始学习率为0.004,每衰减一步学习速率降低10。重量衰减和动量分别为0.0001和0.9。失重参数λ1,λ2,λ3均设为1。Focal loss 超参数设定为α= 0.25和γ= 1.0。最后,将阈值为0.05的旋转非最大抑制(NMS)应用于结果进行后处理。所有性能均采用平均精度(mAP, VOC07 metric)方法进行评价。数据增强采用随机旋转和随机HSV (Hue, Saturation and Value)。
4.3 消融研究
Effectiveness of Decoupled Branch. 解耦分支的有效性。(略)
Effectiveness of Feature Adaption Module. 特征适应模块的有效性。(略)
Effectiveness of Theta Loss. Theta Loss的有效性。(略)
Comparisons with the State-of-the-Art. 与先进技术的比较。(略)
Results on DOTA. (略)
Results on UCAS-AOD.(略)
Results on HRSC2016.(略)
4.4 DOTA可视化
我们将该方法的检测结果可视化到DOTA测试数据集上,结果如图6所示。可视化结果表明,我们的方法对不同的类别都是健壮的,并且可以获得高质量的边框。
5 结论
本文提出了一种单阶段特征自适应网络(One-stage Feature Adaption Network, OFA-Net),它能够生成适应良好的特征映射和高质量的边界框,用于精确的定向任意目标的检测。针对特征不对齐问题,设计了一种新的特征自适应模块,结合变形卷积和对齐卷积的优点,对特征映射进行细化。现有框架经常遇到周期性角度问题,近年来,人们通过扩展边界框表示等技术进行了大量的研究。在不增加边界框表示的复杂性的情况下,我们也关注角度损失,用周期损失代替它,有效地提高了检测精度。与DOTA、UCAS-AOD、HRSC2016基准测试中最先进的方法相比,有希望的结果证明了我们的OFA-Net的广泛适用性。
小结:
- 生成适应良好的特征映射和高质量的边界框。
- 特征不对齐问题:针对特征不对齐问题,设计了一种新的特征自适应模块,结合变形卷积和对齐卷积的优点,对特征映射进行细化。
- 周期性角度问题:在不增加边界框表示的复杂性的情况下,我们也关注角度损失,用周期损失代替它,有效地提高了检测精度。