R2CNN 倾斜框(inclined box)笔记

预测输出有3个支路,第一个支路是有无文本的二分类,这个和目标检测算法中的目标分类类似。第二个支路是水平框(axis-aligned box)的预测,这个和目标检测算法中的框预测一样。第三个支路时倾斜框(inclined box)的预测,这部分是这篇文章的亮点,而且该支路后面跟一个NMS进行处理得到最后结果。至于RPN网络部分输出的ROI则和常规目标检测中RPN网络输出的ROI一样,都是水平方向。另外这篇文章其实还增加了一些小尺寸的anchor提升对小文本的检测效果。所以R2CNN算法最后既有常规的水平预测框输出,也有倾斜框输出,这两种框都是基于RPN网络输出的ROI得到的,虽然倾斜框支路也能预测水平框,但是作者认为第二个支路的存在对最后结果帮助较大。 

图2. 旋转区域CNN(R2CNN)的网络架构。 RPN用于提出包含任意方向文本的轴对齐边界框。 对于RPN生成的每个框,执行三个具有不同合并大小的ROIPoolings,并将连接的特征连接起来以预测文本分数,轴对齐框(vx,vy,vw,vh)和倾斜最小区域框(ux1,uy1,UX2,UY2,呵)。 然后在倾斜的盒子上进行倾斜的非最大抑制以获得最终结果。

猜你喜欢

转载自blog.csdn.net/qq_16792139/article/details/86549665