orc 算法笔记

课时1 深度学习时代的场景文字检测与识别(自然场景)

提出:

1)文字信息的边缘,颜色,纹理信息十分重要

2)自然场景的复杂环境,以及光线,拍摄角度等

纯检测场景:

1)将文字检测问题,转化为语义分割问题(像素级)

2)同时处理水平,倾斜,弯曲的文字

:基于SSD

:基于Faster rcnn

1)anchor策略: 对Anchor进行设计,使其有方向,有更大长宽比的变化

2)RRol pooling:处理各种旋转框

1)corner localization:边缘角点的信息(SSD),左上+右下四个角点

2)region segment:语义的分割(R-FCN)

1)端到端训练

2)移除了冗余的部分

3)多任务学习

针对文字的形态不一:

:用一系列连续重叠的圆盘作掩膜(基于)

检测+识别场景:

Mask TextSpotter:基于mask rcnn

没有RNN时序性,而是对每一个像素进行分类(若是背景则为null)

CRNN:

ASTER:

对倾斜图像自动矫正,并识别

FAN:

强制使得attention为中心,使得注意力机制更准确

数据合成:

SynthText: 

在平滑连通区域进行贴字

Spatial Transformer Networks)空间变换网络

主要问题记录:

1)常见光照和遮挡的问题?

   利用模型去推断(从制造数据入手)

2)检测比识别更加困难,能够做的更多

3)一张表格中字体变化较大,可以考虑引入更多层次的attention

4)针对背景和前景差异较小的时候?

从真实数据中建库统计背景和前景的pielx ,当发现某区域颜色一致时,从库中索引,将其对应前景颜色贴上去

CTPN(2016):思想来源于faster rcnn

痛点:文本检测其anchor长宽比不同于普通实物,且文本间每个字符有间隔

提出:

1)分治法:将长本文分为小的 文本框进行检测,这样预测的anchor更加精确

2)加入RNN,将小文本框形成序列进行学习和推测(BiLSTM(双向LSTM))

每次利用3和2号框预测1号框中是否有存在文字

3)anchors的设定不同于faster rcnn

4)CTPN采取了Side-refinement 思路进一步优化边缘位置的预测(引入回归X参数,X参数直接标定了完整文本框的左右边界,做到精确的边界预测)

结构如下:

我们发现,卷积后的特征将送入BLSTM继续学习。

缺点: 对于非水平的文本的检测效果并不好

EAST(2017):

提出:  传统的文本检测有多个阶段,通常包含候选框提取、候选框过滤、bouding box回归、候选框合并等阶段,这样增大了文本检测精度的损失和时间的消耗

构成:CN生成文本行参数阶段和局部感知NMS阶段

(a)水平字母检测和识别管道,来自Jaderberg et al. [12] ;(b)面向多文本检测管道,来自Zhang et al. [48];(c)面向多文本检测管道,来自Yao et al. [41];(d)使用CTPN的水平文本检测,来自Tian et al. [34];(e)本文方法,避免多个中间步骤,仅仅由两部分组成,相比于先前的方法简单很多。

其借助了FCN的架构做特征提取和学习,最终还是一个回归问题,在EAST最后预测出相应的文本行参数

猜你喜欢

转载自blog.csdn.net/weixin_38740463/article/details/89359401