课时1 深度学习时代的场景文字检测与识别(自然场景)
提出:
1)文字信息的边缘,颜色,纹理信息十分重要
2)自然场景的复杂环境,以及光线,拍摄角度等
纯检测场景:
1)将文字检测问题,转化为语义分割问题(像素级)
2)同时处理水平,倾斜,弯曲的文字
:基于SSD
:基于Faster rcnn
1)anchor策略: 对Anchor进行设计,使其有方向,有更大长宽比的变化
2)RRol pooling:处理各种旋转框
:
1)corner localization:边缘角点的信息(SSD),左上+右下四个角点
2)region segment:语义的分割(R-FCN)
:
1)端到端训练
2)移除了冗余的部分
3)多任务学习
针对文字的形态不一:
:用一系列连续重叠的圆盘作掩膜(基于)
检测+识别场景:
Mask TextSpotter:基于mask rcnn
没有RNN时序性,而是对每一个像素进行分类(若是背景则为null)
CRNN:
ASTER:
对倾斜图像自动矫正,并识别
FAN:
强制使得attention为中心,使得注意力机制更准确
数据合成:
SynthText:
在平滑连通区域进行贴字
Spatial Transformer Networks):空间变换网络
主要问题记录:
1)常见光照和遮挡的问题?
利用模型去推断(从制造数据入手)
2)检测比识别更加困难,能够做的更多
3)一张表格中字体变化较大,可以考虑引入更多层次的attention
4)针对背景和前景差异较小的时候?
从真实数据中建库统计背景和前景的pielx ,当发现某区域颜色一致时,从库中索引,将其对应前景颜色贴上去
CTPN(2016):思想来源于faster rcnn
痛点:文本检测其anchor长宽比不同于普通实物,且文本间每个字符有间隔
提出:
1)分治法:将长本文分为小的 文本框进行检测,这样预测的anchor更加精确
2)加入RNN,将小文本框形成序列进行学习和推测(BiLSTM(双向LSTM))
每次利用3和2号框预测1号框中是否有存在文字
3)anchors的设定不同于faster rcnn
4)CTPN采取了Side-refinement 思路进一步优化边缘位置的预测(引入回归X参数,X参数直接标定了完整文本框的左右边界,做到精确的边界预测)
结构如下:
我们发现,卷积后的特征将送入BLSTM继续学习。
缺点: 对于非水平的文本的检测效果并不好
EAST(2017):
提出: 传统的文本检测有多个阶段,通常包含候选框提取、候选框过滤、bouding box回归、候选框合并等阶段,这样增大了文本检测精度的损失和时间的消耗
构成:CN生成文本行参数阶段和局部感知NMS阶段
(a)水平字母检测和识别管道,来自Jaderberg et al. [12] ;(b)面向多文本检测管道,来自Zhang et al. [48];(c)面向多文本检测管道,来自Yao et al. [41];(d)使用CTPN的水平文本检测,来自Tian et al. [34];(e)本文方法,避免多个中间步骤,仅仅由两部分组成,相比于先前的方法简单很多。
其借助了FCN的架构做特征提取和学习,最终还是一个回归问题,在EAST最后预测出相应的文本行参数