吴恩达-机器学习(11)-文字识别

Application example: Photo OCR

Problem description and pipeline

Photo OCR表示照片光学字符识别,主要解决的问题就是让计算器识别照片中的文字
主要步骤

Sliding windows

由于行人的形状大小相似,以行人检测为例子来说明滑动窗

在图片中选取一小块,使用训练好的分类器进行检测,下面是以8236为例,然后滑动窗口继续进行检测,滑动距离称为步长
然后选取更大的块,压缩到82
36进行检测


对于文字检测后,会得到左下图,白色的亮度表示概率,然后使用展开器,将白色的笑点扩展为一块

字符分割

Getting Lots of Data and Artificial Data

采集数据时,一个方法是采集同一字符的不同字体,然后放在不同的背景下,这就可以生成大量的样本数据

另一个方法就是选取真实的样本,然后对图像进行人扭曲或变形

Ceiling Analysis: What Part of the Pipeline to Work on Next

上限分析:当团队在进行开发机器学习系统是,可以提供很有用的导向,告诉你哪个部分最值得去花费时间
上限分析的主要思想:关注第一个模块,认为的提供正确的文字检测的结果,然后继续运行后面的模块,观察系统的准确率,这样就可以知道每一个模块的改善,对于整体的系统有多大的提升

猜你喜欢

转载自blog.csdn.net/u014351944/article/details/82964682