Andrew Ng 机器学习笔记 16 ：照片OCR

照片OCR是指照片光学字符识别（photo optical character recognition）。

OCR的大概步骤

像上面这样的一个系统，我们把它称之为机器学习流水线（machine learning pipeline）。

在很多复杂的机器学习系统中，这种流水线形式都非常普遍。在流水线中会有多个不同的模块，比如在本例中我们有文字检测、字符分割和字母识别，其中每个模块都可能是一个机器学习组件。

因此使用流水线的方式通常提供了一个很好的办法来将整个工作分给不同的组员去完成。（当然所有这些工作都可以由一个人来完成，如果你希望这样做的话。）

假设我们想要实现一个从图中识别出行人的应用：

为了建立一个行人检测系统，以下是具体步骤：

指定行人矩形比例

假如说我们把宽高比标准化到82：36这样一个比例。
搜集样本

接下来我们要做的就是到街上去收集一大堆正负训练样本。
训练算法

如果你能得到大规模训练样本的话，然后你要做的事是训练一个神经网络或者别的什么学习算法，输入这些82×36维的图像块，然后对y进行分类，把图像块分成”有行人”和”没有行人”两类。

因此这一步实际上是一个监督学习。你通过一个图像块然后决定这个图像块里有没有行人。

现在假如我们获得一张新的测试样本图像，我们如果想要从这张图中找到行人：

每次滑动窗口的大小是一个参数，通常被称为步长(step size)，有时也称为步幅参数(stride parameter)。步长为1代表每次移动一个像素，这样通常表现得最好但可能计算量比较大，因此通常使用4个像素、或者8个像素、或者更多像素作为步长值。

通过固定步长，你的窗体去逐步扫描完整个图，并在每一步扫描过程中，将窗体扫描到的图片代入之前训练的行人识别的分类器中，直到窗体滑过图片中所有不同的位置：

但这个矩形是非常小的，只能探测到某种尺寸的行人。接下来我们要做的是看看更大的图像块。因此我们用更大矩形来滑过图片，传入分类器运行：

顺便说一下，“用更大一些的图像块”的意思是当你用这样的图像块时，我们需要将扫描得到的图片重新压缩到分类器可以识别的尺寸(82×36像素)。

以此类推，接下来你可以用一个更大的矩形，以同样的方式滑动窗口。直到完成最后的扫描过程之后，你的算法应该就能检测出图像中是否出现行人了。

因此整个步骤就是：训练一个分类器，然后用一个滑动窗分类器来找出图像中出现的行人。

我们可以对学习系统使用一个数值评价量度。

以照片OCR流水线为例：

模块	准确率
整个系统	72%
文字检测	89%

因此，通过上限分析，很清楚地指出了哪一个模块是最值得花精力去完善的。