第二章总结感知机模型

感知机（perceptron）是二分类的线性分类模型，属于判别模型

f (x) = s i g n (w x + b)

$f(x) = sign(wx + b)$

sign是符号函数

感知机的解释：线性方程 wx + b = 0 对应于特征向量 $R^n$ 中的一个超平面，w(法向量) 和 b(截距) 这些参数确定这个超平面——分离超平面，这个超平面将特征空间划分为两个部分。

2.2.1 数据集线性可分性（前提）

2.2.2 学习策略

感知机采用的损失函数是误分类点到超平面的总距离。

d = \frac{1}{| | w | |} | w x_{0} + b |

$d = \frac{1}{||w||} |wx_0 + b|$
对于误分类点

- y_{i} (w_{i} + b) > 0

$-y_i(w_i+b) > 0$
误分类点到超平面的距离是

- \frac{1}{| | w | |} y_{i} (w_{i} + b)

$-\frac{1}{||w||}y_i(w_i+b)$
所有误分类点到超平面距离

- \frac{1}{| | w | |} \sum_{x_{i} \in M} y_{i} (w_{i} + b)

$-\frac{1}{||w||} \sum_{x_i \in M} y_i(w_i+b)$
不考虑

- \frac{1}{| | w | |}

$-\frac{1}{||w||}$ ,感知机学习的损失函数为

L (w, b) = - \sum_{x_{i} \in M} y_{i} (w_{i} x_{i} + b)

$L(w,b) = -\sum_{x_i \in M} y_i(w_ix_i+b)$

对损失函数进行最优化

min L (w, b) = - \sum_{x_{i} \in M} y_{i} (w_{i} x_{i} + b)

$\min \quad L(w,b) = -\sum_{x_i \in M} y_i(w_ix_i+b)$
使用随机梯度下降

\nabla_{w} L (w, b) = - \sum_{x_{i} \in M} y_{i} x_{i}

$\nabla_w \quad L(w,b) = -\sum_{x_i \in M} y_ix_i$

\nabla_{b} L (w, b) = - \sum_{x_{i} \in M} y_{i}

$\nabla_b \quad L(w,b) = -\sum_{x_i \in M} y_i$
参数更新

w \leftarrow w + η y_{i} x_{i}

$w \leftarrow w + \eta y_ix_i$

b \leftarrow b + η y_{i}

$b \leftarrow b + \eta y_i$

$\eta$ 为学习率。

实际上，可以从原始形式看出，参数更新的过程就是对 $w \quad b$ 修改的过程，设需要修改 $n$ 次，则 $w \quad b$ 的增量分别为 $a_iy_ix_i$ 和 $a_iy_i$ ,这里 $a_i = n_i \eta_i$ 即

w = w + \sum_{i = 1}^{N} a_{i} y_{i} x_{i}

$w = w + \sum_{i = 1}^N a_iy_ix_i$

b = b + \sum_{i = 1}^{N} a_{i} y_{i}

$b = b + \sum_{i = 1}^N a_iy_i$

对偶算法的过程：

对每个数据实例 $(x_i,y_i)$ ,如果 $y_i(\sum_{j = 1}^N a_jy_jx_j \cdot x_i + b) \le 0$

a_{i} \leftarrow a_{i} + η

$a_i \leftarrow a_i + \eta$

b \leftarrow b + η y_{i}

$b \leftarrow b + \eta y_i$

其中 $x_j \cdot x_i$ ，可以预先计算用Gram矩阵存储，也可以使用核方法代替，使之成为高维可分的核感知机。

第二章总结 感知机模型