第二章感知机

感知机是二类分类的线性分类模型，输入为特征向量，输出为实例的类别，感知机对应于输入空间（特征空间）中将
实例划分为正负两类的超平面

2.1感知机模型

假设输入空间（特征空间）是 $x\subseteq \bf {R}^n$ ,输出空间为 $y={+1,-1}$ ,由输入空间到输出空间的如下函数：

f (x) = s i g n (w \cdot x + b)

$f(x)=sign(w\cdot x+b)$
称为感知机，其中

w

$w$ 和

b

$b$ 为感知机模型参数

w \in R^{n}

$w\in \bf {R}^n$ 叫做权值或者权向量，

b \in R

$b\in \bf R$ 叫做偏置，

w \cdot x

$w\cdot x$ 表示

w

$w$ 和

x

$x$ 的内积

s i g n

$sign$ 是符号函数：

s i g n (x) = {\begin{cases} + 1, & x \geq 0 \\ - 1, & x < 0 \end{cases}

$sign(x)=\begin{cases} +1,&&x\geq 0\\ &&&&\\ -1,&&x<0 \end{cases}$
感知机的解释：
线性方程

w \cdot x + b = 0

$w\cdot x+b=0$ 对应于特征空间

R^{n}

$\bf {R}^n$ 中的一个超平面

S

$S$ ，其中

w

$w$ 为超平面的法向量，

- \frac{b}{| | w | |}

$-\frac{b}{||w||}$ 为原点到超平面的距离，这个超平面将特征空间划分成两个部分

2.2感知机学习策略

2.2.1

数据集为线性可分数据集

2.2.2

选择损失函数为误分类点到超平面 $S$ 的总距离，特征空间中任意一点 $x_0$ 到超平面 $S$ 的距离：

\frac{1}{| | w | |} | w \cdot x_{0} + b |

$\frac{1}{||w||}|w\cdot x_0+b|$
这里的

| | w | |

$||w||$ 是

w

$w$ 的

L_{2}

$L_2$ 范数

对于误分类的数据 $(x_i,y_i)$ 来说：

- y_{i} (w \cdot x_{i} + b) > 0

$-y_i(w\cdot x_i + b) > 0$
成立，那么误分类点

x_{i}

$x_i$ 到超平面

S

$S$ 的距离：

- \frac{1}{| | w | |} y_{i} (w \cdot x_{i} + b)

$-\frac{1}{||w||}y_i(w\cdot x_i+b)$
假设超平面

S

$S$ 的误分类点集合为

M

$M$ ，那么所有误分类点到超平面的总距离：

- \frac{1}{| | w | |} \sum_{x_{i} \in M} y_{i} (w \cdot x_{i} + b)

$-\frac{1}{||w||}\sum_{x_i\in M}{y_i(w\cdot x_i+b)}$
不考虑

\frac{1}{| | w | |}

$\frac{1}{||w||}$ 得到在给定数据集：

T = {(x_{1}, y_{1}), (x_{2}, y_{2}), \dots, (x_{N}, y_{N})}

$T=\{(x_1,y_1),(x_2,y_2),\cdots,(x_N,y_N)\}$
其中

x_{i} \in R^{n}

${x_i \in \bf {R^n}}$ ,

y_{i} \in {+ 1, - 1}

${y_i\in \{+1,-1\} }$ ,

i = 1, 2, \dots, N

$i=1,2,\cdots,N$ 感知机的损失函数为：

L (w, b) = - \sum_{x_{i} \in M} y_{i} (w \cdot x_{i} + b)

$L(w,b)=-\sum_{x_i\in M}y_i(w\cdot x_i+b)$

2.3感知机学习算法

求解感知机参数也就是损失函数极小化的问题：

min_{w, b} L (w, b) = - \sum_{x_{i} \in M} y_{i} (w \cdot x_{i} + b)

$\min_{w,b}L(w,b)=-\sum_{x_i\in M}y_i(w\cdot x_i+b)$
采用随机梯度下降算法，首先任意选取一个超平面

w_{0}, b_{0}

$w_0,b_0$ ，然后梯度下降法不断极小化目标函数
损失函数

L (w, b)

$L(w,b)$ 的梯度为：

\nabla_{w} L (w, b) = - \sum_{x_{i} \in M} y_{i} x_{i}

$\nabla_wL(w,b)=-\sum_{x_i\in M}{y_ix_i}$

\nabla_{b} L (w, b) = - \sum_{x_{i} \in M} y_{i}

$\nabla_bL(w,b)=-\sum_{x_i\in M}{y_i}$
随机选取一个误分类点

(x_{i}, y_{i})

$(x_i,y_i)$ 对

w, b

$w,b$ 进行更新：

w \leftarrow w + η y_{i} x_{i}

$w\leftarrow w+\eta y_ix_i$

b \leftarrow b + η y_{i}

$b\leftarrow b+\eta y_i$
其中

η

$\eta$ 为学习速率

算法流程

输入：训练数据集 $T=\{(x_1,y_1),(x_2,y_2),\cdots,(x_N,y_N)\}$ 其中 ${x_i\in \bf R^n},y_i\in \{+1,-1\},i=1,2,\cdot,N$ ；学习率 $\eta(0<\eta\leq 1)$ ；
输出： $w,b$ ；感知机模型 $f(x)=sign(w\cdot x+b)$
（1）选取初值 $w_0,b_0$
（2）在训练集中选取数据 $(x_i,y_i)$
（3）如果 $y_i(w\cdot x_i+b)\leq 0$

w \leftarrow w + η y_{i} x_{i}

$w\leftarrow w+\eta y_ix_i$

b \leftarrow b + η y_{i}

$b\leftarrow b+\eta y_i$
（4）跳转至（2）直至训练集中没有误分类点