【统计学习方法读书笔记】感知机的个人理解（1）

写在前面：

在友人的推荐下，开始入李航老师的坑，《统计学习方法》。

读到第二章，感知机，李航老师由浅入深让我有了很好的理解，现在自己总结一下思路。

正文：

感知机用于二分类问题，由浅开始：假定我们有一个平面上存在许许多多的蓝色点和红色点，并且假设存在一条直线可以将蓝红两色的点分隔在直线两侧（即书中所说的数据线性可分）。我们如何找到一条这样的直线y=wx+b呢？

同理：将这个问题推广到n维空间中，在空间若存在两组不同的特征点，我们是否能找到一个超平面来将这两组截然不同的目标分隔在超平面两端呢？

由上述的问题，便引出了感知机这样的二分类模型。我们设定用于分隔数据的直线（超平面）表达式为y=wx+b（在二维平面中，w、b为一个数；而在n维平面中w为数组,b还是一个数），我们将直线一侧的数据分类结果表示为1，另一侧我们用-1来表示。很自然的，我们引出符号函数：

$f=sign(x)\left\{\begin{matrix} +1,& x\geq 0 \\ -1, & x<0 \end{matrix}\right.$

按照李航老师的思路，统计学习路线为：模型→策略→算法，我们先提出模型：

感知机的模型我们定义为： $f(x)=sign(w\cdot x+b)$ ;其中 $w\epsilon \mathbb{R}^{n}$ , $b\epsilon \mathbb{R}$ 。而在感知机模型中，w称为权重（weights），b称为偏置（bias）。

有了模型，我们就需要有一种学习策略，也就是如何优化这个模型，或者说如何衡量这个模型的优劣？很自然的一个想法，就是我们看一看分类错误的点的个数就能衡量模型的好坏。但是这种衡量方式对于w，b来说是一种离散的关系，无法求导，也就无从下手去优化w，b的值（找不到优化方向）；第二种方法就是衡量被误分类的点到分类直线（超平面）的距离总和，距离总和越小，证明我们分类的越准确。

基于上述思路，我们首先提出任意一点到超平面的距离公式：

$\frac{1}{\left \| w \right \|}\mid w\cdot x+b\mid$