笔记(总结)-SVM(支持向量机)的理解-1

SVM即支持向量机作为神经网络复兴前的最强大模型，建模和推导有着严密的数学推导作为基础，在训练完成后计算速度也较快，得到了广泛的应用。本文先阐述SVM的基本问题和推导过程，再引入软间隔的SVM，最后引入核函数和求解方法。

问题引入

考虑简单的二分类问题，我们想找一个“最好”的超平面来分隔两类样本。可以看到，在样本点线性可分的情况下，能够找到多个超平面。但其中黑色超平面直观上来看是最合理的，所有样本点到黑色超平面的距离都比较远。新来一个样本时，由于噪声或训练集局限性（采样）等因素，新样本可能更加接近超平面，导致分类错误，而黑色超平面受的影响最小，因为所有样本到它的距离都比较远，泛化能力最强。
这里写图片描述

样本空间中，超平面方程如下：

w^{T} x + b = 0

$w^Tx+b=0$

样本空间中任意一点 $x_0$ 到超平面的距离为：

r = \frac{| w^{T} x_{0} + b |}{| | w | |}

$r=\frac{|w^T x_0+b|}{||w||}$

如何描述这个“最好”的超平面？我们引入两条“间隔”超平面作为“楚河汉界”，现在我们的目标变为：在满足所有样本点位于边界外的基础上（分类正确），使“楚河汉界”最宽（泛化能力最强）。
这里写图片描述

我们取两条间隔线为 $w^Tx+b=\pm k$ ，在任意间隔线上取一点，到另一间隔线的距离即为“楚河汉界”宽度，等于 $d=\frac{2k}{||w||}$ ，此时我们的目标变为：

max d

$\max \ d$

s . t . w^{T} x + b \geq k, y = 1

$s.t.\ w^Tx+b \geq k, \ y=1$

w^{T} x + b \leq - k, y = - 1

$\quad w^Tx+b \leq -k, \ y=-1$

由于目标为最大间隔，而 $k$ 相当于衡量宽度的一个尺度，取不同尺度只会改变目标函数的优化程度，为了之后模型推导的方便，取 $k=1$ 。目标等价变为：

m i n \frac{1}{2} {| | w | |}^{2}

$min \ \frac{1}{2}{||w||}^2$

s . t . y_{i} (w^{T} x + b) \geq 1, \forall x_{i}

$s.t.\ y_i(w^Tx+b) \geq1, \ \forall x_i$

在该问题中，约束条件为仿射函数，为凸二次规划问题，可以直接求解。但推导得到等价的对偶问题后，可以更高效地求解。

拉格朗日乘数法与对偶问题

不失一般性，定义原问题 $p^*$ 如下:

min f (w)

$\min\ f(w)$

s . t . g_{i} (w) \leq 0

$s.t. g_i(w)\leq0$

构造拉格朗日函数：

L (w, α) = f (w) + \sum_{i} α_{i} g_{i} (w)

$L(w,\alpha)=f(w)+\sum_i\alpha_ig_i(w)$

定义：

θ_{p} (w) = max_{α_{i} \geq 0} L (w, α)

$\theta_p(w)=\max_{\alpha_i\geq0}L(w,\alpha)$

有：

θ_{p} (w) = {\begin{cases} f (w) & 限 制 满 足 \\ + \infty & 限 制 不 满 足 \end{cases}

$\theta_p(w)=\begin{cases} f(w) & 限制满足 \\ +\infty & 限制不满足 \end{cases}$

在 $\alpha_i\geq0$ 的前提下，若不满足 $g_i(w)\leq0$ ，可取不满足的约束，取对应 $\alpha_i$ 为无穷，则函数为无穷。此时原问题 $p^*$ 的等价表述为：

min f (w) = min θ_{p} (w) = min max_{α_{i} \geq 0} L (w, α) 即 为 p^{*}

$\min\ f(w) = \min\ \theta_p(w) = \min\max_{\alpha_i\geq0}L(w,\alpha) \ 即为p^*$

得到对偶问题 $d^*$ 为：

max_{α_{i} \geq 0} min L (w, α) = max_{α_{i} \geq 0} θ_{D} (w) 令 为 d^{*} 其 中 θ_{D} (w) = min L (w, α)

$\max_{\alpha_i\geq0} \min L(w,\alpha) = \max_{\alpha_i\geq0} \theta_D(w)\ 令为d^* \\ 其中\ \theta_D(w)=\min L(w,\alpha)$

当满足KKT条件时：

{\begin{cases} α_{i} \geq 0 \\ g_{i} (w) \leq 0 \\ α_{i} g_{i} (w) = 0 \end{cases}

$\begin{cases} \alpha_i\geq0 \\ g_i(w)\leq0 \\ \alpha_ig_i(w)=0 \end{cases}$

原问题和对偶问题有相同的解。

SVM对偶问题

回到SVM原问题 $p^*$ :

m i n \frac{1}{2} {| | w | |}^{2}

$min \ \frac{1}{2}{||w||}^2$

s . t . y_{i} (w^{T} x + b) \geq 1, \forall x_{i}

$s.t.\ y_i(w^Tx+b) \geq1, \ \forall x_i$

构造拉格朗日算子，显然有：

f (w) = \frac{1}{2} | | w | |^{2}

$f(w)=\frac{1}{2}||w||^2$

g_{i} (w) = 1 - y_{i} (w^{T} x_{i} + b) \leq 0

$g_i(w)=1-y_i(w^Tx_i+b)\leq0$

L (w, α) = f (w) + \sum_{i} α_{i} g_{i} (w)

$L(w,\alpha)=f(w) + \sum_i\alpha_ig_i(w)$

通过解对偶问题来解原问题

max_{α_{i} \geq 0} min L (w, α) = max_{α_{i} \geq 0} θ_{D} (w) 其 中 θ_{D} (w) = min_{w, b} L (w, α)

$\max_{\alpha_i\geq0} \min L(w,\alpha) = \max_{\alpha_i\geq0} \theta_D(w)\ \\ 其中\ \theta_D(w)=\min_{w,b} L(w,\alpha)$

对于 $L(w,\alpha)$ ，极值在偏导为0处取到(注意此时 $L只是关于w和b的函数$ )，令：

\frac{\partial L}{\partial w} = 0, \frac{\partial L}{\partial b} = 0

$\frac{\partial L}{\partial w}=0, \ \frac{\partial L}{\partial b}=0$

得到：

w = \sum_{i} α_{i} y_{i} x_{i}, \sum_{i} α_{i} y_{i} = 0

$w=\sum_i\alpha_i y_ix_i, \ \sum_i\alpha_i y_i=0$

将 $w$ 代回 $L$ ，得到：

min_{w, b} L = \sum_{i} α_{i} - \frac{1}{2} \sum_{i} \sum_{j} α_{i} α_{j} y_{i} y_{j} x_{i}^{T} x_{j}, 记 为 W (α)

$\min_{w,b} L=\sum_i \alpha_i-\frac{1}{2}\sum_i \sum_j \alpha_i \alpha_j y_i y_j x_i^{T} x_j, \ 记为W(\alpha)$

可以看到 $L$ 只是关于 $\alpha$ 的函数，对偶问题即为：

d^{*} = max W (α)

$d^*=\max W(\alpha)$

s . t . α_{i} \geq 0, \sum_{i} α_{i} y_{i} = 0

$s.t. \ \alpha_i \geq0, \ \sum_i \alpha_i y_i=0$

此时回过头来，我们看KKT条件，易得若 $\alpha_i >0$ ，则有 $g_i(w)=0$ ，即 $y_i(w^Tx_i+b)=1$ ， $x_i$ 位于间隔超平面上，我们称这样的样本为支持向量。当我们求解得到 $\alpha_i$ 代入后，由 $w=\sum_i \alpha_i y_i x_i$ 即可得到 $w$ ，由任意一支持向量均满足 $g_i(w)=0$ ，将 $w,x_i,y_i$ 代入即可得到 $b$ ，最终判别函数为：

f (x) = w^{T} x + b = (\sum_{i} α_{i} y_{i} x_{i}^{T}) x + b = \sum_{i} α_{i} y_{i} (x_{i}^{T} x) + b

$f(x)=w^Tx+b=(\sum_i \alpha_i y_i x_i^{T})x+b=\sum_i \alpha_i y_i (x_i^{T}x) + b$

对于所有非支持向量的样本，有 $\alpha_i=0$ ，即在最终的判别函数中只有支持向量起作用，故SVM可以看做一系列支持向量的“加权和”构成的模型。

本文总结了SVM的建模来由、对偶问题和模型推导过程，最终得到了SVM对偶问题的形式和判别函数。其余内容下文再续。