支持向量机(SVM)第三章---软间隔

参考周老师《机器学习》

在前面两章里，我们都是假设样本在原始空间或者高维空间里线性可分，并且我们提到核函数的选择成为SVM的关键。即使我们找到了合适的核函数，也难断定是否是因过拟合造成的。

引入软间隔，允许一些样本不满足约束条件。在前面两章所介绍的都是硬间隔，即所有样本都必须满足约束条件。

优化目标为：
$\min \frac{1}{2}||w||^2 + C\sum_{i=1}^n l_{0/1}(y_i(w^Tx_i+b)-1)$
其中 $C>0$ 是一个常数， $l_{0/1}$ 是”0-1损失函数“。

$z<0$ ， $l_{0/1}(z)=1$
$z \geq 0,l_{0/1}=0$

然而 $l_{0/1}$ 是非凸、非连续的，因此需要一些“替代损失”，它们是凸的连续的且是 $l_{0/1}$ 的上界。比如：hinge损失、指数损失、对率损失

用hinge损失代替优化目标里的0-1损失：
$\min \frac{1}{2}||w||^2 + C\sum_{i=1}^n max(0,-(y_i(w^Tx_i+b)-1))$

引入松弛变量 $\xi_i \geq 0$ ,又可进一步重写为：
$\min \frac{1}{2}||w||^2+C\sum_{i=1}^n\xi_i$
$s.t. y_i(w^Tx_i+b)\geq 1-\xi_i$
$\xi_i \geq 0,i=1,2,...,n$

通过拉格朗日乘子法可以得到对应的拉格朗日函数：
$L(w,b,\xi) = \frac{1}{2}||w||^2+C\sum_{i=1}^n \xi_i+\sum_{i=1}^n\beta_i(-\xi_i) + \sum_{i=1}^n\alpha_i(1-\xi_i-y_i(w^Tx_i+b))$
其中 $\alpha_i \geq 0, \beta_i \geq 0$ 是拉格朗日乘子
$\frac{\partial L}{\partial w}=w-\sum_{i=1}^n\alpha_iy_ix_i =0$
$w=\sum_{i=1}^n\alpha_iy_ix_i$
$\frac{\partial L}{\partial b}=\sum_{i=1}^n-\alpha_iy_i=0$
$\sum_{i=1}^n\alpha_iy_i=0$
$\frac{\partial L}{\partial \xi_i} = C-\beta_i-\alpha_i=0$
$C = \beta_i+\alpha_i$

带入上面的拉格朗日函数便得到软间隔支持向量机的对偶问题：

软间隔支持向量机的KKT条件：

$\frac{\partial L}{\partial w}=0, \frac{\partial L}{\partial b}=0, \frac{\partial L}{\partial \xi_i}=0$
$-\xi_i \leq 0, 1-\xi_i-y_i(w^Tx_i+b) \leq 0$
$\alpha_i \geq 0, \beta_i \geq 0$
$\alpha_i( 1-\xi_i-y_i(w^Tx_i+b))=0, \beta_i(-\xi_i)=0$

最终的模型仍是：
$f(x) =w^Tx+b=\sum_{i=1}^n\alpha_iy_ix_i^Tx+b$

根据KKT可知：
$\alpha_i=0$ 对应的样本不对 $f(x)$ 产生影响；当 $\alpha_i > 0$ 时，此时对应的样本是支持向量，如果 $\alpha_i <C$ ，根据 $C = \alpha_i +\beta_i$ ,可知 $\beta_i>0$ ，那么 $\xi_i=0$ ，则该样本在最大间隔边界上；如果 $\alpha_i=C$ ,那么 $\beta_i=0$ ,如果 $\xi_i \leq 1$ ，则样本落在最大间隔内部，若 $\xi_i>1$ ,则样本被错误分类。

软间隔支持向量机的最终模型同样只与支持向量有关，通过hinge损失函数保持了解的稀疏性。

支持向量机(SVM)第三章---软间隔

猜你喜欢