SVM——软间隔最大化

回忆SVM硬间隔最大化所对应的优化问题

$\begin{aligned}\min\limits_{w,b}\frac{1}{2}\left \|w \right \|^2 \quad \text{s.t.}\ \ y^{(i)} \left( w^Tx^{(i)} + b \right) \geqslant 1\qquad i=1,\cdots,m\end{aligned}$

对于约束条件，并不是所有样本都能满足，换句话说，可能存在某个样本，其函数间隔无法做到大于等于 $1$ ，因此为每一个样本 $(x^{(i)},y^{(i)})$ 引入一个松弛变量 $\xi_i$ ，于是约束条件变为 $y^{(i)} \left( w^Tx^{(i)} + b \right) \geqslant 1 - \xi_i$ ，称为软间隔

规定松弛变量的取值为非负数， $\xi_i \geqslant 0$ ，对于能够满足约束条件的样本 $\xi_i=0$ ，对于不能够满足约束条件的样本 $\xi_i > 0$

对于每一个松弛变量 $\xi_i$ ，需要付出的代价为 $\xi_i$ ，因此代价函数变为 $\begin{aligned}\frac{1}{2} \left \| w \right \|^{2} + C\sum\limits_{i=1}^{m}\xi_i\end{aligned}$ ，超参数 $C$ 控制松弛变量代价的权重

总结一下，SVM软间隔最大化所对应的优化问题为

$\begin{aligned}\min \limits_{w, b, \xi}\ \frac{1}{2} \left \| w \right \|^{2} + C\sum\limits_{i=1}^{m}\xi_i\end{aligned}$
$\text{s.t.} \quad y^{(i)} \left( w^Tx^{(i)} + b \right) \geqslant 1 - \xi_i \qquad i=1,\cdots,m$
$\qquad \ \xi_i \geqslant 0 \qquad i=1,\cdots,m$

其中，约束条件的标准形式为

$\text{s.t.} \quad 1 - \xi_i - y^{(i)} \left( w^Tx^{(i)} + b \right) \leqslant 0 \qquad i=1,\cdots,m$
$\qquad \ -\xi_i \leqslant 0 \qquad i=1,\cdots,m$

拉格朗日函数

为约束 $1 - \xi_i - y^{(i)} \left( w^Tx^{(i)} + b \right) \leqslant 0$ 分配拉格朗日乘子 $\alpha_i$ ，为约束 $-\xi_i \leqslant 0$ 分配拉格朗日乘子 $r_i$

$\begin{aligned}&L(w,b,\xi,\alpha,r) \\&=\frac{1}{2} \left \| w \right \|^{2} + C\sum\limits_{i=1}^{m}\xi_i + \sum\limits_{i=1}^{m}\alpha_i \left [ 1-\xi_i-y^{(i)}\left ( w^Tx^{(i)}+b \right ) \right ] + \sum\limits_{i=1}^{m}r_i(-\xi_i) \\&=\frac{1}{2} \left \| w \right \|^{2} + C\sum\limits_{i=1}^{m}\xi_i + \sum\limits_{i=1}^{m}\alpha_i - \sum\limits_{i=1}^{m}\alpha_i \xi_i - \sum\limits_{i=1}^{m}\alpha_i y^{(i)}\left ( w^Tx^{(i)}+b \right ) - \sum\limits_{i=1}^{m}r_i \xi_i \\&=\frac{1}{2} \left \| w \right \|^{2} + C\sum\limits_{i=1}^{m}\xi_i + \sum\limits_{i=1}^{m}\alpha_i - \sum\limits_{i=1}^{m}\alpha_i \xi_i - \sum\limits_{i=1}^{m}\alpha_iy^{(i)}w^Tx^{(i)} - \sum\limits_{i=1}^{m}\alpha_iy^{(i)}b - \sum\limits_{i=1}^{m}r_i \xi_i \\&=\frac{1}{2} \left \| w \right \|^{2} + \sum\limits_{i=1}^{m}\xi_i\left ( C-\alpha_i-r_i \right ) + \sum\limits_{i=1}^{m}\alpha_i - \sum\limits_{i=1}^{m}\alpha_iy^{(i)}w^Tx^{(i)} - \sum\limits_{i=1}^{m}\alpha_iy^{(i)}b\end{aligned}$

求出具体的对偶问题，共分为两步

第一步，求 $\min \limits_{w,b,\xi} \ L(w,b,\xi,\alpha,r)$ ，即固定对偶变量 $\alpha$ ， $r$ ，优化原变量 $w$ ， $b$ ， $\xi$

求原变量 $w$ ， $b$ ， $\xi$ 的梯度，令梯度为 $0$

$\begin{aligned}\nabla_w L(w,b,\xi,\alpha,r)=w-\sum\limits_{i=1}^{m}\alpha_i y^{(i)} x^{(i)}=0\end{aligned}$

$\begin{aligned}\nabla_b L(w,b,\xi,\alpha,r)=-\sum\limits_{i=1}^{m}\alpha_i y_i=0\end{aligned}$

$\begin{aligned}\nabla_{\xi_i} L(w,b,\xi,\alpha,r)=C-\alpha_i-r_i=0 \qquad i=1,\cdots,m\end{aligned}$ （注意这里共有 $m$ 个式子）

得到下列3个式子（注意到式1和式2与SVM硬间隔情况下完全相同）

$\begin{aligned}w=\sum\limits_{i=1}^{m}\alpha_i y^{(i)} x^{(i)}\end{aligned}$

$\begin{aligned}\sum\limits_{i=1}^{m}\alpha_i y^{(i)}=0\end{aligned}$

$\begin{aligned}C - \alpha_i - r_i = 0 \qquad i=1,\cdots,m\end{aligned}$

上述3个式子的作用稍有不同，式1中包含原变量 $w$ 和对偶变量 $\alpha_i$ ，可以利用 $\alpha_i$ 从 $L(w,b,\xi,\alpha,r)$ 中消去 $w$

而式2仅包含对偶变量 $\alpha_i$ ，式3仅包含对偶变量 $\alpha_i$ 和 $r_i$ ，式2和式3将作为新的约束条件带入第二步中，同时式2和式3同样能够起到化简 $L(w,b,\xi,\alpha,r)$ 的作用

因此将上述3个式子代入 $L(w,b,\xi,\alpha,r)$

$\begin{aligned}&\min \limits_{w,b,\xi} \ L(w,b,\xi,\alpha,r)\\&=\frac{1}{2} \left \| w \right \|^{2} + \sum\limits_{i=1}^{m}\xi_i\left ( C-\alpha_i-r_i \right ) + \sum\limits_{i=1}^{m}\alpha_i - \sum\limits_{i=1}^{m}\alpha_iy^{(i)}w^Tx^{(i)} - \sum\limits_{i=1}^{m}\alpha_iy^{(i)}b\\&=\frac{1}{2} \sum\limits_{i=1}^{m}\sum\limits_{j=1}^{m}\alpha_i\alpha_j y^{(i)} y^{(j)}\left \langle x^{(i)}, x^{(j)} \right \rangle +0 +\sum\limits_{i=1}^{m}\alpha_i -\sum\limits_{i=1}^{m}\alpha_iy^{(i)} \left ( \sum\limits_{j=1}^{m}\alpha_j y^{(j)} x^{(j)} \right ) x^{(i)} -0\\&=\frac{1}{2} \sum\limits_{i=1}^{m}\sum\limits_{j=1}^{m}\alpha_i\alpha_j y^{(i)} y^{(j)}\left \langle x^{(i)}, x^{(j)} \right \rangle+\sum\limits_{i=1}^{m}\alpha_i-\sum\limits_{i=1}^{m}\sum\limits_{j=1}^{m}\alpha_i\alpha_j y^{(i)} y^{(j)}\left \langle x^{(i)}, x^{(j)} \right \rangle\\&=\sum\limits_{i=1}^{m}\alpha_i-\frac{1}{2} \sum\limits_{i=1}^{m}\sum\limits_{j=1}^{m}\alpha_i\alpha_j y^{(i)} y^{(j)}\left \langle x^{(i)}, x^{(j)} \right \rangle\end{aligned}$

最终我们发现原变量 $w$ ， $b$ ， $\xi$ 被消去了，对偶变量 $r$ 也恰好消掉了，尽管这本来并不在我们的计划之内，但少一个变量总是件好事，最重要的一点，化简结果和SVM硬间隔情况下完全相同

总结一下在这一步中我们所做的事情，固定对偶变量 $\alpha$ ， $r$ ，优化原变量 $w$ ， $b$ ， $\xi$ ，求 $L(w,b,\xi,\alpha,r)$ 的最小值

$\begin{aligned}\min \limits_{w,b,\xi} \ L(w,b,\xi,\alpha,r)=\sum\limits_{i=1}^{m}\alpha_i-\frac{1}{2} \sum\limits_{i=1}^{m}\sum\limits_{j=1}^{m}\alpha_i\alpha_j y^{(i)} y^{(j)}\left \langle x^{(i)}, x^{(j)} \right \rangle\end{aligned}$
$\begin{aligned}\text{s.t.}\quad \sum\limits_{i=1}^{m}\alpha_i y^{(i)}=0\end{aligned}$
$\qquad \ \ C - \alpha_i - r_i = 0 \qquad i=1,\cdots,m$

第二步，求 $\max \limits_{\alpha,r:\alpha_i \geqslant 0,r_i \geqslant 0}\ \min \limits_{w,b,\xi} \ L(w,b,\xi,\alpha,r)$ ，即得到如下的对偶问题（此时对偶变量 $r$ 虽然被消掉了，但仍然要把第一步中的约束条件式2和式3照搬过来）

$\begin{aligned}\max \limits_{\alpha} \ \sum\limits_{i=1}^{m}\alpha_i-\frac{1}{2} \sum\limits_{i=1}^{m}\sum\limits_{j=1}^{m}\alpha_i\alpha_j y^{(i)} y^{(j)}\left \langle x^{(i)}, x^{(j)} \right \rangle\end{aligned}$

$\begin{aligned}\text{s.t.} \quad \sum\limits_{i=1}^{m}\alpha_i y^{(i)}=0\end{aligned}$
$\qquad \ \ C - \alpha_i - r_i = 0 \qquad i=1,\cdots,m$
$\qquad \ \ \alpha_i \geqslant 0 \qquad i=1,\cdots,m$
$\qquad \ \ r_i \geqslant 0 \qquad i=1,\cdots,m$

可以对约束条件进行一些化简，由 $C - \alpha_i - r_i = 0 \Rightarrow r_i = C - \alpha_i$ ，代入约束条件 $r_i \geqslant 0$ ，得 $\alpha_i \leqslant C$ ，再与约束条件 $\alpha_i \geqslant 0$ 合并，得 $0 \leqslant \alpha_i \leqslant C$ （通过这一番化简，使得约束条件中也不再包含 $r$ ）

最终对偶问题为（对偶变量仅剩下 $\alpha$ ，与SVM硬间隔的区别仅为新增了约束 $\alpha_i \leqslant C$ ）

$\qquad \ \ 0 \leqslant \alpha_i \leqslant C \qquad i=1,\cdots,m$

因为对于原始问题， $\begin{aligned}\frac{1}{2} \left \| w \right \|^{2} + C\sum\limits_{i=1}^{m}\xi_i\end{aligned}$ ， $1 - \xi_i - y^{(i)} \left( w^Tx^{(i)} + b \right)$ 和 $-\xi_i$ 均为凸函数，并且存在 $(w, b, \xi)$ 使得所有不等式约束成立，所以存在一组 $(w^*, b^*, \xi^*, \alpha^*, r^*)$ 满足 $p^* = d^* = L(w^*, b^*, \xi^*, \alpha^*, r^*)$

故求解对偶问题等价于求解原始问题

【KKT条件】

原问题的约束
① $\ 1 - \xi_i - y^{(i)} \left( w^Tx^{(i)} + b \right) \leqslant 0 \qquad i=1,\cdots,m$

② $\ \xi_i \geqslant 0 \qquad i=1,\cdots,m$

梯度等于0
③ $\ \begin{aligned}\nabla_w L(w,b,\xi,\alpha,r)=0 \Rightarrow w=\sum\limits_{i=1}^{m}\alpha_i y^{(i)} x^{(i)}\end{aligned}$
④ $\ \begin{aligned}\nabla_b L(w,b,\xi,\alpha,r)=0 \Rightarrow \sum\limits_{i=1}^{m}\alpha_i y_i=0\end{aligned}$

⑤ $\ \begin{aligned}\nabla_{\xi_i} L(w,b,\xi,\alpha,r)=0 \Rightarrow C-\alpha_i-r_i=0 \qquad i=1,\cdots,m\end{aligned}$

不等式约束的拉格朗日乘子大于等于0
⑥ $\ \alpha_i \geqslant 0 \qquad i=1,2,\cdots,m$

⑦ $\ r_i \geqslant 0 \qquad i=1,2,\cdots,m$

对偶互补条件
⑧ $\ \alpha_i \left [ 1 - \xi_i - y^{(i)} \left( w^Tx^{(i)} + b \right) \right]=0 \qquad i=1,2,\cdots,m$

⑨ $\ r_i \left ( -\xi_i \right )=0 \Rightarrow r_i \xi_i=0 \qquad i=1,2,\cdots,m$

我们稍稍做一些约简，主要是消去拉格朗日乘子 $r_i$

由⑤得 $r_i=C-\alpha_i$ ，代入⑦ $C-\alpha_i \geqslant 0 \Rightarrow \alpha_i \leqslant 0$ ，再结合⑥得 $0 \leqslant \alpha_i \leqslant C$

将 $r_i=C-\alpha_i$ 代入⑨得 $\left ( C-\alpha_i \right )\xi_i=0$

于是最终的KKT条件如下
① $\ 1 - \xi_i - y^{(i)} \left( w^Tx^{(i)} + b \right) \leqslant 0 \qquad i=1,\cdots,m$

② $\ \xi_i \geqslant 0 \qquad i=1,\cdots,m$

③ $\ \begin{aligned}w=\sum\limits_{i=1}^{m}\alpha_i y^{(i)} x^{(i)}\end{aligned}$
④ $\ \begin{aligned}\sum\limits_{i=1}^{m}\alpha_i y_i=0\end{aligned}$

⑤ $\ 0 \leqslant \alpha_i \leqslant C \qquad i=1,2,\cdots,m$

⑥ $\ \alpha_i \left [ 1 - \xi_i - y^{(i)} \left( w^Tx^{(i)} + b \right) \right]=0 \qquad i=1,2,\cdots,m$

⑦ $\ \left ( C-\alpha_i \right )\xi_i=0 \qquad i=1,2,\cdots,m$

求解对偶问题（使用SMO算法），得到最优解 $\alpha^*$ ，此时任务还没有完成，还需要利用 $\alpha^*$ 求出 $w^*$ ， $b^*$

对于 $w^*$ ，利用KKT条件③计算： $\begin{aligned}w^*=\sum\limits_{i=1}^{m}\alpha_i^* y^{(i)} x^{(i)}\end{aligned}$

再求 $b^*$ ，选取任意一个支持向量对应的 $\alpha_j^*$ ，满足 $0 < \alpha_j^* < C$ ，利用KKT条件⑥⑦得

$1-\xi_j^*-y^{(j)}\left ( {w^*}^Tx^{(j)}+b^* \right )=0$

$\xi_j^*=0$

最终解出 $b^*$

$\begin{aligned}1-\xi_j^*-y^{(j)}\left ( {w^*}^Tx^{(j)}+b^* \right )&=0 \\ y^{(j)}\left ( {w^*}^Tx^{(j)}+b^* \right )-1&=0 \\ y^{(j)}\left ( {w^*}^Tx^{(j)}+b^* \right )-\left (y^{(j)}\right )^2&=0 \text{（使用$\left (y^{(j)}\right )^2$替换1）} \\ \left ( {w^*}^Tx^{(j)}+b^* \right )-y^{(j)}&=0 \\ b^*&=y^{(j)}-{w^*}^Tx^{(j)}\end{aligned}$

使用不同 $\alpha_j^*$ 计算出的 $b^*$ 会不同，通常取均值即可

【软间隔下的KKT条件】

KKT条件

① $\ y^{(i)}\left ( w^Tx^{(i)}+b \right )\geqslant1-\xi_i \quad i=1,\cdots,m$

② $\ \xi_i\geqslant0 \quad i=1,\cdots,m$

③ $\ \alpha_i \left [ 1-\xi_i-y^{(i)}\left ( w^Tx^{(i)}+b \right ) \right ]=0$

④ $\ (C-\alpha_i)\xi_i=0$

（1）若 $\alpha_i=0$ ，则由④得 $\xi_i=0$ ，代入①得 $y^{(i)}\left ( w^Tx^{(i)}+b \right )\geqslant1$

（2）若 $\alpha_i=C$ ，则由③得 $1-\xi_i-y^{(i)}\left ( w^Tx^{(i)}+b \right )=0 \Rightarrow \xi_i=1-y^{(i)}\left ( w^Tx^{(i)}+b \right )$
代入②得 $1-y^{(i)}\left ( w^Tx^{(i)}+b \right )\geqslant0 \Rightarrow y^{(i)}\left ( w^Tx^{(i)}+b \right )\leqslant1$

（3）若 $0<\alpha_i<C$ ，由③得 $\xi_i=0$ ，再由②得 $1-\xi_i-y^{(i)}\left ( w^Tx^{(i)}+b \right )=0$ ，因此有 $y^{(i)}\left ( w^Tx^{(i)}+b \right )=1$

由KKT条件推出的结论总结如下，这3条结论可以用于判断SMO算法是否收敛

$\begin{aligned}\alpha_i=0 &\Rightarrow y^{(i)}\left ( w^Tx^{(i)}+b \right )\geqslant1 \\ \alpha_i=C &\Rightarrow y^{(i)}\left ( w^Tx^{(i)}+b \right )\leqslant1 \\ 0<\alpha_i<C &\Rightarrow y^{(i)}\left ( w^Tx^{(i)}+b \right )=1 \end{aligned}$

【软间隔下的支持向量】

利用2个对偶互补条件进行分析

$\alpha_i^* \left [ 1-\xi_i^*-y^{(i)}\left ( {w^*}^Tx^{(i)}+b^* \right ) \right ]=0$

$(C-\alpha_i^*)\xi_i^*=0$

（1） $\alpha_i=0$ ，该样本为非支持向量

（2） $0 < \alpha_i < C$ ，该样本为支持向量，由对偶互补条件2得 $\xi_i=0$ ，由对偶互补条件1得 $1 - \xi_i - y^{(i)}\left ( w^Tx^{(i)} + b \right ) = 0 \Rightarrow \hat{\gamma}^{(i)}=1$ ，即该样本落在分隔边界上，函数间隔为 $1$
（3） $\alpha=C$ ，该样本为支持向量，由对偶互补条件1得 $1 - \xi_i - y^{(i)}\left ( w^Tx^{(i)} + b \right ) = 0$ ，即函数间隔 $\hat{\gamma}^{(i)}=1 - \xi_i$

松弛变量自身的约束条件为 $\xi_i \geqslant 0$ ，其中 $\xi_i=0$ 的情况已经在（2）中讨论过了，仍然可以分为3种情况讨论

a. 若 $0<\xi_i<1$ ，该样本落在分类超平面正确分类的一侧和分隔边界之间，函数间隔 $\hat{\gamma}^{(i)}=1 - \xi_i \in (0, 1)$

b. 若 $\xi_i=1$ ，该样本落在分类超平面上，函数间隔 $\hat{\gamma}^{(i)}=0$

c. 若 $\xi_i>1$ ，该样本落在分类超平面错误分类的一侧，函数间隔 $\hat{\gamma}^{(i)}<0$

SVM——软间隔最大化

猜你喜欢