机器学习(SVM)

SVM（二分类问题）

函数距离与几何距离

函数距离

$\hat{\gamma^i}=y^i\big(w^Tx^i+b\big)$ ，其中 $y^i \in \{-1,1\}$ , $w$ 为向量，b为实数， $\hat{\gamma^i}$ 表示第i个点到超平面的函数距离

几何距离

$\gamma^i = \frac{y^i\big(w^Tx^i+b\big)}{\lVert w\rVert}$ ，此公式表示空间中一点到超平面的距离。 $\gamma^i$ 表示第i个点到超平面的几何距离

最优间隔分类器

初始函数表达

$\begin{cases}max_{r,w,b}　\gamma \\ s.t. 　y^{i}\big(w^Tx^{i}+b\big)\geq \gamma,i=1,2\cdots,m \end{cases}$
或
$\begin{cases}max_{r,w,b}　\gamma \\ s.t. 　\gamma=\min\gamma_i,i=1,2,\cdots,m \end{cases}$
其中： $\lVert w\rVert=1$
理解：离超平面距离最小的点为 $(x^k,y^k)$ ,则求 $w,b$ 使 $y^{k}\big(w^Tx^k+b\big)$ 最大

转化方式

$s.t 　y^{i}\big(\frac{w^Tx^{i}+b}{\gamma}\big)\geq 1$
等价于
$y^{i}\big(\hat{w}^Tx^{i}+\hat{b}\big)\geq1$ 其中 $\hat{w}=\frac{w}{\gamma}$ 　 $\hat{b}=\frac{b}{\gamma}$

初始函数表达式转化为了求以下方程

$\begin{cases}min_{\hat{w},\hat{b}}\lVert {\hat{w}} \rVert \\ s.t.　y^{(i)}\big(\hat{w}^Tx^{(i)}+\hat b\big) \geq 1\end{cases}$ 　
或　
$\begin{cases} min\frac{1}{2}\lVert \hat w \rVert^2 \\ s.t.　y^{(i)}\big(\hat{w}^Tx^{(i)}+\hat b\big) \geq 1 \end{cases}$
理解：约束条件下最小化 $\lVert \hat w\rVert$

广义拉格朗日函数

1）有不等式约束的时候
$\begin{cases} min_w f\big(w\big) \\ h_i\big(w\big)=0,i=1,2\cdots,l \\ g_i\big(w\big)\leq 0,i=1,2,\cdots,k \end{cases}$
2）构建拉格朗日方程
$L\big(w,\alpha,\beta \big)=f\big(w\big)+\sum\limits_{i=1}^l\beta_ih_i(w)+\sum\limits_{i=1}^k\alpha_ig_i(w)$
3）等价于极大极小
令： $\theta_p\big(w\big)=\max\limits_{\alpha,\beta:\alpha_i\gt 0}\{f\big(w\big)+\sum\limits_{i=1}^l\beta_ih_i(w)+\sum\limits_{i=1}^k\alpha_ig_i(w)\}$
则： $\min\limits_wf(w);h_i(w)=0,g_i(w)\leq0$ 　等价于　 $\min\limits_w \theta_p(w)=\min\limits_w \max\limits_{\alpha,\beta:\alpha_i\gt0}L(w,\alpha,\beta)$
4）证明 $\max\limits_{\alpha,\beta;\alpha_i\geq0}\min\limits_ｗL(w,\alpha,\beta)\leq \min\limits_ｗ\max\limits_{\alpha,\beta;\alpha_i\geq0}L(w,\alpha,\beta)$
令 $\max\limits_{\alpha,\beta;\alpha_i\geq0}\min\limits_ｗL(w,\alpha,\beta)=L(w_0,\alpha_0,\beta_0)$
$\min\limits_ｗ\max\limits_{\alpha,\beta;\alpha_i\geq0}L(w,\alpha,\beta)=L(w_1,\alpha_1,\beta_1)$
根据上式可知：
$L(w_0,\alpha_0,\beta_0)\leq L(w,\alpha_0,\beta_0)$
$L(w_1,\alpha_1,\beta_1)\geq L(w_1,\alpha,\beta)$
推导出：
$L(w_1,\alpha_1,\beta_1)\geq L(w_1,\alpha_0,\beta_0)\geq L(w_0,\alpha_0,\beta_0)$

对偶问题

极大极小问题

$p^*=min_w\theta_p(w)$

极小极大问题(与以上问题互为对偶问题)

$\theta_D(\alpha,\beta)=\min\limits_wL(w,\alpha,\beta)$
$\max\limits_{\alpha,\beta:\alpha_i\gt0}\theta_D(\alpha,\beta)=\max\limits_{\alpha,\beta:\alpha_i\gt0}\min\limits_wL(w,\alpha,\beta)$
$d^*=\max_{\alpha,\beta:\alpha_i\gt0}\theta_D(\alpha,\beta)$

对偶问题与原始问题等价条件

满足以下条件能够使 $d^*=p^*$
1)约束条件不等式 $g$ 都是凸函数
2) 约束等式 $h$ 都是放射函数
3) 不等式严格执行
即 $g$ 与 $h$ 都为凸函数时对偶问题与原始问题等价

KKT条件（通用方法）

1） $\frac{\partial}{\partial w^*_i}L(w^*,\alpha,\beta)=0$
2） $\frac{\partial}{\partial \beta_i}L(w^*,\alpha,\beta)=0$
3） $\alpha_ig_i(w^*)=0$
4） $g_i(w^*)\leq 0$
5） $\alpha \geq 0$
6） $h_i(w^*)=0$
一般而言：KKT条件是一组解成为最优解的必要条件，当原问题是凸问题的时候，KKT条件也是一组解成为最优解的充分条件
使用KKT条件无法直接引入核函数因此SVM引入了对偶性问题(但是它能很好的解释SVM)

SVM推导

SVM问题代入拉格朗日方程

$min_{w,b} 　 \frac{1}{2}\lVert w\rVert^2$
s.t. 　 $g_i(w)=-y^i(w^Tx^i+b)+1\leq 0$
等价于
$\max_a \min_{w,b} L(w,b,a)=\frac{1}{2}\lVert w\rVert^2-\sum\limits_{i=1}^ma_i[y^i(w^Tx^i+b)-1]$
$约束条件为：a_i\gt0$

先求极小

$\frac{\partial}{\partial w}L=w-\sum\limits_{i=1}^ma_iy^ix^i=0$
$\frac{\partial}{\partial b}L=\sum\limits_{i=1}^ma_iy^i=0$
原拉格朗日方程转化为：
$L(w,b,a)=\sum\limits_{i=1}^ma_i-\frac{1}{2}\sum\limits_{i=1}^m\sum\limits_{j=1}^ma_ia_jy^iy^j<x^i,x^j>$

再求极大

原问题转化为
$\max_a　\sum\limits_{i=1}^ma_i-\frac{1}{2}\sum\limits_{i=1}^m\sum\limits_{j=1}^ma_ia_jy^iy^j<x^i,x^j>$
subject to
$a_i\geq0$
$\sum_{i=1}^ma_iy^i=0$

分类模型

方程

$f(x)=w^Tx+b=\sum a_iy^i(x^i)^Tx+b$

解释

因为只有处于边界面上的点对应的 $a_i\neq0$ ,因此说分界面只与边界面上的点有关。

坐标上升法

$\max\limits_{\alpha}W(\alpha_1,\alpha_2,\cdots,\alpha_n)$
基本思想：
每一步只求一个参数的值，即先fixed所有其他参数来使本参数让目标函数达到最优值

SMO算法(坐标上升法的一种变种)

每次选择两个变量来进行优化，即先fixed所有其他参数来使目前参数让目标函数达到最优解

核技法

回想原始问题(线性可分)
线性不可分问题可以通过空间变换使原数据集从线性不可分变为线性可分
对原问题的等价形式如下：

$\max_a　\sum\limits_{i=1}^ma_i-\frac{1}{2}\sum\limits_{i=1}^m\sum\limits_{j=1}^ma_ia_jy^iy^j<x^i,x^j>$
约束条件
$a_i\geq0$
$\sum_{i=1}^ma_iy^i=0$

对数据集进行空间变换相当于对 $<x^i,x^j>$ 进行变换，因此提出了核技法如下：

$K(X,Z)=<\phi(X),\phi(Z)>$
可以理解为两个经过空间变换后的向量的内积

核函数-1

1）对应的映射函数
$\phi(x)=[x_1x_1,x_1x_1,\cdots x_nx_n-1,x_nx_n]$
2）核函数
$K(X,Z)=(X^TZ)^2=\big(\sum\limits_{i=1}^nx_iz_i\big)\big(\sum\limits_{j=1}^nx_jz_j\big)$

核函数-2

1）对应的映射函数
$\phi(x)=[x_1x_1,\cdots,x_nx_n,\sqrt{2c}x_1,\cdots,\sqrt{2c}x_n,c]$
2）核函数
$K(X,Z)=(X^TZ+c)^2=\sum\limits_{i,j=1}^n(x_ix_j)(z_iz_j)+\sum\limits_{i=1}^n\sqrt{2c}x_i\sqrt{2c}z_i+c^2$

核函数-3(高斯核)
$K(x,z)=exp(-\frac{\lVert x-z\rVert^2}{2\delta^2})$
合法核

定义一个核矩阵K, $K_{ij}=K(x^i,x^j)$
Mercer定理
K是合法的核的充分必要条件是对于一个有限的数据集，对应的核矩阵都是对称半正定矩阵

常用的核函数
1）多项式
$K(x^i,x^j)=(1+(x^i)^Tx^j)^p$
2）高斯
$K(x^i,x^j)=exp(-\frac{\lVert x^i-x^j\rVert}{2\delta^2})$
3）sigmoid
$K(x^i,x^j)=tanh(\beta_0x^i(x^j)^T+\beta_0)$
如何选择核函数
1）一般使用高斯核线性核
2）特征数目很大，样本较少，选用线性核
3）特征数目很小，样本数目一般，选用高斯核
4）特征数目小，样本数目很大，手工添加特征变成前两种情况
5）交叉验证尝试各种核
6）高端玩家自己设计核

软间隔分类器

高空维间仍然线性不可分时
允许有数据点拥有小于1的几何间隔但要受到惩罚
$min_{w,b} 　\frac{1}{2}\lVert w\rVert^2+C\sum\limits_{i=1}^m\xi$
约束条件为：
$y^i(w^Tx^i+b)\geq1-\xi_i$
$\xi_i\geq0$

SVM性值

数学特性

凸优化问题，保证会有全局最优

模型特性

可以处理高维数据
软间隔降低过拟合
求解完成后只有少数数据起作用
灵活的选择和函数

合页损失函数

SVM的另一种理解
$Loss=\sum\limits_{i=1}^N[1-y^i(w^Tx^i+b)]_++\lambda\lVert w\rVert^2$
$[z]_+=\begin{cases} z　if　z\gt0 \\ 0\end{cases}$
可以求合页损失函数的最小值来取得最优分界面

多分类问题

现有的SVM仅支持二分类法
多分类解决

1）一对多　N个分类器
2）一对一　N(N-1)/2个分类器
3）层次支持向量机 LogN个分类器

SVM（二分类问题）

猜你喜欢