文章目录

PRML第七之稀疏核机稀疏核机
最⼤边缘分类器

重叠类分布
多类SVM
回归问题的SVM

相关向量机

⽤于回归的RVM

PRML第七之稀疏核机稀疏核机

在前⼀章中，我们研究了许多基于⾮线性核的学习算法。这种算法的⼀个最⼤的局限性

核函数k(xn, xm)必须对所有可能的训练点对xn和xm进⾏求值
这在训练阶段的计算上是不可⾏的，并且会使得对新的数据点进⾏预测时也会花费过多的时间。

本章中，我们会看到具有稀疏（sparse）解的基于核的算法，从⽽对新数据的预测只依赖于在训练数据点的⼀个⼦集上计算的核函数

⾸先，我们详细讨论⽀持向量机（support vector machine）（SVM）⽀持向量机的⼀个重要性质是模型参数的确定对应于⼀个 凸最优化 问题,因此许多局部解也是全局最优解。

最⼤边缘分类器

我们回到使⽤线性模型的⼆分类问题。线性模型的形式为
$y ( \boldsymbol { x } ) = \boldsymbol { w } ^ { T } \boldsymbol { \phi } ( \boldsymbol { x } ) + b$

我们会简要介绍使⽤核函数表达的对偶形式，这避免了显式地在特征空间中进⾏计算。

我们假设训练数据集在特征空间中是线性可分的，存在⾄少⼀个参数w和b的选择⽅式，使得对于tn = +1的点，函数（7.1）都满⾜y(xn) > 0，对于tn = −1的点，都有y(xn) < 0，从⽽对于所有训练数据点，都有 $t _ { n } y \left( \boldsymbol { x } _ { n } \right) > 0$ 。我们应该尝试寻找泛化错误最⼩的那个解。这时候引入

边缘（margin）的概念，这个概念被定义为决策边界与任意样本之间的最⼩距离

在⽀持向量机中，决策边界被选为使边缘最⼤化的那个决策边界。点xn距离决策⾯的距离为
$\frac { t _ { n } y \left( \boldsymbol { x } _ { n } \right) } { \| \boldsymbol { w } \| } = \frac { t _ { n } \left( \boldsymbol { w } ^ { T } \boldsymbol { \phi } \left( \boldsymbol { x } _ { n } \right) + b \right) } { \| \boldsymbol { w } \| }$

最⼤边缘解可以通过下式得到
$\underset { \boldsymbol { w } , b } { \arg \max } \left\{ \frac { 1 } { \| \boldsymbol { w } \| } \min _ { n } \left[ t _ { n } \left( \boldsymbol { w } ^ { T } \boldsymbol { \phi } \left( \boldsymbol { x } _ { n } \right) + b \right) \right] \right\}$

我们注意到如果我们进⾏重新标度w → κw以及b → κb，那么任意点xn距离决策⾯的距离 $\frac { t _ { n } y \left( \boldsymbol { x } _ { n } \right) } { \| \boldsymbol { w } \| }$ 不会发⽣改变。为了简单，我们就通过缩放一定能够找到一个w使得（这样只用讨论分母w就行啦）
$t _ { n } \left( \boldsymbol { w } ^ { T } \boldsymbol { \phi } \left( \boldsymbol { x } _ { n } \right) + b \right) = 1$

所有的数据点会满⾜限制
$t \left( \boldsymbol { w } ^ { T } \boldsymbol { \phi } \left( \boldsymbol { x } _ { n } \right) + b \right) \geq 1 , \quad n = 1 , \ldots , N$

上式取得等号的数据点，我们说限制被激活（active），⼀旦边缘被最⼤化，会有⾄少两个激活的限制。就是支持向量嘛，所以这个时候是不是就只用讨论分母w了，最优化问题就简化为了最⼤化 $∥w∥^{−1}$ ，这等价于最⼩化 $∥w∥^2$ ，因此我们要在限制条件（上式）下，求解最优化问题。
$\underset { \boldsymbol { w } , b } { \arg \min } \frac { 1 } { 2 } \| \boldsymbol { w } \| ^ { 2 }$

了解决这个限制的最优化问题，我们引⼊拉格朗⽇乘数 $a_n ≥ 0$ 。公式（7.5）中的每个限制条件都对应着⼀个乘数an。从⽽可得下⾯的拉格朗⽇函数
$L ( \boldsymbol { w } , b , \boldsymbol { a } ) = \frac { 1 } { 2 } \| \boldsymbol { w } \| ^ { 2 } - \sum _ { m = 1 } ^ { N } a _ { n } \left\{ t _ { n } \left( \boldsymbol { w } ^ { T } \boldsymbol { \phi } \left( \boldsymbol { x } _ { n } \right) + b \right) - 1 \right\}$

注意拉格朗⽇乘数项前⾯的负号，因为我们要关于w和b最⼩化，关于a最⼤化。(不是很懂？？？)，令L(w, b, a)关于w和b的导数等于零，我们得到了下⾯两个条件
$\begin{aligned} \boldsymbol { w } = & \sum _ { n = 1 } ^ { N } a _ { n } t _ { n } \boldsymbol { \phi } \left( \boldsymbol { x } _ { n } \right) \\ 0 & = \sum _ { n = 1 } ^ { N } a _ { n } t _ { n } \end{aligned}$

使⽤这两个条件从L(w, b, a)中消去w和b，就得到了最⼤化边缘问题的对偶表⽰（dual representation），其中我们要关于a最⼤化
$\begin{array} { c } { \tilde { L } ( \boldsymbol { a } ) = \sum _ { n = 1 } ^ { N } a _ { n } - \frac { 1 } { 2 } \sum _ { n = 1 } ^ { N } \sum _ { m = 1 } ^ { N } a _ { n } a _ { m } t _ { n } t _ { m } k \left( \boldsymbol { x } _ { n } , \boldsymbol { x } _ { m } \right) } \\ { a _ { n } \geq 0 , \quad n = 1 , \ldots , N } \\ { \sum _ { n = 1 } ^ { N } a _ { n } t _ { n } = 0 } \end{array}$

通过以上式子消除w和b并去符号，则新式子
$\begin{array} { c } { \tilde { L } ( \boldsymbol { a } ) = \sum _ { n = 1 } ^ { N } a _ { n } - \frac { 1 } { 2 } \sum _ { n = 1 } ^ { N } \sum _ { m = 1 } ^ { N } a _ { n } a _ { m } t _ { n } t _ { m } k \left( \boldsymbol { x } _ { n } , \boldsymbol { x } _ { m } \right) } \\ { a _ { n } \geq 0 , \quad n = 1 , \ldots , N } \\ { \sum _ { n = 1 } ^ { N } a _ { n } t _ { n } = 0 } \end{array}$

对于⼀组固定的基函数，其中基函数的数量M⼩于数据点的数量N，转化为对偶问题似乎没有什么好处。但是，对偶问题使得模型能够⽤核函数重新表⽰，因此最⼤边缘分类器可以被⾼效地应⽤于维数超过数据点个数的特征空间，包括⽆穷维特征空间。soga

通过使⽤上述公式消去w， y(x)可以根据参数{an}和核函数表⽰，即
$y ( \boldsymbol { x } ) = \sum _ { \mathrm { n } = 1 } ^ { N } a _ { n } t _ { n } k \left( \boldsymbol { x } , \boldsymbol { x } _ { n } \right) + b$

对于每个数据点，要么an = 0，要么 $t_ny(x_n) = 1$ 。任何使得an = 0的数据点都不会出现在上述公式的求和式中，因此对新数据点的预测没有作⽤。剩下的数据点被称为⽀持向量
（support vector）。⼀旦模型被训练完毕，相当多的数据点都可以被丢弃，只有⽀持向量被保留。

注意到⽀持向量xn满⾜ $t_ny(x_n) = 1$ $t_ny(x_n) = 1$ ，⾸先乘以tn，使⽤ $t^2_n = 1$ 的性质，然后对于所有的⽀持向量，整理⽅程，解出b
$t _ { n } \left( \sum _ { m \in \mathcal { S } } a _ { m } t _ { m } k \left( \boldsymbol { x } _ { n } , \boldsymbol { x } _ { m } \right) + b \right) = 1$

$b = \frac { 1 } { N _ { \mathcal { S } } } \sum _ { n \in \mathcal { S } } \left( t _ { n } - \sum _ { m \in \mathcal { S } } a _ { m } t _ { m } k \left( \boldsymbol { x } _ { n } , \boldsymbol { x } _ { m } \right) \right)$

这个例⼦也从⼏何⾓度说明了SVM中稀疏性的来源。最⼤边缘超平⾯由⽀持向量的位置定义，其他数据点可以⾃由移动（只要仍然在边缘区域之外）⽽不改变决策边界，因此解与这些数据点⽆关。

对于接下来的模型⽐较，我们可以将最⼤边缘分类器⽤带有简单⼆次正则化项的最⼩化误差
函数表⽰，形式为
$\sum _ { n = 1 } ^ { N } E _ { \infty } \left( y \left( \boldsymbol { x } _ { n } \right) t _ { n } - 1 \right) + \lambda \| \boldsymbol { w } \| ^ { 2 }$

重叠类分布

在实际中，类条件分布可能重叠，这种情况下对训练数据的精确划分会导致较差的泛化能⼒。

现在使得数据点允许在边缘边界的“错误侧”，但是增加⼀个惩罚项，这个惩罚项随着与决策边界的距离的增⼤⽽增⼤。对于接下来的最优化问题，令这个惩罚项是距离的线性函数⽐较⽅便。为了完成这⼀点，我们引⼊松弛变量（slack variable），每个训练数据点都有⼀个松
弛变量。

对于位于正确的边缘边界内部的点或者边， ξn = 0，对于其他点， ξn = |tn − y(xn)|，因此，对于位于决策边界y(xn) = 0上的点， ξn = 1，并且ξn > 1的点就是被误分类的点。限制条件变成了
$t _ { n } y \left( \boldsymbol { x } _ { n } \right) \geq 1 - \xi _ { n } , \quad n = 1 , \ldots , N$

现在我们的⽬标是最⼤化边缘，同时以⼀种⽐较柔和的⽅式惩罚位于边缘边界错误⼀侧的
点。于是，我们最⼩化
$C \sum _ { n = 1 } ^ { N } \xi _ { n } + \frac { 1 } { 2 } \| \boldsymbol { w } \| ^ { 2 }$

其中参数C > 0控制了松弛变量惩罚与边缘之间的折中。参数C类似于（作⽤相反的）正则化系数，因为它控制了最⼩化训练误差与模型复杂度之间的折中。在C → ∞的期限情况下，我们就回到了之前讨论过的⽤于线性可分数据的⽀持向量机。

对应的拉格朗⽇函数
$L ( \boldsymbol { w } , b , \boldsymbol { \xi } , \boldsymbol { a } , \boldsymbol { \mu } ) = \frac { 1 } { 2 } \| \boldsymbol { w } \| ^ { 2 } + C \sum _ { n = 1 } ^ { N } \xi _ { n } - \sum _ { n = 1 } ^ { N } a _ { n } \left\{ t _ { n } y \left( \boldsymbol { x } _ { n } \right) - 1 + \xi _ { n } \right\} - \sum _ { n = 1 } ^ { N } \mu _ { n } \xi _ { n }$

KKT条件
$\begin{array} { c } { a _ { n } \geq 0 } \\ { t _ { n } y \left( \boldsymbol { x } _ { n } \right) - 1 + \xi _ { n } \geq 0 } \\ { a _ { n } \left( t _ { n } y \left( \boldsymbol { x } _ { n } \right) - 1 + \xi _ { n } \right) = 0 } \\ { \mu _ { n } \geq 0 } \\ { \xi _ { n } \geq 0 } \\ { \mu _ { n } \xi _ { n } = 0 } \end{array}$

对参数求导
$\frac { \partial L } { \partial \boldsymbol { w } } = 0 \Rightarrow \boldsymbol { w } = \sum _ { n = 1 } ^ { N } a _ { n } t _ { n } \boldsymbol { \phi } \left( \boldsymbol { x } _ { n } \right)$

$\begin{aligned} \frac { \partial L } { \partial b } & = 0 \Rightarrow \sum _ { n = 1 } ^ { N } a _ { n } t _ { n } = 0 \\ \frac { \partial L } { \partial \xi _ { n } } & = 0 \Rightarrow a _ { n } = C - \mu _ { n } \end{aligned}$

从拉格朗⽇函数中消去w, b和{ξn}，我们得到了下⾯形式的拉格朗⽇函数，这个公式和之前的情况是一毛一样的，只是限制条件改变了！求其最大值
$\tilde { L } ( \boldsymbol { a } ) = \sum _ { n = 1 } ^ { N } a _ { n } - \frac { 1 } { 2 } \sum _ { n = 1 } ^ { N } \sum _ { m = 1 } ^ { N } a _ { n } a _ { m } t _ { n } t _ { m } k \left( \boldsymbol { x } _ { n } , \boldsymbol { x } _ { m } \right)$

满足
$\begin{array} { c } { 0 \leq a _ { n } \leq C } \\ { \sum _ { n = 1 } ^ { N } a _ { n } t _ { n } = 0 } \end{array}$

与之前⼀样，对于数据点的⼀个⼦集，有an = 0，在这种情况下这些数据点对于预测模型（7.13）没有贡献。剩余的数据点组成了⽀持向量。这些数据点满⾜an > 0，因此根据公式（7.25），它们必须满⾜
$t _ { n } y \left( \boldsymbol { x } _ { n } \right) = 1 - \xi _ { n }$

如果an < C，那么公式（7.31）表明µn > 0，根据公式（7.28），这要求ξn = 0，从⽽这些点位于边缘上，an = C的点位于边缘内部，并且如果ξn ≤ 1则被正确分类，如果ξn > 1则分类错
误。为了确定公式（7.1）中的参数b，我们注意到0 < an < C的⽀持向量满⾜ξn = 0即tny(xn) = 1，因此就满⾜
$t _ { n } \left( \sum _ { m \in \mathcal { S } } a _ { m } t _ { m } k \left( \boldsymbol { x } _ { n } , \boldsymbol { x } _ { m } \right) + b \right) = 1$

$b = \frac { 1 } { N _ { \mathcal { M } } } \sum _ { n \in \mathcal { M } } \left( t _ { n } - \sum _ { m \in \mathcal { S } } a _ { m } t _ { m } k \left( \boldsymbol { x } _ { n } , \boldsymbol { x } _ { m } \right) \right)$

多类SVM

1对剩余，单独训练K个分类器，会遇到类别不平衡问题
修改了⽬标值，使得正例类别的⽬标值为+1，负例类别的⽬标值为 $- \frac { 1 } { K - 1 }$
两两类别训练，训练 $\frac { K ( K - 1 ) } { 2 }$ 个不同的⼆分类SVM，然后进行投票
通过将每对分类器组织成有向⽆环图，这就产⽣了DAGSVM（Platt et al., 2000）。对于K个类别， DAGSVM共有 $\frac { K ( K - 1 ) } { 2 }$ 个分类器。每次对新的测试点分类时，只需要K − 1对分类器进⾏计算。选定的分类器是根据遍历图的路径确定的。

回归问题的SVM

现在将⽀持向量机推⼴到回归问题，同时保持它的**稀疏性。**在简单的线性回归模型中，
$\frac { 1 } { 2 } \sum _ { n = 1 } ^ { N } \left\{ y _ { n } - t _ { n } \right\} ^ { 2 } + \frac { \lambda } { 2 } \| \boldsymbol { w } \| ^ { 2 }$

为了得到稀疏解，⼆次误差函数被替换为⼀个ϵ-不敏感误差函数，如果预测y(x)和⽬标t之间的差的绝对值⼩于ϵ，那么这个误差函数给出的误差等于零，其中ϵ > 0。 ϵ-不敏感误差函数的⼀个简单的例⼦是
$E _ { \epsilon } ( y ( \mathbf { x } ) - t ) = \left\{ \begin{array} { l l } { 0 , } & { \text { if } | y ( \mathbf { x } ) - t | < \epsilon } \\ { | y ( \mathbf { x } ) - t | - \epsilon , } & { \text { otherwise } } \end{array} \right.$

于是我们最⼩化正则化的误差函数，形式为
$C \sum _ { n = 1 } ^ { N } E _ { \epsilon } \left( y ( \boldsymbol { x } ) - t _ { n } \right) + \frac { 1 } { 2 } \| \boldsymbol { w } \| ^ { 2 }$

对于每个数据点xn，我们现在需要两个松弛变量ξn ≥ 0和ξ!n ≥ 0，其中ξn > 0对应于tn > y(xn) + ϵ的数据点， ξ!> 0对应于tn < y(xn) − ϵ的数据点，如图7.7所⽰。⽬标点位于ϵ-管道内的条件是yn − ϵ ≤ tn ≤ yn + ϵ，其中yn = y(xn)。引⼊松弛变量使得数据点能够位于管道之外，只要松弛变量不为零即可。

持向量回归的误差函数就可以写成
$C \sum _ { n = 1 } ^ { N } \left( \xi _ { n } + \widehat { \xi } _ { n } \right) + \frac { 1 } { 2 } \| \boldsymbol { w } \| ^ { 2 }$

限制条件
$\begin{array} { l } { t _ { n } \leq y \left( \boldsymbol { x } _ { n } \right) + \epsilon + \xi _ { n } } \\ { t _ { n } \geq y \left( \boldsymbol { x } _ { n } \right) - \epsilon - \widehat { \xi } _ { n } } \end{array}$

$\xi _ { n } \geqslant 0 \text { and } \widehat { \xi } _ { n } \geqslant 0$

然后最优化拉格朗⽇函数
$\begin{array} { c } { L = C \sum _ { n = 1 } ^ { N } \left( \xi _ { n } + \widehat { \xi } _ { n } \right) + \frac { 1 } { 2 } \| \boldsymbol { w } \| ^ { 2 } - \sum _ { n = 1 } ^ { N } \left( \mu _ { n } \xi _ { n } + \widehat { \mu } _ { n } \widehat { \xi } _ { n } \right) } \\ { - \sum _ { n = 1 } ^ { N } a _ { n } \left( \epsilon + \xi _ { n } + y _ { n } - t _ { n } \right) - \sum _ { n = 1 } ^ { N } \widehat { a } _ { n } \left( \epsilon + \widehat { \xi } _ { n } - y _ { n } + t _ { n } \right) } \end{array}$