之前一篇文章【机器学习】Linear SVM 和 LR 的联系和区别讲了线性SVM和常规LR的关系和优缺点。结果今天想研究一下Kernel logistic regression（以下简称KLR），结果发现相关的中文资料几乎没有啊，所以特来总结一下

一个模型要能用核函数形式必须满足如下两点：
$w$ 是 $x_i$ 的线性组合是使用Kernel的关键所在。
比如SVM，其最佳 $w$ 来源于 $x_i$ 的线性组合

w * = \sum i = 1 n (α i y i) x i

$w^* = \sum_{i=1}^n(\alpha_i y_i)x_i$
同时这个模型本身是线性模型也是使用Kernel的必要条件
即

y = f (w T x)

$y = f(w^Tx)$

只有满足了以上两点：其判别式才能写成

y = f (\sum i = 1 n α i x T i x) = f (\sum i = 1 n α i < x i, x >)

$y = f(\sum_{i=1}^n\alpha_i x_i^Tx) = f(\sum_{i=1}^n\alpha_i <x_i,x>)$ 进而写成核函数形式：

y = f (\sum i = 1 n α i K (x i, x))

$y = f(\sum_{i=1}^n\alpha_i K(x_i,x))$

LR本身就是一个线性判别模型，所以满足了条件2，那么它是否满足条件1呢？
证明如下：

任何L2正则化的线性模型都可以用核函数

标题就是结论，下面开始证明：

只要需要优化的目标函数如下：

$min L o s s (w) = min w \sum i = 1 n e r r o r (y i, w T x i) + λ w T w$ $\min Loss(w) = \min _w \sum_{i=1}^nerror(y_i,w^Tx_i)+\lambda w^Tw$
即优化的目标是一个广义线性损失函数（这里指 $w$ 需要和 $x_i$ 简单做内积），同时带有一个 $w^Tw$ 的L2正则。
那么：最优的 $w^*$ 就能表示为 $x_i$ 的线性组合

证明如下：
假设最优解 $w^*$ 存在，那么把 $w^*$ 分成两个部分，一个平行于 $x_i$ 的线性组合 $\sum_{i=1}^n\alpha_ix_i$ 部分 $w_{||}$ ，另一个是垂直于其线性组合的部分 $w_\perp$ 。即：
$w^* = w_{||}+w_\perp$
带入到上面的 $Loss(w)$ 目标函数中得到：
对于error部分：

e r r o r (y i, (w | | + w ⊥) T x i)

$error(y_i,( w_{||}+w_\perp)^Tx_i)$
因为

w⊥ $w_\perp$ 部分也垂直于所有的

xi $x_i$ 所以，error部分就等同于：

e r r o r (y i, w T | | x i)

$error(y_i, w_{||}^Tx_i)$
对于正则化部分：

w T w = (w | | + w ⊥) T (w | | + w ⊥) = w T | | w | | + 2 * w T | | w ⊥ + w T ⊥ w ⊥ = w T | | w | | + w T ⊥ w ⊥

$w^Tw = (w_{||}+w_\perp)^T(w_{||}+w_\perp) = w_{||}^Tw_{||}+2*w_{||}^Tw_\perp +w_\perp^Tw_\perp = w_{||}^Tw_{||}+w_\perp^Tw_\perp$
所以此时的

Loss(w∗) $Loss(w^*)$ 目标函数为：

L o s s (w *) = \sum i = 1 n e r r o r (y i, w T x i) + λ w T w

$Loss(w^*) = \sum_{i=1}^nerror(y_i,w^Tx_i)+\lambda w^Tw$

= \sum i = 1 n e r r o r (y i, w T | | x i) + λ (w T | | w | | + w T ⊥ w ⊥)

$= \sum_{i=1}^n error(y_i, w_{||}^Tx_i)+\lambda(w_{||}^Tw_{||}+w_\perp^Tw_\perp)$

\geq \sum i = 1 n e r r o r (y i, w T | | x i) + λ w T | | w | |

$\ge \sum_{i=1}^n error(y_i, w_{||}^Tx_i)+\lambda w_{||}^Tw_{||}$

= L o s s (w | |)

$= Loss(w_{||})$
因为已经假设了

w∗ $w^*$ 是最优解，即使得

Loss(w) $Loss(w)$ 最小的解，而上面又证明了

L o s s (w *) \geq L o s s (w | |)

$Loss(w^*) \ge Loss(w_{||})$
所以只有取得等号的时候才能满足题意，而只有当

w⊥=0⃗ $w_\perp = \vec 0$ 时才能取得等号
所以证得：

w * = w ⊥

$w^* = w_\perp$
所以说明其最优的

w∗ $w^*$ 可以由每个数据集线性表示出来，即

w * = \sum i = 1 n α i x i

$w^* =\sum_{i=1}^n\alpha_i x_i$

Kernel logistic regression(KLR)推导

既然上面已经推导了

w * = \sum i = 1 n α i x i

$w^* =\sum_{i=1}^n\alpha_i x_i$
那么怎么去求里面的参数

αi $\alpha_i$ 呢？
那就直接带入到

Loss(w) $Loss(w)$ 中就好，这样Loss(w)就变成了

α $\alpha$ 的函数：

L o s s (α) = min α \sum i = 1 n e r r o r (y i, (\sum j = 1 n α j x j) T x i) + λ (\sum i = 1 n α i x i) T (\sum i = 1 n α i x i)

$Loss(\alpha) = \min _\alpha \sum_{i=1}^nerror(y_i,(\sum_{j=1}^n\alpha_j x_j)^Tx_i)+\lambda (\sum_{i=1}^n\alpha_i x_i)^T(\sum_{i=1}^n\alpha_i x_i)$

= min α \sum i = 1 n e r r o r (y i, \sum j = 1 n α j < x j, x i >) + λ \sum i = 1 n \sum j = 1 n α i α j < x i, x j >

$= \min _\alpha \sum_{i=1}^nerror(y_i,\sum_{j=1}^n\alpha_j <x_j,x_i>)+\lambda \sum_{i=1}^n\sum_{j=1}^n\alpha_i \alpha_j<x_i,x_j>$
有了向量内积，就可以转化成为核函数：

L o s s (α) = min α \sum i = 1 n e r r o r (y i, \sum j = 1 n α j K (x j, x i)) + λ \sum i = 1 n \sum j = 1 n α i α j K (x i, x j)

$Loss(\alpha) = \min _\alpha \sum_{i=1}^nerror(y_i,\sum_{j=1}^n\alpha_j K(x_j,x_i))+\lambda \sum_{i=1}^n\sum_{j=1}^n\alpha_i \alpha_jK(x_i,x_j)$

对于 logistic regression来说，其损失函数：

e r r o r (y i, w x i) = log (1 + exp (- y i w T x i))

$error(y_i,wx_i) = \log (1+\exp(-y_iw^Tx_i))$
所以：

L o s s (α) = min α \sum i = 1 n log (1 + exp (- y i \sum j = 1 n α j K (x j, x i))) + λ \sum i = 1 n \sum j = 1 n α i α j K (x i, x j)

$Loss(\alpha) = \min _\alpha \sum_{i=1}^n \log (1+\exp(-y_i\sum_{j=1}^n\alpha_j K(x_j,x_i)))+\lambda \sum_{i=1}^n\sum_{j=1}^n\alpha_i \alpha_jK(x_i,x_j)$
所以需要优化的目标就出来了，用正常的优化方法就好（比如SGD），而且它没有约束。

另一个角度来看Kernel损失函数

L o s s (α ⃗) = min α \sum i = 1 n e r r o r (y i, \sum j = 1 n α j K (x j, x i)) + λ \sum i = 1 n \sum j = 1 n α i α j K (x i, x j)

$Loss(\vec \alpha) = \min _\alpha \sum_{i=1}^nerror(y_i,\sum_{j=1}^n\alpha_j K(x_j,x_i))+\lambda \sum_{i=1}^n\sum_{j=1}^n\alpha_i \alpha_jK(x_i,x_j)$

看前半部分：

e r r o r (y i, \sum j = 1 n K (x j, x i) α j)

$error(y_i,\sum_{j=1}^nK(x_j,x_i)\alpha_j )$
这部分可以看成参数向量

α⃗ =(α1,α2,⋯,αn) $\vec \alpha = (\alpha_1,\alpha_2,\cdots ,\alpha_n)$ 与系数向量

K⃗ (⋅,xi)=(K(x1,xi),K(x2,xi),⋯,K(xn,xi)) $\vec K(\cdot,x_i) = (K(x_1,x_i),K(x_2,x_i),\cdots ,K(x_n,x_i))$ 两个向量的内积。
再看后半部分：

\sum i = 1 n \sum j = 1 n α i α j K (x i, x j) = α ⃗ T K α ⃗

$\sum_{i=1}^n\sum_{j=1}^n\alpha_i \alpha_jK(x_i,x_j)= \vec \alpha^T K \vec \alpha$
其中

K $K$ 为kernel矩阵，矩阵的第

i $i$ 行

j $j$ 列

Kij=K(xi,xj) $K_{ij} = K(x_i,x_j)$
所以这个

Loss(α⃗ ) $Loss(\vec \alpha)$ 可以化为：

L o s s (α ⃗) = min α \sum i = 1 n e r r o r (y i, α ⃗ T K ⃗ (\cdot, x i)) + λ α ⃗ T K α ⃗

$Loss(\vec \alpha) =\min _\alpha \sum_{i=1}^n error(y_i,\vec \alpha^T\vec K(\cdot,x_i)) +\lambda \vec \alpha^T K \vec \alpha$
所以可以把

α⃗ $\vec \alpha$ 看成之前的

w⃗ $\vec w$ ，所以新的可以看成关于

α⃗ $\vec \alpha$ 的线性模型.
可以这么看损失函数：
1. 第一部分

α⃗ TK⃗ (⋅,xi) $\vec \alpha^T\vec K(\cdot,x_i)$ 看成之前的线性内积
2. 第二部分

α⃗ TKα⃗ $\vec \alpha^T K \vec \alpha$ 看成

α⃗ $\vec \alpha$ 的正则化项。

二次型 $\vec \alpha^T K \vec \alpha$

这里额外说一下二次型 $\vec \alpha^T K \vec \alpha$
常规的 $\vec \alpha^T\vec \alpha$ 可以看成正常的欧式距离，而 $\vec \alpha^T K \vec \alpha$ 可以看成 $\vec \alpha$ 关于 $K$ 的距离。
因为 $K$ 是一个对称矩阵，所以任何一个对称矩阵都可以化成

K = P T A P

$K = P^TAP$
其中

A $A$ 矩阵是一个对角矩阵，如果

K $K$ 还是一个正定矩阵的话，那么

P $P$ 可以是一个单位正交矩阵【相当于其特征向量组成的矩阵】
所以二次型化为：

α ⃗ T K α ⃗ = (P α) T A (P α)

$\vec \alpha^T K \vec \alpha = (P\alpha)^TA(P\alpha)$
可以看成先将

α⃗ $\vec \alpha$ 做旋转，然后各个分量做伸缩之后的距离。

KLR和SVM的对比

既然加核之后，KLR和SVM都可以用于多分类，那么它们的不同点在什么地方呢？

KLR的优势：
1. KLR能够提供属于某一类的概率，而SVM只能判定属于某一类
2. KLR自带能够扩展到多分类问题方法，而SVM虽然也可以但是都不太理想

虽然上面说了这么多关于KLR的好处，那么为什么不见有人用呢， SVM的优势有哪些？
KLR计算复杂度实在是太高了，因为其几乎每一个 $\alpha_i$ 都不为0，所以基本上要计算两两之间的 $x_i$ 的核函数，而SVM只有支持向量起作用，所以其自带稀疏性，只用计算少量的支持向量的 $\alpha_i$ 部分就好。
KLR的计算复杂度是 $O(N^3)$
SVM的计算复杂度是 $O(N^2k)$ 其中 $\alpha_i$ 不为0的个数

参考资料

Kernel logistic regression vs SVM
Kernel Logistic Regression (機器學習技法)现在才发现这门课讲的真是太好了。

【机器学习】Kernel Logestic Regression 和Kernel SVM

任何L2正则化的线性模型都可以用核函数

Kernel logistic regression(KLR)推导

另一个角度来看Kernel损失函数

二次型 $\vec \alpha^T K \vec \alpha$

KLR和SVM的对比

参考资料

猜你喜欢

【机器学习】Kernel Logestic Regression 和Kernel SVM

任何L2正则化的线性模型都可以用核函数

Kernel logistic regression(KLR)推导

另一个角度来看Kernel损失函数

二次型 α⃗ TKα⃗ \vec \alpha^T K \vec \alpha

KLR和SVM的对比

参考资料

猜你喜欢

二次型 $\vec \alpha^T K \vec \alpha$