秦刚刚的机器学习成长之路之高斯核函数为什么能将原始空间映射为无穷维空间(核函数)

写作背景：很多时候数据在低维空间的时候很难将它们区别开来，所以需要借助核函数将其映射到高维空间中，例如谱聚类，SVM等算法。但是一开始，这其中的原理很多人不知道(例如我啦，哈哈哈)，因此有了这篇简单的文章^_

1.核函数的作用及意义

低维计算，高维表现

2.高斯核函数为什么能将原始空间映射为无穷维空间？

思路：从泰勒展开式的角度来解释，如下：

$e^x$ 的泰勒展开式为：
$e^x = 1+x+\frac{x^2}{2!}+\frac{x^3}{3!}+\cdots +\frac{x^n}{n!} \tag 1$
可以看到：式(1)是一个无穷多项的式子。

而高斯核函数为：
$k(x_1,x_2) = e^{(-\frac{||x_1-x_2||^2}{2\sigma^2})} \tag 2$

将泰勒展开式带入式(2)中，可以得到一个无穷维度的映射，如下：
$k(x_1,x_2) = 1+(-\frac{||x_1-x_2||^2}{2\sigma^2})+\frac{(-\frac{||x_1-x_2||^2}{2\sigma^2})^2}{2!}+\frac{(-\frac{||x_1-x_2||^2}{2\sigma^2})^3}{3!}+\frac{(-\frac{||x_1-x_2||^2}{2\sigma^2})^n}{n!} \tag 3$
在式(3)中，如果 $\sigma$ 选得很大的话，高次特征上的权值将会衰减得非常快，此时的式(3)实际上相当于一个低维的子空间；
如果 $\sigma$ 选得很小的话，就可将原始空间映射到任意高维的空间，即可以将任意的数据映射为线性可分。

另外，将式(3)进一步展开有：
$k(x_1,x_2) =e^{(-\frac{||x_1-x_2||^2}{2\sigma^2})} \\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ = e^{-\frac{(x_1-x_2)^2}{2\sigma^2}} \\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ = e^{-\frac{x_1^2+x_2^2-2x_1x_2}{2\sigma^2}} \\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ = e^{{-\frac{x_1^2+x_2^2}{2\sigma^2}}{\frac{x_1x_2}{\sigma^2}}} \\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ = e^{-\frac{x_1^2+x_2^2}{2\sigma^2}}\cdot(1+\frac{1}{\sigma^2}\frac{x_1x_2}{1!}+(\frac{1}{\sigma^2})^2\frac{(x_1x_2)^2}{2!}+(\frac{1}{\sigma^2})^3\frac{(x_1x_2)^3}{3!}+\cdots+(\frac{1}{\sigma^2})^n\frac{(x_1x_2)^n}{n!}) \\ = e^{-\frac{x_1^2+x_2^2}{2\sigma^2}}\cdot(1\cdot1+\frac{1}{1!}\frac{x_1}{\sigma}\frac{x_2}{\sigma}+\frac{1}{2!}\frac{x_1^2}{\sigma^2}\frac{x_2^2}{\sigma^2}+\frac{1}{3!}\frac{x_1^3}{\sigma^3}\frac{x_2^3}{\sigma^3}+\dots+\frac{1}{n!}\frac{x_1^n}{\sigma^n}\frac{x_2^n}{\sigma^n}) \\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ = \phi(x_1)^T\cdot\phi(x_2) \\\tag 4$

其中， $\phi(x)=e^{-\frac{x^2}{2\sigma^2}}{(1,\sqrt{\frac{1}{1!}}\frac{x}{\sigma},\sqrt{\frac{1}{2!}}\frac{x^2}{\sigma^2},\cdots,\sqrt{\frac{1}{n!}}\frac{x^n}{\sigma^n})}$ 。