核心思想
如果不能够建立线性模型,我们就把现在的这一套方法完完全全的搬到另一维空间,这个空间的维数不一定比输入空间的维数要大,只要能够保证用线性模型解决就可以,
下图中设原空间
x=(x(1),x(2))T
, 新空间
z=(z(1),z(2))T
,
原空间到新空间的映射为
z=ϕ(x)=((x(1))2,(x(2))2)T
原空间中分离超平面为
w1(x(1))2+w2(x(2))2+b=0
而新空间中分离超平面为
w1z(1)+w2z(2)+b=0
因而原空间的非线性可分问题变成了新空间中线性可分问题,
定义
设
X
为输入空间,
H
为特征空间,如果存在一个从X到H的映射
ϕ(x):X→H
使得对于所有的
x,z∈X
, 函数
K(x,z)
满足
K(x,z)=ϕ(x)ϕ(z)
则称
K(x,z)
为核函数, 有时对于某些情况来说,
K(x,z)
很容易得到,但是
ϕ(x),ϕ(z)
却很难得到,而且特别注意的是,一个核函数可能对应多个映射函数,因而知道了核函数是没有办法确定映射函数到底是什么样的,
RBF核
那么如果我们不能确定我们自己定义的高维空间中模型是否是线性的,可以利用下面的核函数,这个核函数能够把低维空间映射到无穷高维空间,这就是著名的RBF核 ,
K(x,x′)=exp(−∥x−x′∥22σ2)
下面证明为什么这个核函数能够把特征映射到无穷维,
首先有如下公式,
∥x−x′∥2=xTx+(x′)Tx′−2xTx′
而核函数公式展开得
K(x,x′)=exp(−xTx2σ2)∗exp(−xTx′2σ2)∗exp(−(x′)Tx′2σ2)
上述公式中间项可以展开得
exp(−xTx′2σ2)=∑n=0+∞(xTx′/σ2)nn!=∑n=0+∞(xTx′)nσ2nn!=∑n=0+∞Φn(x)TΦn(x′)
其中
Φ(x)=xnσnn−−√!
而公式进一步简化得
exp(−xTx′2σ2)=∑n=0+∞Φn(x)TΦn(x′)=ΨT(x)Ψ(x′)(1)
其中
ΨT(x)=[ΦT0(x),ΦT1(x),ΦT2(x),...]
因而原始式子为
K(x,x′)=exp(−xTx2σ2)∗ΨT(x)Ψ(x′)∗exp(−(x′)Tx′2σ2)
=Ω(xT)Ω(x′)
其中
Ω(x)=exp(−xTx2σ2)∗Ψ(x)
通过(1)式可以看出, 经过RBF核映射之后,特征被映射到了无穷维,
通过上面的式子就可以清晰的看出,以RBF核为例,虽然特征被映射到了无穷维,似乎在高维空间没有办法应付,但是却能够在低维空间轻而易举的把最后的结果计算出来,这就是核技巧所带来的好处,
核函数的判定
通常所说的核函数都是正定核,而正定核的定义如下
设
X⊂Rn
,
K(x,z)
为定义在
X×X
的对称函数,那么对于任意
xi∈X,i=1,2,...,N
,都有
K(x,z)
对应的Gram矩阵
K=[K(xi,xj)]N×N
是半正定矩阵,因而称
K(x,z)
为正定核,
粗略证明如下,
如果有
K(x,z)=ϕ(x)ϕ(z)
, 对于任意的训练集,构造核矩阵
[Kij]=[K(xi,xj)]N×N
,有
∑i,j=1NcicjK(xi,xj)
=∑i,j=1Ncicj(ϕ(xi)⋅ϕ(xj))
=(∑iciϕ(xi))⋅(∑jcjϕ(xj))
=∥∥∥∑iciϕ(xi)∥∥∥2≥0
表明核函数对应的核矩阵是半正定的, 而证明一个核是正定核确实不是很容易,因为要遍历所有的有限集, 而且上述定理不是充分必要条件,即如果一个函数对应的Gram矩阵是半正定的,那么这个函数一定是一个正定核(核函数的一种类型),但是如果不满足这个条件也可以是核函数,