经验风险最小化:
minf∈F1N∑Ni=1L(yi,f(xi))
结构风险最小化:
minf∈F1N∑Ni=1L(yi,f(xi))+λJ(f)
李航博士《统计学习方法》中第一章第九页中有两个论断
1 当模型是条件概率分布,损失函数是对数损失函数时,经验风险最小化就等价于极大似然估计。
2 当模型是条件概率分布、损失函数是对数损失函数、模型复杂度由模型的先验概率表示时,结构风险最小化就等价于最大后验概率估计
证明论断1:
极大似然估计:对于观测的随机变量D,其总体分布为
P(D;θ)
(这里
θ
是一个未知的参数,是一个常量而不是变量)
S为抽样得到的样本,
S=(s1,s2,...,sN)
,样本是独立同分布得到的,因此样本的分布为
L(θ)=∏Ni=1P(si;θ)
当
S=(s1,s2,...,sN)
确定,则上式可以看做是
θ
的函数。
这个函数反映了在观察结果已知的情况下,
θ
的“似然程度”,因此上式被叫做似然函数。用似然程度最大的那个
θ∗
去做
θ
的估计,这种估计方法叫做”极大似然估计”。取对数,极大平均似然函数为:
maxlogL(θ)=max1N∑Ni=1logP(si;θ)
上式等价于
min−logL(θ)=min1N∑Ni=1−logP(si;θ)
在统计学习中,S就是样本,
si=(xi,yi).xi为特征,yi为标签
当模型是条件概率分布时,则
P(si;θ)=P(yi|xi;θ)
min−logL(θ)=min1N∑Ni=1−logP(yi|xi;θ)−−−−−(1)
当损失函数是对数损失函数(
L(Y,P(Y|X))=−logP(Y|X)
),则最小化经验风险的公式为
minf∈F1N∑Ni=1L(yi,f(xi))=minf∈F1N∑Ni=1L(yi,p(yi|xi;θ))=minf∈F1N∑Ni=1−logp(yi|xi;θ)—–(2)
对比(1)(2)两个公式,论断1得证。
证明论断2:
极大似然估计将
θ
看做是一个确定但未知的常量,而贝叶斯学派则认为
θ
可以看做一个随机变量,从这个视角出发可得到条件概率
P(θ|S)
因此利用贝叶斯公式得到
P(θ|S)=P(S|θ)P(θ)P(S)
最大后验概率估计是要最大化
P(θ|S)
这个后验概率,因此
maxP(θ|S)=maxP(S|θ)P(θ)
上式与极大似然估计相比,只多了个
P(θ)
,左边和极大似然估计一样,因此对左边取对数处理求平均似然最大
max1N∑Ni=1logP(si|θ)+logP(θ)
当模型是条件概率分布时,则
P(si;θ)=P(yi|xi;θ)
因此,
max1N∑Ni=1logP(yi|xi;θ)+logP(θ)
取负号,转换为
min1N∑Ni=1−logP(yi|xi;θ)−logP(θ)−−−−−(3)
当损失函数是对数损失函数(
L(Y,P(Y|X))=−logP(Y|X)
),模型是条件概率分布时,
结构风险最小化公式
minf∈F1N∑Ni=1L(yi,f(xi))+λJ(f)=minf∈F1N∑Ni=1−logP(yi|xi;θ)+λJ(f)—–(4)
比较公式(3)(4),则当
λJ(f)=−logP(θ)
两者等价,论断2得证。