根据《统计学习方法》第6章中6.1节介绍,下面对损失函数以及参数
w的梯度下降公式的推导:
Sigmoid函数为:
g(z)=1+e−z1 给定一个样本
x,可以使用一个线性函数对自变量进行线性组合
z=w0+w1x1+w2x2+⋯+wnxn=i=0∑nwixi=wTX 根据
sigmoid函数,预测函数表达式为:
hw(x)=g=w(TX)=1+e−wTX1
P(Y=1∣X)=hw(x)
P(Y=0∣X)=1−hw(x)
P(Y∣X)=hw(x)y(1−hw(x))1−y
极大似然函数:
L(w)=i=1∏mhw(xi)iy(1−hw(xi))1−yi
logL(w)=i=1∑mlog[hw(xi)yi(1−hw(xi))1−yi]=i=1∑m[yiloghw(xi)+(1−yi)log(1−hw(xi))]
损失函数:
J(w)=−m1i=1∑m[yi⋅loghw(x)+(1−yi)log(1−hw(xi))]=−m1sumi=1m[yi⋅ln1+ewxi1+(1−yi)⋅ln1+e−wxie−wxi]=−m1sumi=1m[ln1+ewxi1+yi⋅lne−wxi1]=m1i=1∑m[−wxiyi+ln(1+ewxi)]
梯度下降
w参数的梯度为:
∂wi∂J(w)=m1i∑m[−xi,jyi+1+ewxixi,j⋅ewxi]=m1i∑mxi,j(1+e−wxi1−yi)=m1i∑m[hw(xi)−yi]xi,j
所以最后的
w参数公式为:
wj+1=wj−αi=1∑m[hw(xi)−yi]xi,j 对于随机梯度下降的
w参数公式为:
wj+1=wj−α[hw(x)−y]xj