一开始看统计学习方法上的手推LR,那个最大似然函数那看的晕晕乎乎的。这两天又看了这个大哥讲的空间和概率上定义LR的目标函数,以及求解。清晰很多
1、线性回归 Linear Regression
1.1、目标函数的定义
1.1.1 空间角度
和SVM一样,首先定义目标函数。SVM是从空间考虑,点到超平面的最小距离最大。LR的空间考虑很直观,最小各点到回归线的距离之和。
mini=1∑N∣∣wTxi−yi∣∣2
1.1.2 概率角度
概率角度就是统计学习方法的最大似然了。
什么是最大似然呢?就是让事情A发生的最大概率的模型参数。
我们认为各样本点相互独立,那么总模型的似然函数(概率)为各个样本点的概率乘积。再对其求log
log(i=1∏NP(yi∣xi,w))=i=1∑Nlog(P(yi∣xi,w))
这里认为
(y∣w,x)服从均值为
wx,方差为
σ2的正太分布,所以有
P(yi∣xi,w)=2π
σ1e−2σ2(yi−wTxi)2
因此目标函数为:
maxP(Y∣X,W)=maxi=1∑Nlog(P(yi∣xi,w))=maxi=1∑N(log(2π
σ1)+log(e−2σ2(yi−wTxi)2))=maxi=1∑N(−log(2π
σ)−2σ2(yi−wTxi)2)
这里
σ是常数,所以可以约去,目标函数就变为了:
maxi=1∑N(−(yi−wTxi)2)=mini=1∑N(yi−wTxi)2和上面基于空间的目标函数是一样的。
1.2、线性回归的目标函数求解
这个目标函数没有约束很好求,直接求导
∂w∂L=∂w∂∑i=1N(yi−wTxi)2=0
这里,把
x和
y写成列向量:
X=⎣⎡∣x1∣∣x2∣…∣xN∣⎦⎤Y=⎣⎢⎢⎡y1y2...yN⎦⎥⎥⎤
那么:
i=1∑N(yi−wTxi)2=(Y−wTX)2=YTY−2wTXY+wTXXTw
求导:
∂w∂L=∂w∂(YTY−2wTXY+wTXXTw)=−2XY+2XXTw=0
所以:
w=(XXT)−1XY
这样就求出了线性回归方程
2、逻辑斯蒂回归
我们说的逻辑回归,就是二项的逻辑斯蒂回归。
这里认为Y 服从logistic 分布:
P(1∣x)=1+ewTx+bewTx+b
用极大似然估计,得到目标函数:
maxlogi=1∏NP(yi∣xi)
这里:
P(yi∣xi)=P(1∣xi)yiP(0∣xi)1−yi
我们先用
π(xi)来表示
P(1∣xi), 化简目标函数:
maxlogi=1∏Nπ(xi)yi(1−π(xi))1−yi=maxi=1∑Nyilog(π(xi))+(1−yi)log(1−π(xi))
然后把
π(xi)的值带入化简得:
maxi=1∑N[yi(wTxi+b)−log(1+ewTxi+b)]
然后可以用梯度下降等方法,去求解最优的
w 和
b