版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/welcom_/article/details/84311400
微积分差不多都还回去了
-
法一:
m为样例数目,θ为列向量
hθ(x)=θ0+θ1x+...θnx,J(θ0,θ1...+θn)=2m1i=1∑m(hθ(x)(i)−y(i))2
δθjδJ(θ0,θ1+...θn)=m1i=1∑m(hθ(i)(x)−y(i))xj(i)(j=0,1,...n)
其中任意偏导数可表示为m1i=1∑m(hθ(i)(x)y(i))xj(i)=xjT(Xθ−y)
(xj为相应列向量)然后让全部偏导数为0,综合可得到:
XT∗(Xθ−y)=0
XTXθ=XTy
θ=(XTX)−1XTy
-
法二: normal equation 推导思路
先推导,用例数目m=2时,X=[11x11x12],Y=[y11y12],θ=[θ11θ12]
hθ(x)=θ0+θ1x,J(θ0,θ1)=2m1i=1∑m(hθ(i)(x)−y(i))2
将X,Y,θ代入J(θ0,θ1)然后对θ0,θ1分别求偏导数,让
δθjδJ(θ0,θ1)=0(j=0,1)
再对两个等式相加,经过整理就会发现,XTXθ=XTy−−>θ=(XTX)−1XTy
可想而知,经过推广,m=n时,也可以得出XTXθ=XTy−−>θ=(XTX)−1XTy
-
normal equation vs gradient descent
正规方程:一步到位,算法复杂度为
O(n3) ,所以特征维度<10000时,使用normal equation。
梯度下降: 选择
α 并调试它(很耗时间),多次迭代(很耗时间),特征参数很大时也ok。