统计学习方法读书笔记(二十四)-附录B 牛顿法和拟牛顿法

全部笔记的汇总贴:统计学习方法读书笔记汇总贴

PDF免费下载:《统计学习方法(第二版)》

一、牛顿法

在这里插入图片描述
存在的几个问题:

  • H − 1 H^{-1} H1不存在,导致(4)无意义;
  • H − 1 H^{-1} H1存在但不正定,导致 f k + 1 ≥ f k f_{k+1}\ge f_k fk+1fk
  • H − 1 H^{-1} H1存在且正定,但若 p k p_k pk很大,由(5)可知,不能保证 f k + 1 < f k f_{k+1}< f_k fk+1<fk

给个例子:

和上一节的例子一样,我们用牛顿法求解。
f ( x ) = 1 2 x 1 2 + 1 2 x 2 2 + 1 2 x 3 2 , x 0 = [ 1 , 1 , 1 ] T , 求 min ⁡ [ f ( x ) ] f(x)=\frac12x^2_1+\frac12x^2_2+\frac12x^2_3,x_0=[1,1,1]^T,求\min[f(x)] f(x)=21x12+21x22+21x32,x0=[1,1,1]T,min[f(x)]
解: f ( x ) = f ( x 1 , x 2 , x 3 ) = 1 2 x 1 2 + 1 2 x 2 2 + 1 2 x 3 2 f(x)=f(x_1,x_2,x_3)=\frac12x^2_1+\frac12x^2_2+\frac12x^2_3 f(x)=f(x1,x2,x3)=21x12+21x22+21x32
g ( x ) = ( x 1 , x 2 , x 3 ) T              ∇ 2 f ( x ) = ( 1 0 0 0 1 0 0 0 1 ) g(x)=(x_1,x_2,x_3)^T\;\;\;\;\;\;\nabla^2f(x) =\begin{pmatrix} 1 & 0 & 0 \\ 0& 1& 0 \\ 0 & 0 & 1 \end{pmatrix} g(x)=(x1,x2,x3)T2f(x)=100010001
x 0 = ( 1 , 1 , 1 ) T              f 0 = f ( x 0 ) = 1.5 x_0=(1,1,1)^T\;\;\;\;\;\;f_0=f(x_0)=1.5 x0=(1,1,1)Tf0=f(x0)=1.5
g 0 = g ( x 0 ) = ( 1 , 1 , 1 ) T g_0=g(x_0)=(1,1,1)^T g0=g(x0)=(1,1,1)T
x 1 = x 0 − H − 1 g 0 = ( 1 , 1 , 1 ) T − ( 1 0 0 0 1 0 0 0 1 ) ⋅ ( 1 , 1 , 1 ) T = ( 0 , 0 , 0 ) T x_1=x_0-H^{-1}g_0=(1,1,1)^T-\begin{pmatrix} 1 & 0 & 0 \\ 0& 1& 0 \\ 0 & 0 & 1 \end{pmatrix}\cdot (1,1,1)^T=(0,0,0)^T x1=x0H1g0=(1,1,1)T100010001(1,1,1)T=(0,0,0)T

二、拟牛顿法

当数据维度过高,黑塞矩阵的逆矩阵比较难求,而且也很有可能求不出来,所以我们需要对牛顿法进行改进,想法是用一个矩阵来近似 H − 1 H^{-1} H1
g k + 1 − g k = H k ( x ( k + 1 ) − x ( k ) ) g_{k+1}-g_k=H_k(x^{(k+1)}-x^{(k)}) gk+1gk=Hk(x(k+1)x(k))
y k = g k + 1 − g k , δ k = x ( k + 1 ) − x ( k ) y_k=g_{k+1}-g_k,\delta_k=x^{(k+1)}-x^{(k)} yk=gk+1gk,δk=x(k+1)x(k)
y k = H k δ k y_k=H_k\delta_k yk=Hkδk
我们用 G k + 1 G_{k+1} Gk+1来近似 H k − 1 H_k^{-1} Hk1,所以拟牛顿法的条件是 G k + 1 y k = δ k G_{k+1}y_k=\delta_k Gk+1yk=δk

(一)DFP算法

G k + 1 = G k + P k + Q k G_{k+1}=G_k+P_k+Q_k Gk+1=Gk+Pk+Qk
其中 P k , Q k P_k,Q_k Pk,Qk是待定矩阵,此时 G k + 1 y k = G k y k + P k y k + Q k y k G_{k+1}y_k=G_ky_k+P_ky_k+Q_ky_k Gk+1yk=Gkyk+Pkyk+Qkyk
由拟牛顿法的条件可使 P k y k = δ k              Q k y k = − G k y k P_ky_k=\delta_k\;\;\;\;\;\;Q_ky_k=-G_ky_k Pkyk=δkQkyk=Gkyk
P k = δ k δ k T δ k T y k            Q k = − G k y k y k T G k y k T G k y k P_k=\frac{\delta_k\delta_k^T}{\delta_k^Ty_k}\;\;\;\;\;Q_k=-\frac{G_ky_ky_k^TG_k}{y_k^TG_ky_k} Pk=δkTykδkδkTQk=ykTGkykGkykykTGk
所以 G k + 1 = G k + δ k δ k T δ k T y k − G k y k y k T G k y k T G k y k G_{k+1}=G_k+\frac{\delta_k\delta_k^T}{\delta_k^Ty_k}-\frac{G_ky_ky_k^TG_k}{y_k^TG_ky_k} Gk+1=Gk+δkTykδkδkTykTGkykGkykykTGk
如果 G 0 G_0 G0是正定,则往后的每个 G k G_k Gk都是正定的。
在这里插入图片描述

(二)BFGS算法

使用的拟牛顿条件是 B k + 1 δ k = y k B_{k+1}\delta_k=y_k Bk+1δk=yk
得到一组迭代公式 B k + 1 = B k + P k + Q k B_{k+1}=B_k+P_k+Q_k Bk+1=Bk+Pk+Qk B k + 1 δ k = B k δ k + P k δ k + Q k δ k B_{k+1}\delta_k=B_k\delta_k+P_k\delta_k+Q_k\delta_k Bk+1δk=Bkδk+Pkδk+Qkδk
我们令 P k δ k = y k              Q k δ k = − B k δ k P_k\delta_k=y_k\;\;\;\;\;\;Q_k\delta_k=-B_k\delta_k Pkδk=ykQkδk=Bkδk
所以 B k + 1 = B k + y k y k T y k T δ k − B k δ k δ k T B k δ k T B k δ k B_{k+1}=B_k+\frac{y_ky_k^T}{y_k^T\delta_k}-\frac{B_k\delta_k\delta_k^TB_k}{\delta_k^TB_k\delta_k} Bk+1=Bk+ykTδkykykTδkTBkδkBkδkδkTBk

在这里插入图片描述

(三)Broyden类算法

由BFGS算法得到的 B k B_k Bk的迭代式得到关于 G k G_k Gk的迭代式,使用Sherman-Morrison公式,得到 G k + 1 = ( I − δ k y k T δ k T y k ) G k ( I − δ k y k T δ k T y k ) T + δ k y k T δ k T y k G_{k+1}=(I-\frac{\delta_ky_k^T}{\delta_k^Ty_k})G_k(I-\frac{\delta_ky_k^T}{\delta_k^Ty_k})^T+\frac{\delta_ky_k^T}{\delta_k^Ty_k} Gk+1=(IδkTykδkykT)Gk(IδkTykδkykT)T+δkTykδkykT
我们将这个由BFGS算法推出的 G k + 1 G_{k+1} Gk+1记作 G B F G S G^{BFGS} GBFGS,将由DFP算法得到的 G k + 1 G_{k+1} Gk+1记作 G D F P G^{DFP} GDFP,因为他们都满足拟牛顿条件式,所以他们的线性组合也满足 G k + 1 = α G D F P + ( 1 − α ) G B F G S G_{k+1}=\alpha G^{DFP}+(1-\alpha)G^{BFGS} Gk+1=αGDFP+(1α)GBFGS这就被称为Broyden类算法,其中 0 ≤ α ≤ 1 0\le\alpha\le1 0α1

Sherman-Morrison公式:
假设 A A A n n n阶可逆矩阵, u , v u,v u,v n n n维向量,且 A + u v T A+uv^T A+uvT也是可逆矩阵,则 ( A + u v T ) − 1 = A − 1 − A − 1 u v T A − 1 1 + v T A − 1 u (A+uv^T)^{-1}=A^{-1}-\frac{A^{-1}uv^TA^{-1}}{1+v^TA^{-1}u} (A+uvT)1=A11+vTA1uA1uvTA1

下一章传送门:统计学习方法读书笔记(二十五)-附录C 拉格朗日对偶性

猜你喜欢

转载自blog.csdn.net/qq_41485273/article/details/113079695