无约束优化问题之梯度下降法、牛顿法原理

无约束优化问题是机器学习中最普遍、最简单的优化问题

x = m i n x f ( x ) , x R n x^{*}=\mathop{min}\limits_{x}f_{(x)},x\in R^{n}

梯度下降法推导

对于只有两个维度的函数 f ( x , y ) f_{(x,y)} ,如下图所示。

在这里插入图片描述
如果现在在 P P 点,假设 P P = L , P P x = θ |PP'|=L,\angle P'Px=\theta ,则由 P P P P' ,函数的单位长度变化量为:
f ( x 0 + L cos θ , y 0 + L sin θ ) f ( x 0 , y 0 ) L \frac{f_{(x_{0}+L\cos{\theta}, y_{0}+L\sin{\theta})}-f_{(x_{0}, y_{0})}}{L}
= f ( x 0 + L cos θ , y 0 + L sin θ ) f ( x 0 + L cos θ , y 0 ) L + f ( x 0 + L cos θ , y 0 ) f ( x 0 , y 0 ) L =\frac{f_{(x_{0}+L\cos{\theta}, y_{0}+L\sin{\theta})}-f_{(x_{0}+L\cos{\theta}, y_{0})}}{L}+\frac{f_{(x_{0}+L\cos{\theta}, y_{0})}-f_{(x_{0}, y_{0})}}{L}
= sin θ f ( x 0 + L cos θ , y 0 + L sin θ ) f ( x 0 + L cos θ , y 0 ) L sin θ + cos θ f ( x 0 + L cos θ , y 0 ) f ( x 0 , y 0 ) L cos θ =\sin{\theta}\frac{f_{(x_{0}+L\cos{\theta}, y_{0}+L\sin{\theta})}-f_{(x_{0}+L\cos{\theta}, y_{0})}}{L\sin{\theta}}+\cos{\theta}\frac{f_{(x_{0}+L\cos{\theta}, y_{0})}-f_{(x_{0}, y_{0})}}{L\cos{\theta}}
= sin θ f y ( x 0 , y 0 ) + cos θ f x ( x 0 , y 0 ) ( L 0 ) =\sin{\theta}f_{y(x_{0},y_{0})}+\cos{\theta}f_{x(x_{0},y_{0})}\quad(\mathop{L\rightarrow0})
由柯西不等式:
< m , n > = m n c o s θ <m, n>=||m||\cdot||n||\cdot cos{\theta}
< m , n > 2 = m 2 n 2 c o s 2 θ m 2 n 2 <m, n>^{2}=||m||^{2}\cdot||n||^{2}\cdot cos^{2}{\theta}\leq||m||^{2}\cdot||n||^{2}
且只有当 θ = 0 \theta =0 即两向量共线时等号成立。
m = ( sin θ , cos θ ) , n = ( f y , f x ) m=(\sin{\theta},\cos{\theta}),n=(f_{y},f_{x}) ,则
( sin θ f y + cos θ f x ) 2 ( sin 2 θ + cos 2 θ ) ( f y 2 + f x 2 ) = f y 2 + f x 2 (\sin{\theta}\cdot f_{y}+\cos{\theta}\cdot f_{x})^{2}\leq(\sin^{2}{\theta}+\cos^{2}{\theta})(f_{y}^{2}+f_{x}^{2})=f_{y}^{2}+f_{x}^{2}
" = " "=" 成立的条件是两向量共线,即
sin θ cos θ = f y f x \frac{\sin{\theta}}{\cos{\theta}}=\frac{f_{y}}{f_{x}}
此时函数的单位长度变化量最大。
sin θ cos θ = f y f x \frac{\sin{\theta}}{\cos{\theta}}=\frac{f_{y}}{f_{x}} 意味着单位长度变化量最大的方向为梯度方向。
类比于有 n n 个自变量的函数 f ( x 1 , x 2 x n ) f_{(x_{1},x_{2}……x_{n})} ,其梯度为 ( f x 1 , f x 2 f x n ) (\frac{\partial f}{\partial x_{1}},\frac{\partial f}{\partial x_{2}}……\frac{\partial f}{\partial x_{n}}) ,则延梯度方向函数增长最快。
基于此原理,梯度下降法取梯度的反方向作为移动方向,延此方向函数下降最快。

牛顿法推导

初级版本

在这里插入图片描述
对于 m i n f ( x ) minf_{(x)} 来说,需要 g ( x ) = f ( x ) = 0 g_{(x)}=f_{(x)}^{'}=0
x n x_{n} 是第 n n 个点的横坐标,我们需要求出 g ( x ) = 0 g_{(x)}=0 时的横坐标。
首先对第 n n 个点求切线为:
y g ( x n ) = g ( x n ) ( x x n ) y-g_{(x_{n})}=g_{(x_{n})}^{'}(x-x_{n})
y = 0 y=0 得到 x = x n g ( x n ) g ( x n ) x=x_{n}-\frac{g_{(x_{n})}}{g_{(x_{n})}^{'}}
f ( x ) f_{(x)}^{'} 代替 g ( x ) g_{(x)} ,得:
x n + 1 = x n f ( x n ) f ( x n ) x_{n+1}=x_{n}-\frac{f_{(x_{n})}^{'}}{f_{(x_{n})}^{''}}

高级版本

在这里插入图片描述
要求 m i n f ( x ) minf_{(x)}
先将 f ( x ) f_{(x)} 进行泰勒公式展开,得:
f ( x ) = f ( x n ) + f ( x n ) ( x x n ) + f ( x n ) 2 ! ( x x n ) 2 + f_{(x)}=f_{(x_{n})}+f_{(x_{n})}^{'}(x-x_{n})+\frac{f_{(x_{n})}^{''}}{2!}(x-x_{n})^{2}+……
将只保留有关 x x 的项,得:
f ( x ) = f ( x n ) 2 x 2 + ( f ( x n ) x n f ( x n ) ) x + f_{(x)}=\frac{f_{(x_{n})}^{''}}{2}x^{2}+(f_{(x_{n})}^{'}-x_{n}f_{(x_{n})}^{''})x+……
此时已将 f ( x ) f_{(x)} 化为一个一元二次函数。
所以当此函数取最小值时的横坐标为:
x n + 1 = b 2 a = f ( x n ) x n f ( x n ) f ( x n ) = x n f ( x n ) f ( x n ) x_{n+1}=-\frac{b}{2a}=-\frac{f_{(x_{n})}^{'}-x_{n}f_{(x_{n})}^{''}}{f_{(x_{n})}^{''}}=x_{n}-\frac{f_{(x_{n})}^{'}}{f_{(x_{n})}^{''}}

发布了36 篇原创文章 · 获赞 1 · 访问量 570

猜你喜欢

转载自blog.csdn.net/qq_36758914/article/details/103321658