4.3 基于梯度的优化方法

1.向量微积分

常用求导公式（基于分母布局，结果转置即为分子布局）
$\frac{\partial \mathbf{A} \mathbf{x}}{\partial \mathbf{x}}=\mathbf{A}\tag{1}$

$\frac{\partial \mathbf{x}^{\top} \mathbf{A}}{\partial \mathbf{x}}=\mathbf{A}^{\top}\tag{2}$

$\frac{\partial \mathbf{x}^{\top} \mathbf{x}}{\partial \mathbf{x}}=2 \mathbf{x}^{\top}\tag{3}$

$\frac{\partial \mathbf{x}^{\top} \mathbf{A} \mathbf{x}}{\partial \mathbf{x}}=\mathbf{x}^{\top}\left(\mathbf{A}+\mathbf{A}^{\top}\right)\tag{4}$

$\frac{\partial(\mathbf{u}+\mathbf{v})}{\partial \mathbf{x}}=\frac{\partial \mathbf{u}}{\partial \mathbf{x}}+\frac{\partial \mathbf{v}}{\partial \mathbf{x}}\tag{5}$

$\frac{\partial(\mathbf{u} \cdot \mathbf{v})}{\partial \mathbf{x}}=\frac{\partial \mathbf{u}^{\top} \mathbf{v}}{\partial \mathbf{x}}=\mathbf{u}^{\top} \frac{\partial \mathbf{v}}{\partial \mathbf{x}}+\mathbf{v}^{\top} \frac{\partial \mathbf{u}}{\partial \mathbf{x}}\tag{6}$

$\frac{\partial \mathbf{f}(\mathbf{u})}{\partial \mathbf{x}}=\frac{\partial \mathbf{f}(\mathbf{u})}{\partial \mathbf{u}} \frac{\partial \mathbf{u}}{\partial \mathbf{x}}\tag{7}$

2.方向导数

数学篇-方向导数（讲的很通俗易懂） - 知乎 (zhihu.com)

如果函数 $f (x, y)$ 在点 $P_0(x_0,y_0)$ 可微分,那么函数在该点沿任一方向 $l$ 的方向导数存在,且有
$\left.\frac{\partial f}{\partial l}\right|_{\left(x_{0}, y_{0}\right)}=f_{x}\left(x_{0}, y_{0}\right) \cos \alpha+f_{y}\left(x_{0}, y_{0}\right) \cos \beta\tag{8}$
其中， $cos\alpha$ 和 $cos\beta$ 的方向余弦.

证明: 由假设 $f (x, y)$ 在点 $x_0,y_0)$ 可微分,故有
$\begin{array}{c} f\left(x_{0}+\Delta x, y_{0}+\Delta y\right)-f\left(x_{0}, y_{0}\right) \\=f_{x}\left(x_{0}, y_{0}\right) \Delta x+f_{y}\left(x_{0}, y_{0}\right) \Delta y+o\left(\sqrt{(\Delta x)^{2}+(\Delta y)^{2}}\right) \end{array}\tag{9}$
但点 $(x_0+\Delta x,y_0+\Delta y)$ 在以 $x_0,y_0)$ 为始点的射线 $l$ 上时,应有

$\begin{array}{c} \Delta x=t \cos \alpha, \Delta y=t \cos \beta \\ \sqrt{(\Delta x)^{2}+(\Delta y)^{2}}=t \end{array}\tag{10}$

所以
$\lim _{t \rightarrow 0^{+}} \frac{f\left(x_{0}+t \cos \alpha, y_{0}+t \cos \beta\right)-f\left(x_{0}, y_{0}\right)}{t} \\ =f_{x}\left(x_{0}, y_{0}\right) \cos \alpha+f_{y}\left(x_{0}, y_{0}\right) \cos \beta \tag{11}$
这就证明了方向导数存在,且其值为

$\left.\frac{\partial f}{\partial l}\right|_{\left(x_{0}, y_{0}\right)}=f_{x}\left(x_{0}, y_{0}\right) \cos \alpha+f_{y}\left(x_{0}, y_{0}\right) \cos \beta\tag{12}$
用x表示多维向量，用u表示方向，用a表示t，即可得到
$\frac{\partial}{\partial \alpha}f(x+\alpha u) = u^T \nabla_xf(x) = f_x(x0,y0) cos\alpha+f_y(x0,y0) cos\beta\tag{13}$
(7)式第一个等号是花书上给出的，目前仍有疑惑，我的推导如下
$x+\alpha u\tag{14}$
$\frac{\partial}{\partial \alpha} f(x+\alpha u)=\frac{\partial f(t)}{\partial \alpha}=\frac{\partial f(t)}{\partial t} \cdot \frac{\partial t}{\partial \alpha}\tag{15}$
$=\frac{\partial f(t)}{\partial t} \cdot \frac{\partial x+\alpha u}{\partial \alpha}\tag{16}$
$=\frac{\partial f(t)}{\partial t} \cdot u\tag{17}$

$=\nabla_{x} f(x)^T \cdot u (取\alpha=0)\tag{18}$
希望有明白的人指出我的问题

补充：问题解决了，由于我的公式是基于分母布局（横向），所以在(17)-(18)的时候得到的式子应该是 $\nabla_{x} f(x)^T \cdot u$ （怕误导大家，上面已修改，但是之前是没加转置的），又因为花书中的推导都是基于分子布局的，所以最终结果与我的结果会刚好差一个转置。另外，书中所有的向量都是列向量，尤其是梯度向量。

3.梯度下降

一阶优化方法

略

4.牛顿法

二阶优化方法

参考链接：数值优化（Numerical Optimization）(3)-牛顿法 - 知乎 (zhihu.com)
$f(\boldsymbol x) \approx f(\boldsymbol{x_{k}})+\left(\boldsymbol x-\boldsymbol{x_{k}}\right)^T\nabla f\left(\boldsymbol{x_{k}}\right)+\frac{1}{2}\left(\boldsymbol x-\boldsymbol{x_{k}}\right)^{T} H\left(\boldsymbol x-\boldsymbol{x_{k}}\right)\tag{19}$
要找到 $f (x)$ 的最小点，对 $f$ 求导，得
$f'(\boldsymbol x) =\nabla f(\boldsymbol{x_k})^T +\frac{1}{2}(\boldsymbol{x-x_k})^T(H+H^T) \\= \nabla f(\boldsymbol{x_k})^T +(\boldsymbol x-\boldsymbol{x_{k}})^TH\tag{20}$
令 $f'(\boldsymbol x)=\boldsymbol0$ ，又 $H$ 为对称矩阵，即 $H = H^T$
$\boldsymbol x-\boldsymbol{x_{k}} =- (H^{-1}*\nabla f(\boldsymbol{x_k})^T)^T =- H^{-1}*\nabla f(\boldsymbol{x_k})\tag{21}$
$\boldsymbol{x_{k+1}} = \boldsymbol{x_k}-H^{-1}\nabla f(\boldsymbol{x_k})\tag{22}$

当 $f$ 是一个正定二次函数时，牛顿法只要应用一次(22)就能跳到函数最小点

如果 $f$ 不是真正二次，但能在局部近似为正定二次，牛顿法则需要多次迭代

当附近的临界点是最小点牛顿法才适用，在鞍点附近是有害的

上面这些话我还需要好好琢磨琢磨

深度学习花书- 4.3 基于梯度的优化方法

4.3 基于梯度的优化方法

1.向量微积分

2.方向导数

3.梯度下降

4.牛顿法

猜你喜欢