最优化学习笔记（十五）——拟牛顿法(1)

    拟牛顿法分为五部分来讲，本文这部分作为引言，第二部分讲Hessian矩阵逆矩阵的近似，第三部分秩1修正公式，第四部分为DFP算法，最后BFGS算法。
    牛顿法是一种具有较高实用性的优化问题的求解方法。牛顿法如果收敛，收敛阶数至少是2。但是，当目标函数为一般性的非线性函数时，牛顿法就不能保证从任意起始点 $\boldsymbol{x}^{(0)}$ 收敛到函数的极小点。也就是说，如果初始点 $\boldsymbol{x}^{(0)}$ 不足够接近极小点，那么牛顿法可能不具备下降性。
    牛顿法的基本思路是在每次迭代中，利用二次型函数的局部近似目标函数 $f$ ，并求解近似函数的极小点作为下一个迭代点，迭代公式为：

x (k + 1) = x (k) - F (x (k)) - 1 g (k)

$\boldsymbol{x}^{(k+1)} = \boldsymbol{x}^{(k)} - \boldsymbol{F}(\boldsymbol{x}^{(k)})^{-1}\boldsymbol{g}^{(k)}$
对上式进行适当修正，可以保证牛顿法具有下降性：

x (k + 1) = x (k) - α k F (x (k)) - 1 g (k)

$\boldsymbol{x}^{(k+1)} = \boldsymbol{x}^{(k)} - \alpha_k\boldsymbol{F}(\boldsymbol{x}^{(k)})^{-1}\boldsymbol{g}^{(k)}$
其中，

αk $\alpha_k$ 为步长，合理确定步长，使得：

f (x (k + 1)) < f (x (k))

$f(\boldsymbol{x}^{(k+1)} ) <f(\boldsymbol{x}^{(k)} )$
牛顿法的另外一个缺陷是必须计算Hessian矩阵

F(x(k)) $\boldsymbol{F}(\boldsymbol{x}^{(k)})$ 和求解方程

F(x(k))d(k)=−g(k) $\boldsymbol{F}(\boldsymbol{x}^{(k)})\boldsymbol{d}^{(k)}=-\boldsymbol{g}^{(k)}$ ,即

d(k)=−F(x(k))−1g(k) $\boldsymbol{d}^{(k)}=-\boldsymbol{F}(\boldsymbol{x}^{(k)})^{-1}\boldsymbol{g}^{(k)}$ ,为了避免求解

F(x(k))(−1) $\boldsymbol{F}(\boldsymbol{x}^{(k)})^{(-1)}$ 这种矩阵求逆运算，可以通过设计

F(x(k))(−1) $\boldsymbol{F}(\boldsymbol{x}^{(k)})^{(-1)}$ 的近似矩阵来代替，这就是拟牛顿法的基本思路。
命题函数 $f$ 是一阶连续可微 $f \in \mathcal{C}^1, \boldsymbol{x}^{(k)} \in \mathbb{R}^n, \boldsymbol{g}^{(k)}=\nabla f(\boldsymbol{x}^{(k)}) \ne \boldsymbol{0}, \boldsymbol{H}_k$ 是 $n \times n$ 对称正定实矩阵，如果令 $\boldsymbol{x}^{(k+1)} = \boldsymbol{x}^{(k)} - \alpha_k\boldsymbol{H}_k\boldsymbol{g}^{(k)}$ ,其中， $\alpha_k =\arg \min_{\alpha \ge 0}f(\boldsymbol{x}^{(k)}-\alpha_k\boldsymbol{H}_k\boldsymbol{g}^{(k)})$ ,那么有 $\alpha_k > 0, f(\boldsymbol{x}^{(k+1)}) < f(\boldsymbol{x}^{(k)})$ 。
在拟牛顿法中，构造Hessian矩阵逆矩阵的近似矩阵时，只需要用到目标函数值和梯度。因此，只要确定了合适的近似矩阵

Hk $\boldsymbol{H}_k$ 的构造方法，那么迭代过程中不需要任何涉及Hessian矩阵以及现行方程求解的计算工作。

最优化学习笔记（十五）——拟牛顿法(1)

猜你喜欢