Levenberg-Marquardt算法浅谈

码字不易，转发请注明原文链接

在讲Levenberg-Marquardt算法之前我想先谈下牛顿法和高斯牛顿法。

牛顿法

如果有一点数值计算知识的同学对牛顿迭代法并不陌生，先贴个经典例图来镇楼。

一般来说我们利用牛顿法使用来求f(x)=0的解。求解方法如下：
先对f(x)一阶泰勒展开得
$f (x + Δ) = f (x) + f^{'} (x) Δ = 0$ $f(x+\Delta)=f(x)+f'(x)\Delta=0$
所以我们有 $Δ = x - x_{0} = - \frac{f (x_{0})}{f^{'} (x_{0})}, 即 x = x_{0} - \frac{f (x_{0})}{f^{'} (x_{0})}$ $\Delta=x-x_0=-\frac{f(x_0)}{f'(x_0)},即x=x_0-\frac{f(x_0)}{f'(x_0)}$
因此也就得到了我们的牛顿迭代公式：
$x_{n} = x_{n - 1} - \frac{f (x_{n - 1})}{f^{'} (x_{n - 1})}$ $x_n=x_{n-1}-\frac{f(x_{n-1})}{f'(x_{n-1})}$
求解最优化问题 $m i n f (x)$ $min　f(x)$
牛顿法首先则是将问题转化为求 $f^{'} (x) = 0$ $f'(x) = 0$ 这个方程的根。
一阶展开： $f^{'} (x) \approx f^{'} (x_{0}) + (x － x_{0}) f^{″} (x 0)$ $f '(x) ≈ f '(x_0)+(x－x_0)f ''(x0)$
令 $f^{'} (x_{0}) + (x － x_{0}) f^{″} (x_{0}) = 0$ $f'(x_0)+(x－x_0)f ''(x_0) = 0$
$求解得到 x ，相比于 x_{0} ， f^{'} (x) < f^{'} (x 0)$ $求解得到x，相比于x_0，f '(x)<f'(x0)$

高斯牛顿法

在讲牛顿法的时候，我们举的例子x是一维的，若如果我们遇到多维的x该如何办呢？这时我们就可以利用雅克比，海赛矩阵之类的来表示高维求导函数了。
比如 $f (X) = 0, 其中 X = [x_{0}, x_{1}, . . ., x_{n}]$ $f(X)=0,其中X=[x_0,x_1,...,x_n]$
所以我们有雅克比矩阵：
$J_{f} = [\begin{matrix} \frac{\partial f}{\partial x_{0}} & \dots & \frac{\partial f}{\partial x_{n}} \\ ⋮ & ⋱ & ⋮ \\ \frac{\partial f}{\partial x_{0}} & \dots & \frac{\partial f}{\partial x_{n}} \end{matrix}]$ $J_f=\begin{bmatrix} \frac{\partial f}{\partial x_0}&\cdots&\frac{\partial f}{\partial x_n}\\ \vdots&\ddots&\vdots\\ \frac{\partial f}{\partial x_0}&\cdots&\frac{\partial f}{\partial x_n} \end{bmatrix}$
有海赛矩阵：
$H_{f} = [\begin{matrix} \frac{\partial^{2} f}{\partial x_{0}^{2}} & \frac{\partial^{2} f}{\partial x_{0} \partial x_{1}} & . . . & \frac{\partial^{2} f}{\partial x_{0} \partial x_{n}} \\ \frac{\partial^{2} f}{\partial x_{1} \partial x_{0}} & \frac{\partial^{2} f}{\partial x_{1}^{2}} & . . . & \frac{\partial^{2} f}{\partial x_{1} \partial x_{n}} \\ ⋮ & ⋮ & ⋱ & ⋮ \\ \frac{\partial^{2} f}{\partial x_{n} \partial x_{0}} & \frac{\partial^{2} f}{\partial x_{n} \partial x_{1}} & . . . & \frac{\partial^{2} f}{\partial x_{n}^{2}} \end{matrix}]$ $H_f=\begin{bmatrix}\frac{\partial^2f}{\partial x_0^2}&\frac{\partial^2f}{\partial x_0 \partial x_1}&...&\frac{\partial^2f}{\partial x_0 \partial x_n}\\ \frac{\partial^2f}{\partial x_1 \partial x_0}&\frac{\partial^2f}{\partial x_1^2}&...&\frac{\partial^2f}{\partial x_1 \partial x_n}\\\vdots&\vdots&\ddots&\vdots\\ \frac{\partial^2f}{\partial x_n \partial x_0}&\frac{\partial^2f}{\partial x_n \partial x_1}&...&\frac{\partial^2f}{\partial x_n^2} \end{bmatrix}$

所以高维牛顿法解最优化问题又可写成：

X_{n + 1} = X_{n} - H_{f} (x_{n})^{- 1} \nabla f (x_{n})

$X_{n+1}=X_n-H_f(x_n)^{-1}\nabla f(x_n)$
梯度代替了低维情况中的一阶导
Hessian矩阵代替了二阶导
求逆代替了除法
例：不妨设目标函数为：

s (x) = \sum_{i = 0}^{n} f^{2} (x_{i})

$s(x)=\sum_{i=0}^nf^2(x_i)$
所以梯度向量在方向上的分量：

g_{j} = 2 \sum_{i = 0}^{n} f_{i} \frac{\partial f_{i}}{\partial x_{j}} (1)

$g_j=2\sum_{i=0}^nf_i\frac{\partial f_i}{\partial x_j}　　　　(1)$
Hessian 矩阵的元素则直接在梯度向量的基础上求导：

H_{j k} = 2 \sum_{i = 0}^{n} (\frac{\partial f_{i}}{\partial x_{j}} \frac{\partial f_{i}}{\partial x_{k}} + f_{i} \frac{\partial^{2} f_{i}}{\partial x_{j} \partial x_{k}})

$H_{jk}=2\sum_{i=0}^n (\frac{\partial f_i}{\partial x_j}\frac{\partial f_i}{\partial x_k}+ f_i\frac{\partial^2 f_i}{\partial x_j\partial x_k})$
高斯牛顿法的一个小技巧是，将二次偏导省略，于是：

H_{j} k \approx \sum_{i = 0}^{n} J_{i j} J_{i k} (2)

$H_jk\approx\sum_{i=0}^nJ_{ij}J_{ik}　　　　　　(2)$
其中

J_{i j}

$J_{ij}$ 为雅克比矩阵中的第i行j列元素
将(1)(2)改写成矩阵相乘形式：

g = 2 J_{f}^{T} f

$g=2J_f^Tf$

H \approx 2 J_{f}^{T} J_{f}

$H\approx2J_f^TJ_f$
代入牛顿法高维迭代方程的基本形式，得到高斯牛顿法迭代方程：

x^{s + 1} = x^{s} + Δ, 其 中 Δ = - (J_{f}^{T} J_{f})^{- 1} J_{f}^{T} f

$x^{s+1}=x^s+\Delta,其中\Delta=-(J_f^TJ_f)^{-1}J_f^Tf$