Hessian矩阵及局部极小点的条件

一 Hessian矩阵：
实值函数f(x)相对于 $n\times 1$ 实向量x的二阶偏导是一个由 $m^2$ 个二阶偏导组成的矩阵（称为Hessian矩阵），定义为：

\frac{\partial^{2} f (x)}{\partial x \partial x^{T}} = \frac{\partial}{\partial x^{T}} [\frac{\partial f (x)}{\partial x}]

${\partial ^2f(x)\over \partial x \partial x^T}={\partial \over \partial x^T}[{\partial f(x)\over \partial x}]$
或者简写为梯度的梯度：

\nabla_{x}^{2} f (x) = \nabla_{x} (\nabla_{x} f (x))

$\nabla_x^2f(x)=\nabla_x(\nabla_xf(x))$
根据定义，Hessian矩阵的第i行第j列是梯度

\frac{\partial f (x)}{\partial x_{i}} = \nabla_{x_{i}} f (x)

${\partial f(x)\over \partial {x_i}}=\nabla_{x_i}f(x)$ 第j个分量的梯度，即：

[\frac{\partial^{2} f (x)}{\partial x \partial x^{T}}]_{i, j} = \frac{\partial^{2} f (x)}{\partial x_{i} \partial x_{j}}

$[{\partial ^2f(x)\over \partial x \partial x^T}]_{i,j}={\partial ^2f(x)\over \partial x_i \partial x_j}$ ,
或者写做：

\frac{\partial^{2} f (x)}{\partial x \partial x^{T}} = [\begin{matrix} \frac{\partial^{2} f (x)}{\partial x_{1} \partial x_{1}} & \frac{\partial^{2} f (x)}{\partial x_{1} \partial x_{2}} & \dots & \frac{\partial^{2} f (x)}{\partial x_{1} \partial x_{n}} \\ \frac{\partial^{2} f (x)}{\partial x_{2} \partial x_{1}} & \frac{\partial^{2} f (x)}{\partial x_{2} \partial x_{2}} & \dots & \frac{\partial^{2} f (x)}{\partial x_{2} \partial x_{n}} \\ ⋮ & ⋮ & ⋱ & ⋮ \\ \frac{\partial^{2} f (x)}{\partial x_{n} \partial x_{1}} & \frac{\partial^{2} f (x)}{\partial x_{n} \partial x_{2}} & \dots & \frac{\partial^{2} f (x)}{\partial x_{n} \partial x_{n}} \end{matrix}]

${\partial ^2f(x)\over \partial x \partial x^T}= \begin{bmatrix} {\partial ^2f(x)\over \partial x_1 \partial x_1} & {\partial ^2f(x)\over \partial x_1 \partial x_2} & \cdots & {\partial ^2f(x)\over \partial x_1 \partial x_n} \\ {\partial ^2f(x)\over \partial x_2 \partial x_1} & {\partial ^2f(x)\over \partial x_2 \partial x_2} & \cdots & {\partial ^2f(x)\over \partial x_2 \partial x_n} \\ \vdots & \vdots & \ddots & \vdots \\ {\partial ^2f(x)\over \partial x_n \partial x_1} & {\partial ^2f(x)\over \partial x_n \partial x_2} & \cdots & {\partial ^2f(x)\over \partial x_n \partial x_n} \\ \end{bmatrix}$
因此，Hessian矩阵可以用两步法求出来：
（1）求实值函数f(x)关于向量变元x的偏导数，得到实值函数的梯度

\frac{\partial f (x)}{\partial x} ；

${\partial f(x)\over \partial {x}}；$
（2）再求梯度

\frac{\partial f (x)}{\partial x}

${\partial f(x)\over \partial {x}}$ 相对于

1 \times n

$1\times n$ 行向量

x^{T}

$x^T$ 的偏导数，得到梯度的梯度即Hessian矩阵。

二局部极小点的条件
根据定义确定某个点 $x_*$ 是否为目标函数的局部极小点，需要将目标函数在该点的取值与函数在该点领域里所有点的取值进行比较。这显然是不实际的做法。然而，如果f(x)是二次连续可微分的话，直接通过检验梯度 $\nabla _xf(x_*)$ 和Hessian矩阵 $\nabla _x^2f(x_*)$ , 即可判断点 $x_*$ 是否为局部极小点（甚至是严格局部极小点）。
若 $(\Delta x)^T\Delta x$ 很小，即函数f(x)的二阶Taylor级数展开为：

f (x + Δ x) = f (x) + (Δ x)^{T} \nabla_{x} f (x) + \frac{1}{2} (Δ x)^{T} \nabla_{x}^{2} f (x) Δ x

$f(x+\Delta x)=f(x)+(\Delta x)^T\nabla_xf(x)+{1\over 2}(\Delta x)^T\nabla_x^2f(x)\Delta x$
关于判断一个局部极小点的一阶必要条件和一阶充分条件，请参考《矩阵分析与应用》270页（张贤达著），下面主要讲解其二阶充分条件：
定理：假设

\nabla_{x}^{2} f (x)

$\nabla_x^2f(x)$ 在

x_{*}

$x_*$ 的开邻域内连续，并且

\nabla_{x} f (x_{*}) = 0, \nabla_{x}^{2} f (x_{*}) > 0

$\nabla_xf(x_*)=0, \ \nabla_x^2f(x_*)>0$
则

x_{*}

$x_*$ 是函数f(x)的严格局部极小点。式中

\nabla_{x}^{2} f (x_{*}) > 0

$\nabla_x^2f(x_*)>0$ 表示Hessian矩阵

\nabla_{x}^{2} f (x_{*})

$\nabla_x^2f(x_*)$ 正定。（具体即

(Δ x)^{T} \nabla_{x}^{2} f (x) Δ x > 0

$(\Delta x)^T\nabla_x^2f(x)\Delta x>0$ ）
证明：由函数f(x)的二阶Taylor级数展开

f (x_{*} + Δ x) = f (x_{*}) + (Δ x)^{T} \nabla_{x} f (x_{*}) + \frac{1}{2} (Δ x)^{T} \nabla_{x}^{2} f (x_{*}) Δ x

$f(x_*+\Delta x)=f(x_*)+(\Delta x)^T\nabla_xf(x_*)+{1\over 2}(\Delta x)^T\nabla_x^2f(x_*)\Delta x$ ，且

\nabla_{x} f (x_{*}) = 0, (Δ x)^{T} \nabla_{x}^{2} f (x_{*}) Δ x > 0

$\nabla_xf(x_*)=0, \ (\Delta x)^T\nabla_x^2f(x_*)\Delta x>0$ 可得：

f (x_{*} + Δ x) > f (x_{*})

$f(x_*+\Delta x)>f(x_*)$ ，所以

x_{*}

$x_*$ 是函数f(x)的严格局部极小点。
应当注意的是，该二阶充分条件并不是必要条件：有的点

x_{*}

$x_*$ 可能是函数f(x)的严格局部极小点，但是在该点的Hessian矩阵却不是正定的。例如，观察知，点

x = 0

$x=0$ 是函数

f (x) = (x^{T} x)^{2}

$f(x)=(x^Tx)^2$ 的严格局部极小点，但是Hessian矩阵

\frac{\partial^{2} f (x)}{\partial x \partial x^{T}} = \frac{\partial^{2}}{\partial x \partial x^{T}} (x^{T} x)^{2} = 12 x^{T} x

${\partial ^2f(x)\over \partial x \partial x^T}={\partial ^2\over \partial x \partial x^T}(x^Tx)^2=12x^Tx$
在严格局部极小点

x = 0

$x=0$ 处为零矩阵，不是正定矩阵。

定理：凸函数f(x)的任何局部极小点 $x_*$ 都是该函数的一个全局极小点。
证明：假设 $x_*$ 是局部极小点，但不是一个全局极小点。于是，可以求出一点 $z\in R$ 满足 $f(z)<f(x_*)$ .考虑从 $x_*$ 到 $z$ 的线段上的点 $x$ ,则

x = λ z + (1 - λ) x_{*}, λ \in (0, 1]

$x=\lambda z+(1-\lambda)x_*, \ \ \lambda \in (0,1]$
根据凸函数的性质，有

f (x) \leq λ f (z) + (1 - λ) f (x_{*}) < f (x_{*})

$f(x)\le \lambda f(z)+(1-\lambda)f(x_*)<f(x_*)$ .
则当

x

$x$ 趋近于

x_{*}

$x_*$ 时，有

f (x) < f (x_{*})

$f(x)<f(x_*)$ ,所以

x_{*}

$x_*$ 不是局部极小点，与假设矛盾。因此，局部极小点

x_{*}

$x_*$ 必定时一个全局极小点。

参考：《矩阵分析与应用》（张贤达著）

Hessian矩阵及局部极小点的条件

猜你喜欢