数值最优化—优化问题的解(一)

一、太长不看版

1、(定义)优化问题的解是寻找一个向量 $x^*$ 使得函数 $f (x)$ 对任意定义域内的向量 $x$ 都有 $f(x^*)\leq f(x)$ 。
2、(定义)局部最小值点：在 $x^*$ 的定义域的邻域内对向量 x 都有 $f(x^*)\leq f(x)$ 。
3、(定义)严格局部最小值点：在 $x^*$ 的定义域的邻域内对向量 $x\neq x^*$ 都有 $f(x^*)< f(x)$ 。
4、如果函数 $f (x)$ 是凸函数，那么 $f (x)$ 的任何一个局部最小值点都是 $f (x)$ 在定义域内的最小值。
5、如果函数 $f (x)$ 是凸函数，且 $f (x)$ 可微，那么 $f (x)$ 的任何一个不动点都是 $f (x)$ 在定义域内的最小值。
6、局部最小值点一阶必要条件： $\nabla f(x^*)=0$
7、局部最小值点二阶必要条件： $\nabla f(x^*)=0$ 且 $\nabla^2 f(x^*)$ 正定。
8、局部最小值点二阶充分条件： $\nabla^2 f(x) 在x^*$ 的开邻域内连续， $\nabla f(x^*)=0$ 并且 $\nabla^2 f(x^*)$ 正定，那么 $x^*$ 是 $f (x)$ 的严格局部最小值点。

二、详细推导

第一部分给出的1、2、3均为定义，所以我们从4开始证明。
Proof 4：
反证法
如果在满足4的条件下 $x^* $ 不是全局最小值，那么我们假设真实的全局最小值为 $z$ 。那么一定有 $f(z)<f(x^*)$ 。
（在定义1中我们定义全局最小值用的是小于等于号，是因为可能有多个向量 $x^*$ 使得 $f(x^*)=min f(x)$ 。但是这里我们已经假设 $x^*$ 不是全局最小值了，那么一定有 $f(x^*)> min f(x)$ 所以这里取小于号。）
假设定义域上的点 $x$ ，位于 $x^*$ 与 $z$ 之间的连线上，那么我们可以得到：
$\lambda z + (1-\lambda)x^*$ for some $\lambda \in (0,1]$ (1)
那么根据 $f (x)$ 的凸性，可以得到：
$f(\lambda z + (1-\lambda)x^*) \le \lambda f(z )+(1-\lambda)f(x^*)<f(x^*)$ (2)
其中第一个等式由方程(1)获得，第一个不等式由函数的凸性获得，第二个不等式由：
$\lambda f(z)<\lambda f(x^*)$ 所以 $\lambda f(z)+(1-\lambda)f(x) < \lambda f(x) +(1-\lambda)f(x) = f(x)$ 获得。
回溯方程(2)，我们可以得到 $f(x) <f(x^*)$ ，对任意 $\lambda z + (1-\lambda)x^*$ 成立。且 $\lim_{\lambda \rightarrow 0} x=x^*$ 。那么也就是说，在 $x^*$ 的邻域内， $x^*$ 不是局部最小值点。
与假设相反，所以原结论正确
Q.E.D
Proof 5：
反证法
(假设与 z 的定义与上述中一样)
利用凸性我们可以得到:
$\nabla f(x^*)^T(z-x^*) = \frac{d}{d\lambda}f(x^*+\lambda(z-x^*))|_{\lambda=0} \\ = \lim_{\lambda \rightarrow0}\frac{f(x^*+\lambda(z-x^*))-f(x^*)}{\lambda}\\ \le \lim_{\lambda \rightarrow0}\frac{\lambda f(z)+(1-\lambda)f(x^*)-f(x^*)}{\lambda}\\ =f(z)-f(x^*)<0$ （3）
(没找到公式对齐的方式，大家凑合着看吧。。。。)
这个公式唯一需要解释的是第一个等式，我们从右往左推。令 $g(\lambda) = f(x^*+\lambda(z-x^*))$ ，对 $g(\lambda)$ 关于 $\lambda$ 求导可以得到 $\nabla g(\lambda) = \nabla f(x^*+\lambda(z-x^*))^T(z-x^*)$ ，所以 $\nabla g(0) = \nabla f(x^*)^T(z-x^*)$ ，从而得到了第一个等式。
所以我们得到了 $\nabla f(x^*)^T(z-x^*) <0$ ，那么必然有 $\nabla f(x^*) \neq 0$ ，所以与假设相违背，原结论成立。
Q.E.D