最优化：建模、算法与理论

目前在学习最优化：建模、算法与理论这本书，来此记录一下，顺便做一些笔记，在其中我也会加一些自己的理解，尽量写的不会那么的条条框框（当然最基础的还是要有）
全文28365字，累死了

第二章基础知识

2.1 范数

2.1.1 向量范数

定义2.1（范数）称一个从向量空间Rⁿ到实数域R的非负函数||·||为范数，如果他满足：
（1）正定性：对于所有的 $v{\in}R^n$ ，有 $∣∣ v ∣∣ >= 0$ ,且 $∣∣ v ∣∣ = 0$ 当且仅当 $v = 0$
（2）齐次性：对于所有的 $v{\in}R^n$ 和 ${\alpha}{\in}R$ ，有 $||{\alpha}v||$ = $|{\alpha}|$ $∣∣ v ∣∣$
（3）三角不等式：对于所有的 $v,w{\in}R^n$ ,有 $∣∣ v + w ∣∣ <= ∣∣ v ∣∣ + ∣∣ w ∣∣$
最常用的向量范数为l_p范数（p >= 1）
$||v||_{p} = (|v_{1}|^p + |v_{2}|^p + \ldots + |v_{n}|^p)^{1/p}$

显而易见，高数应该都学过，如果 $p={\infty}$ ，那么 $l_\infty$ 范数定义为 $||v||_\infty = max|v_i|$

记住 $1,2,{\infty}$ 的时候最重要，有时候我们会忽略 $l_2$ 范数的角标
也会遇到由正定矩阵 $A$ 诱导的范数，即 $||x||_A = \sqrt{x^TAx}$

对于 $l_2$ 范数，有常用的柯西不等式，设 $a,b{\in}R^n$ ，则
$a^Tb|<=||a||_2||b||_2$
等号成立当且仅当a与b线性相关

2.1.2 矩阵范数

矩阵范数首先也一样要满足那三个特性啦，就是要满足正定性，齐次性，三角不等式，常用的就是 $l_1,l_2$ 范数，当 $p = 1$ 时，矩阵 $A{\in}R^{m*n}$ 的范数定义
$||A||_1={\sum_{i=1}^m}{\sum_{j=1}^n}|a_{ij}|$
当 $p = 2$ 时，也叫矩阵的Frobenius范数（F范数），记为 $A||_F$ ，其实就是所有元素的平方和然后开根号，具体定义如下
$||A||_F=\sqrt{Tr(AA^T)}=\sqrt{\sum_{i,j}a_{ij}^2}$
这里的 $T r$ 表示方阵X的迹（这个大家应该都知道吧，我把百度的解释搬过来—在线性代数中，一个n×n矩阵A的主对角线（从左上方至右下方的对角线）上各个元素的总和被称为矩阵A的迹（或迹数），一般记作tr(A)），矩阵的F范数具有正交不变性。
正交不变性呢就是说对于正交矩阵 $U{\in}R^{m*n},V{\in}R^{m*n}$ ，我们有
$UAF||_F^2=||A||_F^2$
具体的推导我这里就不写了哈，打公式太麻烦了哈哈，感兴趣的可以看这本书的第24页或者来找我^^

矩阵范数也可以由向量范数给诱导出来，一般称这种算数为诱导范数，感觉用的不是很多，这里先不扩展开了
除了上诉的1范数，2范数，另一个常用的矩阵范数是核范数，给定矩阵 $A{\in}R^{m*n}$ ，核范数定义为
$||A||_*=\sum_{i=1}^r{\sigma}_i$
其中 ${\sigma}_i,i=1,2,...,r$ 为 $A$ 的所有非0奇异值, $r = r ank (A)$ ，类似于向量的 $l_1$ 范数可以保稀疏性，我们也通常通过限制矩阵的核范数来保证矩阵的低秩性。

2.1.3 矩阵内积

内积一般用来表征两个矩阵之间的夹角，一个常用的内积—Frobenius内积， $m * n$ 的矩阵 $A$ 和 $B$ 的Frobenius内积定义为
$<A,B>=Tr(AB^T)=\sum_{i=1}^m\sum_{j=1}^na_{ij}b_{ij}$
其实就是两个矩阵一一对应元素相乘
同样的，我们也有矩阵范数对应的柯西不等式，设 $A,B{\in}R^{m*n}$ ，则
$A,B>|<=||A||_F||B||_F$
等号成立当且仅当A和B线性相关

2.2 导数

2.2.1 梯度与海瑟矩阵

梯度的定义（这玩意应该是我之前好像都没见到过的）：给定函数 $f:R^n{\rightarrow}R$ ，且 $f$ 在点 $x$ 的一个邻域内有意义，若存在向量 $g{\in}R^n$ 满足
$\lim_{p{\rightarrow}0}\frac{f(x+p)-f(x)-g^Tp}{||p||}=0$
就称 $f$ 在点 $x$ 处可微，此时 $g$ 称为 $f$ 在点 $x$ 处的梯度，记作 ${\nabla}f(x)$ ，如果对区域D上的每一个点 $x$ 都有 ${\nabla}f(x)$ 存在，则称 $f$ 在D上可微

然后呢，这其中经过一系列的推导，就可以得到我们耳熟能详的梯度公式
${\nabla}f(x)=\left[ \begin{matrix} {\frac{ {\partial}f(x)}{ {\partial}x_1}} ，{\frac{ {\partial}f(x)}{ {\partial}x_2}} ，...,{\frac{ {\partial}f(x)}{ {\partial}x_m}} \end{matrix} \right]^T$
对于多元函数，我们可以定义其海瑟矩阵：如果函数 $f(x):R^n{\rightarrow}R$ 在点 $x$ 处的二阶偏导数 $\frac{ {\partial}^2f(x)}{ {\partial}x_i{\partial}x_j}i,j=1,2,...,n$ 都存在，则
${\nabla}^2f(x)=\left[ \begin{matrix} \frac{ {\partial}^2f(x)}{ {\partial}x_1^2} & \frac{ {\partial}^2f(x)}{ {\partial}x_1{\partial}x_2} & \cdots& \frac{ {\partial}^2f(x)}{ {\partial}x_1{\partial}x_n}\\ \frac{ {\partial}^2f(x)}{ {\partial}x_2{\partial}x_1} &\frac{ {\partial}^2f(x)}{ {\partial}x_2^2} & \cdots & \frac{ {\partial}^2f(x)}{ {\partial}x_2{\partial}x_n} \\ \vdots & \vdots & &\vdots\\ \frac{ {\partial}^2f(x)}{ {\partial}x_n{\partial}x_1} &\frac{ {\partial}^2f(x)}{ {\partial}x_n{\partial}x_2} & \cdots &\frac{ {\partial}^2f(x)}{ {\partial}x_n^2} \end{matrix} \right]$
成为 $f$ 在点 $x$ 处的海瑟矩阵
当 ${\nabla}^2f(x)$ 在区域D上每个点 $x$ 都存在，就称 $f$ 在D上二阶可微，若他在D上还连续，可以证明此时的海瑟矩阵是一个对称矩阵
当 $f:R^n{\rightarrow}R^m$ 是向量值函数时，我们可以定义他的雅可比矩阵 $J(x){\in}R^{m*n}$ ，他的第i行分量 $f_i(x)$ 梯度的转置，即
$J(x)=\left[ \begin{matrix} \frac{ {\partial}f_1(x)}{ {\partial}x_1} & \frac{ {\partial}f_1(x)}{ {\partial}x_2} & \cdots& \frac{ {\partial}f_1(x)}{ {\partial}x_n}\\ \frac{ {\partial}f_2(x)}{ {\partial}x_1} & \frac{ {\partial}f_2(x)}{ {\partial}x_2} & \cdots& \frac{ {\partial}f_2(x)}{ {\partial}x_n}\\ \vdots & \vdots & &\vdots\\ \frac{ {\partial}f_m(x)}{ {\partial}x_1} & \frac{ {\partial}f_m(x)}{ {\partial}x_2} & \cdots& \frac{ {\partial}f_m(x)}{ {\partial}x_n} \end{matrix} \right]$
容易看出，梯度 ${\nabla}f(x)$ 的雅可比矩阵就是f(x)的海瑟矩阵
类似于一元函数的泰勒展开，对于多元函数，这里也不加证明的给出泰勒展开
设 $f:R^n{\rightarrow}R$ 是连续可微的， $p{\in}R^n$ ，那么
$f(x+p)=f(x)+{\nabla}(x+tp)^Tp$
其中 $0 < t < 1$ ，进一步，如果说 $f$ 是二阶连续可微的
$f(x+p)=f(x)+{\nabla}f(x)^Tp+\frac{1}{2}p^T{\nabla}^2f(x+tp)p$
其中 $0 < t < 1$

最后呢这一章还介绍了一类特殊的可微函数-----梯度利普希茨连续的函数，这类函数在很多优化算法收敛性证明中起着关键作用
梯度利普希茨连续定义：给定可微函数 $f$ ，若存在 $L > 0$ ,对任意 $x,y{\in}domf$ 有（ $d o m f$ 就是 $f$ 的定义域）
$||{\nabla}f(x)-{\nabla}f(y)||{\le}L||x-y||$
则称 $f$ 是梯度利普希茨连续的，相应利普希茨常数为 $L$ ，有时候也会称为 $L$ -光滑，或者梯度 $L$ -利普希茨连续
梯度利普希茨连续表明， ${\nabla}f(x)$ 的变化可以被自变量 $x$ 的变化所控制，满足该性质的函数有很多很好的性质，一个重要的性质就是具有二次上界
具体证明我这里我就不再过多阐述了，有二次上界就是说 $f (x)$ 可以被一个二次函数上界所控制，即要求说 $f (x)$ 的增长速度不超过二次
还有一个推论就是说，如果 $f$ 是梯度利普希茨连续的，且有一个全局最小点 $x^*$ ，我们可以利用二次上界来估计 $f(x)-f(x^*)$ 的大小，其中 $x$ 可以是定义域中任意一点
$\frac{1}{2L}||{\nabla}f(x)||^2{\le}f(x)-f(x^*)$
具体的证明我这里就不写了哈，想知道的可以百度或者我们讨论一下

2.2.2 矩阵变量函数的导数

多元函数梯度的定义也可以推广到变量是矩阵的情况，以 $m * n$ 矩阵 $X$ 为自变量的函数 $f (X)$ ，若存在矩阵 $G{\in}R^{m*n}$ 满足
$\lim_{V{\rightarrow}0}\frac{f(X+V)-f(X)-<G,V>}{||V||}=0$
其中 $∣∣ \cdot ∣∣$ 是任意矩阵范数，就称矩阵向量函数 $f$ 在 $X$ 处 $Fr\acute{a}chet$ 可微，就称G为 $f$ 在 $Fr\acute{a}chet$ 可微意义下的梯度，其实矩阵变量函数 $f (X)$ 的梯度也可以用其偏导数表示为
${\nabla}f(x)=\left[ \begin{matrix} \frac{ {\partial}f}{ {\partial}x_{11}} & \frac{ {\partial}f}{ {\partial}x_{12}} & \cdots& \frac{ {\partial}f}{ {\partial}x_{1n}}\\ \frac{ {\partial}f}{ {\partial}x_{21}} & \frac{ {\partial}f}{ {\partial}x_{22}} & \cdots& \frac{ {\partial}f}{ {\partial}x_{2n}}\\ \vdots & \vdots & &\vdots\\ \frac{ {\partial}f}{ {\partial}x_{m1}} & \frac{ {\partial}f}{ {\partial}x_{m2}} & \cdots& \frac{ {\partial}f}{ {\partial}x_{mn}} \end{matrix} \right]$
$Fr\acute{a}chet$ 可微的定义和使用往往比较繁琐，为此还有另一种定义----- $G\hat{a}teaux$ 可微
定义：设 $f (X)$ 为矩阵变量函数，如果存在矩阵 $G{\in}R^{m*n}$ 对任意方向 $V{\in}R^{m*n}$ 满足
$\lim_{t{\rightarrow}0}\frac{f(X+tV)-f(X)-t<G,V>}{t}=0$
则称 $f$ 关于 $X$ 是 $G\hat{a}teaux$ 的，就称G为 $f$ 在 $G\hat{a}teaux$ 可微意义下的梯度
若 $Fr\acute{a}chet$ 可微可以推出 $G\hat{a}teaux$ 可微，反之则不可以，但这本书讨论的函数基本都是 $Fr\acute{a}chet$ 可微的，所以我们目前无需讨论，大家了解一下就好了~，统一将矩阵变量函数 $f (X)$ 的导数记为 $\frac{ {\partial}f}{ {\partial}X}$ 或者 ${\nabla}f(X)$

举个例子把，免得大家不知道有什么用
考虑线性函数： $f(X)=Tr(AX^TB)$ ，其中 $A{\in}R^{p*n},B{\in}R^{m*p},X{\in}R^{m*n}$ 对任意方向 $V{\in}R^{m*n}$ 以及 $t{\in}R$ ，有
$\lim_{t{\rightarrow}0}\frac{f(X+tV)-f(X)}{t}=\lim_{t{\rightarrow}0}\frac{Tr(A(X+tV)^TB-Tr(AX^TB))}{t}$
$Tr(AV^TB)=<BA,V>$
所以， ${\nabla}f(X)=BA$
我学到这里时候会有一个疑问，就是 $Tr(AV^TB)=<BA,V>$ 是为什么呢？
我们知道， $Tr(AV^TB)=Tr(BAV^T)$ 这个是迹的基本性质， $B A$ 和 $V$ 都是 $m * n$ 的，那么这时候又有一个性质，假设C和D是相同规模的矩阵，那么 $Tr(A^TB)=<A,B>$
我这里是参考知乎jordi的，这是他的一个关于3*3矩阵的推导
链接：https://www.zhihu.com/question/274052744/answer/1521521561

那么这样就可以推出 $Tr(AV^TB)=Tr(V^T,BA)=<BA,V>$ 啦

2.2.3 自动微分

自动微分是使用计算机导数的算法，在神经网络中，我们通过前向传播的方式将输入数据 $a$ 转化为 $\hat{y}$ ，也就是将输入数据 $a$ 作为初始信息，将其传递到隐藏层的每个神经元，处理后输出得到 $\hat{y}$ 。
通过比较输出得到 $\hat{y}$ 与真实标签y，可以定义一个损失函数 $f (x)$ ，其中 $x$ 表示所有神经元对饮的参数集合， $f (x)$ 一般是多个函数复合的形式，为了找到最优的参数，我们需要通过优化算法来调整 $x$ 使得 $f (x)$ 达到最小，因此，对神经元参数 $x$ 的计算是不可避免的
这一块就是讲了一个神经网络的前向传播和后向求导，自动微分有两种方式，前向模式和后向模式，前向模式就是变传播变求导，后向模式就是前传播再一层层求导，很显然现在大家学的都是后向模式这种的吧，因为他复杂度更低，计算代价小

2.3 广义实值函数

数学分析的课程中我们学习了函数的基本概念，函数是从向量空间 $R^n$ 到数据域 $R$ 的映射，而在最优化领域，经常涉及到对某个函数的某一个变量取inf(sup)操作，这导致函数的取值可能为无穷，为了能更方便的描述优化问题，我们需要对函数的定义进行某种扩展。
那么 what is 广义实值函数呢？
令 $\bar{R}=R{\bigcup}{\infty}$ 为广义实数空间，则映射 $f:R^n{\rightarrow}\bar{R}$ 称为广义实值函数，可以看到，就是值域多了两个特殊的值，正负无穷

2.3.1 适当函数

适当函数：给定广义实值函数 $f$ 和非空集合 $X$ ，如果存在 $x{\in}X$ 使得 $f(x)<+{\infty}$ ，并且对任意的 $x{\in}X$ ，都有 $f(x)>-{\infty}$ ，那么称函数 $f$ 关于集合 $X$ 是适当的
总结一下，就是说适当函数 $f$ 呢，至少有一处的取值不为正无穷，以及处处取值不为负无穷。对于最优化问题，适当函数可以帮助我们去掉一些不感兴趣的函数，从一个比较合理的函数类去考虑问题。这应该很好理解，我们加入讨论一个min问题，他至少有个取值不能为正无穷吧，要不然怎么取min，然后处处取值不能为负无穷，要不讨论有啥意义对吧？
我们约定，若本书无特殊说明，定理中所讨论的函数均为适当函数
对于适当函数 $f$ ，规定其定义域
$domf=\{x|f(x)<+{\infty}\}$
因为对于适当函数的最小值肯定不可能在正无穷处取到^^

2.3.2 闭函数

闭函数是另一类重要的广义实值函数，闭函数可以看作是连续函数的一种推广
在说闭函数之前，我们先引入一些基本概念：

1.下水平集

下水平集是描述实值函数取值的一个重要概念：为此有如下定义
（ $\alpha$ -下水平集）对于广义实值函数： $f:R^n{\rightarrow}\bar{R}$
$C_{\alpha}=\{x|f(x)\le{\alpha}\}$
称为 $f$ 的 $\alpha$ -下水平集
就是取值不能超过 $\alpha$ 嘛，若 $C_{\alpha}$ 非空，我们知道 $f (x)$ 的全局最小点一定落在 $C_{\alpha}$ 中，无需考虑之外的点

2.上方图

上方图是从集合的角度来描述一个函数的具体性质，有如下定义：
对于广义实值函数 $f：R^n{\rightarrow}\bar{R}$
$epif=\{(x,t){\in}R^{n+1}|f(x){\le}t\}$
在这里插入图片描述
说人话就是函数 $f$ 上方的东西小于等于t（t取任意值）， $f$ 的很多性质都可以通过 $e p i f$ 得到，可以通过 $e p i f$ 的一些性质 $f$ 的性质

3.闭函数、下半连续函数

闭函数：设 $f:R^n{\rightarrow}\bar{R}$ 为广义实值函数，若 $e p i f$ 为闭集，则称 $f$ 为闭函数
下半连续函数：设广义实值函数 $f:R^n{\rightarrow}\bar{R}$ ，若对任意的 $x{\in}R^n$ ，有
$\liminf_{y{\rightarrow}x} f(y)\ge{f(x)}$
则 $f (x)$ 为下半连续函数在这里插入图片描述

我觉得如果不懂这个下极限的话，直接看文字会好得多

其实就是在 $x_0$ 处的邻域处，如果 f( $x_0$ ) 减去一个正的微小值，从而可以恒小于该邻域的所有 $f (x)$ ，则称在该间断点处有下半连续性。
在这里插入图片描述
如果是下图这样的

你的 $x_0$ 再往左边取哪怕一点点，都会骤降，就达不到 $x_0$ 的邻域中的 $x$ 比 $f(x_0)-{\varepsilon}$ 大，而如果是第一张图，我们可以保证 $x_0$ 的左边不会骤降，差不多就是这个意思

设广义实值函数 $f:R^n{\rightarrow}\bar{R}$ 。则以下命题等价：
（1） $f (x)$ 的任意 $\alpha$ -下水平集都是闭集
（2） $f (x)$ 是下半连续的
（3） $f (x)$ 是闭函数
具体证明我就不在这细细展开了，同理，想知道可以和我探讨或者自行谷歌~
闭集：如果对任意收敛序列，最终收敛到的点都在集合内，那么集合是闭的
我们可以看到，其实闭函数和下半连续函数可以等价，以后往往只会出现一种定义
闭（下半连续）函数间的简单运算会保持原有性质
（1）加法，若 $f$ 和 $g$ 均为适当的闭函数，并且 ${\bigcap}domg{\neq}∅$ 则 $f + g$ 也是闭函数，说是适当是避免出现未定式的情况，也就是负无穷+正无穷
（2）仿射映射的复合，若 $f$ 为闭函数，则 $f (A x + b)$ 也为闭函数
（3）取上确界，若每一个函数 $f_{\alpha}$ 均为闭函数，则 $sup_{\alpha}f_{\alpha}(x)$ 也为闭函数。

2.4 凸集

2.4.1 凸集的相关定义

说实话凸集这个之前说的一直都有听说，但是具体的定义我一直没有搞明白，现在学一下~
对于 $R^n$ 中的两个点 $x_1{\neq}x2$ ，形如
$y={\theta}x_1+(1-{\theta})x_2$
的点形成了过点 $x_1$ 和 $x_2$ 的直线，当 $0{\le}{\theta}{\le}1$ 时，这样的点形成了连接点 $x_1$ 与 $x_2$ 的线段
我们定义：如果过集合 $C$ 中任意两点的直线都在 $C$ 内，则称 $C$ 为仿射集，即
$x_1,x_2{\in}C{\longrightarrow}{\theta}x_1+(1-{\theta})x_2{\in}C，{\forall}{\theta}{\in}R$
很明显可以看出，线性方程组 $A x = b$ 的解集是仿射集，反之，任意仿射集都可以表示成一个线性方程组的解集

那么，凸集是定义是什么呢？
凸集：如果连接集合 $C$ 中任意两点的线段都在 $C$ 内，则称 $C$ 为凸集，即
$x_1,x_2{\in}C{\longrightarrow}{\theta}x_1+(1-{\theta})x_2{\in}C，{\forall}0{\le}{\theta}{\le}1$
可以看到凸集就是仿射集的直线变成线段了而已，仿射集都是凸集
从凸集我们可以引出凸组合和凸包的概念，形如
$x={\theta}_1x_1+{\theta}_2x_2+\cdots+{\theta}_kx_k$
$1={\theta}_1+{\theta}_2+\cdots+{\theta}_k，{\theta}_i{\ge}0,i=1,2,\cdots,k$
的点称为 $x_1,x_2,\cdots,x_k$ 的凸组合，集合 $S$ 中点所有的凸组合构成的集合称为 $S$ 的凸包，记作 $co n v S$ ,简而言之， $co n v S$ 是包含 $S$ 的最小的凸集

若在凸组合的定义中去掉 ${\theta}_i{\ge}0$ 的限制，我们可以得到仿射包的概念
仿射包：设 $S$ 为 $R^n$ 的子集，称如下集合为S的仿射包：
$\{x|x=x={\theta}_1x_1+{\theta}_2x_2+\cdots+{\theta}_kx_k, x_1,x_2,\cdots,x_k{\in}S,{\theta} _1+{\theta}_2+\cdots+{\theta}_k=1\}$
记为 $a ff in e S$
在这里插入图片描述 fangshebao
一般而言，一个集合的仿射包实际上是包含该集合的最小的仿射集
形如
$x={\theta}_1x_1+{\theta}_2x_2,{\theta}_1>0,{\theta}_2>0$
的点称为点 $x_1,x_2$ 的锥组合，若集合 $S$ 的任意点的锥组合都在 $S$ 中，则称S为凸锥

2.4.2 重要的凸集

1.超平面和半空间

任取非零向量 $a$ ，形如 ${x|a^Tx=b\}$ 的集合称为超平面，形如 $\{x|a^Tx{\le}b\}$ 的集合称为半空间， $a$ 是对应的超平面和半空间的法向量，一个超平面将 $R^n$ 分为两个半空间，容易看出，超平面是仿射集和凸集，半空间是凸集但不是仿射集（这个如果理解了仿射集和凸集的概念应该很好理解）
在这里插入图片描述

2.球、椭球、锥

球和椭球也是常见的凸集，球我们这里就不多介绍了
形如
$\{x|(x-x_c)^TP^{-1}(x-x)_c){\le}1\}$
的集合称为椭球，其中P对称正定，椭球的另一种表示为 $\{x_c+Au||u_2||{\le}1\}$ ，A为非奇异的方阵
另外，我们称集合
$\{(x,t)|||x||{\le}t\}$
为范数锥，欧几里得范数锥也称为二次锥，范数锥是凸集
别忘了 $t$ 也是变量噢，看这个图应该就很好理解范数锥了
在这里插入图片描述
知乎链接：https://zhuanlan.zhihu.com/p/126072881

3.多面体

我们把满足线性等式和不等式组的点的集合称为多面体，即
$\{x|Ax{\le}b,Cx=d\}$
多面体是有限个半空间和超平面的交集，所以是凸集

4.(半)正定锥

这个我直接把书上的先贴过来把，我目前也不太懂，就不能细说
在这里插入图片描述

2.4.3 保凸的运算

证明一个集合是凸集有两种方式，第一种就是利用定义
$x_1,x_2{\in}C,0{\le}{\theta}{\le}1{\longrightarrow}{\theta}x_1+(1-{\theta}x_2){\in}C$ 来证明集合 $C$ 是凸集。
第二种方法就是说明集合C可以由简单的凸集（刚刚说的超平面、半空间，范数球等）经过保凸的运算得到。
定理1：任意多个凸集的交为凸集
定理2：设 $f:R^n{\rightarrow}R^m$ 是仿射变换（ $f(x)=Ax+b,A{\in}R^{m*n},b{\in}R^n$ ），则
（1）凸集在 $f$ 下的像是凸集：
$S是凸集{\rightarrow}f(S){\rightarrow}\{f(x)|x{\in}S\}是凸集$
（2）凸集在 $f$ 下的原像是凸集
$C是凸集{\rightarrow}f^{-1}(C){\rightarrow}\{x{\in}R^n|f(x){\in}C\}是凸集$
就是经过缩放、平移或者投像仍是凸集

2.4.4 分离超平面定理

这是一个凸集的重要性质，即可以用超平面分离不相交的凸集，最基本的结果是分离超平面定理和支撑超平面定理
分离超平面定理：如果C和D是不相交的两个凸集，则存在非零向量 $a$ 和常熟 $b$ ，使得
$a^Tx{\le}b,{\forall}x{\in}C,且a^Tx{\ge}b,{\forall}x{\in}D$
即超平面 ${x|a^Tx=b\}$ 分离了 $C$ 和 $D$
在这里插入图片描述
严格分离定理：即上述成立严格不等号，具体我就不展开了
支撑超平面：给定集合 $C$ 及其边界上一点 $x_0$ ，如果 $a{\neq}0$ 满足 $a^Tx{\le}a^Tx_0,{\forall}x{\in}C$ ,那么称集合
${x|a^Tx=a^T{x_0}\}$
为 $C$ 在边界点 $x_0$ 处的支撑超平面
从几何上来说，此超平面与集合 $C$ 在点 $x_0$ 处相切
支撑超平面定理：如果C是凸集，则在C的任意边界点处都存在支撑超平面
这个定理其实有非常强的几何直观，就是给定一个平面后，可以把凸集边界上的任意一点当成支撑点将凸集放在该平面上，其他形状的集合一般没有这个性质。

2.5 凸函数

凸函数这个大家肯定都有听过吧，下面我们来看看他具体的定义（目前我也不太了解）

2.5.1 凸函数的定义

凸函数：设函数 $f$ 为适当函数，如果 $d o m f$ 是凸集，且
$f({\theta}x+(1-{\theta})y){\le}{\theta}f(x)+(1-{\theta})f(y)$
对于所有的 $x,y{\in}domf,0{\le}{\theta}{\le}1$ 都成立，都称 $f$ 是凸函数
直观的来说，连接凸函数的图像上任意两点的线段都在函数图像上方
在这里插入图片描述
相应的，我们也有凹函数，若 $- f$ 是凸函数，则称 $f$ 是凸函数。只要改变一下符号，很多凸函数的性质都可以用在凹函数上。
另外，如果 $d o m f$ 是凸集，且
$f({\theta}x+(1-{\theta})y)<{\theta}f(x)+(1-{\theta})f(y)$
对于所有的 $x,y{\in}domf,x{\neq}y,0{\le}{\theta}{\le}1$ 都成立，则称 $f$ 是严格凸函数
还有另一类常用的凸函数，强凸函数
强凸函数，若存在常数 $m > 0$ ，使得
$g(x)=f(x)-\frac{m}{2}||x||^2$
为凸函数，则称 $f (x)$ 为强凸函数，其中 $m$ 为强凸函数，也可以称为m-强凸函数
将 $g (x)$ 应用到凸函数的定义里面去，我们可以得到
若存在常数 $m > 0$ ，使得对任意 $x,y{\in}domf，0<{\theta}<1$ ，有
$f({\theta}x+(1-{\theta})y){\le}{\theta}f(x)+(1-{\theta})f(y)-\frac{m}{2}{\theta}(1-{\theta})||x-y||^2$
则称 $f (x)$ 为强凸函数，其中 $m$ 为强凸参数
从这两个定义我们可以看出来：
（1）强凸函数减去一个正定二次函数仍然是凸的
（2）强凸函数一定是严格凸函数， $m = 0$ 时退化为凸函数
在这里插入图片描述
一个重要的定理：设 $f$ 是强凸函数且存在最小值，则他的最小值点唯一
具体证明用反证法就好了，蛮简单的，假设有两个最小值点 $x, y$ ，然后代入强凸函数的定义里去
要注意的是， $f$ 存在最小值是前提，否则强凸函数的全局最小点不一定存在

2.5.2 凸函数判定定理

凸函数一个最基本的判定方法是，先将其限制在任意直线上，然后判断对应的一维函数是否是凸的
定理1： $f (x)$ 是凸函数当且仅当对任意的 $x{\in}domf,v{\in}R^n,g:R{\rightarrow}R$ ，
$domg=\{t|x+tv{\in}domf\}$
是凸函数
具体证明说难也不难说简单也不简单，想弄明白的百度或者来和我探讨一下哈（我是看了大概二十分钟半小时才看懂TT）
这里先给出一些实际中经常遇到的一些凸（凹）函数吧
（1）指数函数： $e^{ax},a,x{\in}R$ 是凸函数
（2）幂函数： $x^a(x>0)$ ，当 $\alpha{\ge}1$ 或 ${\alpha}{\le}0$ 时为凸函数
（3）负熵： $x l n x (x > 0)$ 是凸函数
（4）所有范数都是凸函数（向量和矩阵版本）
又来一个判断的定理2：对于定义在凸集上的可微函数 $f$ ， $f$ 是凸函数当且仅当
$f(y){\ge}f(x)+{\nabla}f(x)^T(y-x),{\forall}x,y{\in}dom f$
具体证明的话同上说法，这个证明相对来说简单一点
这个定理说明可微凸函数 $f$ 的图形始终在任一点切线的上方，因此，用可微凸函数 $f$ 在任意一点的一阶近似可以得到 $f$ 的一个全局下界
在这里插入图片描述
定理3：梯度单调性，设 $f$ 为可微函数，则 $f$ 为凸函数当且仅当 $d o m f$ 为凸集且 ${\nabla}f$ 为单调映射，即：
$({\nabla}f(x)-{\nabla}f(y))^T(x-y){\ge}0,{\forall}x,y{\in}domf$
具体证明也不说咯
推论：设 $f$ 为可微函数，且 $d o m f$ 是凸集，则
(1) $f$ 是严格凸函数当且仅当
$({\nabla}f(x)-{\nabla}f(y))^T(x-y)>0,{\forall}x,y{\in}domf$
(2) $f$ 是m-强凸函数当且仅当
$({\nabla}f(x)-{\nabla}f(y))^T(x-y){\ge}m||x-y||^2,{\forall}x,y{\in}domf$

进一步的，如果函数二阶连续可微，我们可以得到下面的二阶条件
定理：
设 $f$ 为定义在凸集上的二阶连续可微函数，则 $f$ 是凸函数当且仅当
${\nabla^2f(x){\ge}0},{\forall}x{\in}domf$
如果 ${\nabla}^2f(x)>0,{\forall}x{\in}domf$ ，则 $f h$ 是严格凸函数
这个数分也有学，蛮好用的，当函数二阶连续可微时，用这个通常更方便些

2.5.3 保凸的运算

先总结一下之前证明一个函数是凸函数的三个方法:
（1）一是利用定义去验证凸性，通常将函数限制在一条直线上
（2）二是利用一阶条件，二阶条件证明函数的凸性
（3）三是直接研究 $f$ 的上方图 $e p i f$
现在 $f$ 可以由简单的凸函数通过一些保凸的运算得到
定理：
（1）若 $f$ 是凸函数，则 ${\alpha}f$ 是凸函数，其中 ${\alpha}{\ge}0$
（2）若 $f_1,f_2$ 是凸函数，则 $f_1+f_2$ 是凸函数
（3）若 $f$ 是凸函数，则 $f (A x + b)$ 是凸函数
（4）若 $f_1,f_2,...,f_m$ 是凸函数，则 $f(x)=max\{f_1(x),f_2(x),...,f_m(x)\}$ 是凸函数
（5）若对每个 $y{\in}A,f(x,y)$ 关于 $x$ 是凸函数，则
$g(x)={sup}_{y{\in}A}f(x,y)$
是凸函数
（6）给定函数 $g:R^n{\rightarrow}R,h:R{\rightarrow}R$ ，令 $f (x) = h (g (x))$ 若 $g$ 是凸函数， $h$ 是凸函数且单调不减，那么 $f$ 是凸函数，若 $g$ 是凹函数， $h$ 是凸函数且单调不增，那么 $f$ 是凸函数
（7）给定函数 $g:R^n{\rightarrow}R^k,h:R^k{\rightarrow}R$ ，
$f(x)=h(g(x))=h(g_1(x),g_2(x),...,g_k(x))$
若 $g_i$ 是凸函数， $h$ 是凸函数且关于每个分量单调不减，那么 $f$ 是凸函数，若 $g_i$ 是凹函数， $h$ 是凸函数且单调不增，那么 $f$ 是凸函数
（8）若 $f (x, y)$ 关于 $(x, y)$ 整体是凸函数， $C$ 是凸集，则
$g(x)=inf_{y{\in}C}f(x,y)$
是凸函数
（9）定义函数 $f:R^n{\rightarrow}R$ 的透视函数 $g:R^n*R{\rightarrow}R$
$g(x,t)=tf(\frac{x}{t}),domg=\{ {(x,t)}|\frac{x}{t}{\in}domf,t>0\}$
若f是凸函数，则g是凸函数

2.5.4 凸函数的性质

1.连续性

首先先说明，前面的任何定理或者证明都没有说明凸函数是连续函数，但下面这个定理说明凸函数在定义域中内点是连续的
定理：设 $f:R^n{\rightarrow}(-{\infty},+{\infty})$ 为凸函数，对任一点 $x_0{\in}intdomf$ ，有 $f$ 在 $x_0$ 处连续，这里 $in t d o m f$ 表示定义域 $d o m f$ 的内点
内点定义：这个点存在一个领域全含于定义域
在这里插入图片描述
推论：设 $f (x)$ 是凸函数，且 $d o m f$ 是开集，则 $f (x)$ 在 $d o m f$ 上是连续的
原因是很简单，开集内的点都是内点

2.凸下水平集

凸函数的所有下水平集都是凸集，即有如下结果
设 $f (x)$ 是凸函数，则 $f (x)$ 所有的 ${\alpha}$ -下水平集 $C_{\alpha}$ 为凸集
到此为了复习一下前面的内容，证明一下
设 $x_1.x_2{\in}C_{\alpha}$ ，对任意的 ${\theta}{\in}(0,1)$ ，首先根据 $f (x)$ 的凸性我们有
$f({\theta}x_1+(1-{\theta})x_2){\le}{\theta}f(x_1)+(1-{\theta})f(x_2){\le}{\theta}{\alpha}+(1-{\theta}){\alpha}={\alpha}$
这样就能证毕了，还不懂的可以翻回去看看

3.二次下界

强凸函数具有二次下界的性质
（二次下界）设 $f (x)$ 是参数为 $m$ 的可微强凸函数，则如下不等式成立：
$f(y){\ge}f(x)+{\nabla}f(x)^T(y-x)+{\frac{m}{2}}||y-x||^2，{\forall}x,y{\in}domf$
这里证明就不给出了，利用二次下界容易推出可微强凸函数的下水平集都是有界的
推论：设 $f$ 为可微强凸函数，则 $f$ 的所有 ${\alpha}$ -下水平集有界

2.6 共轭函数

2.6.1 共轭函数的定义和例子

共轭函数是凸分析中的一个重要概念
共轭函数定义：任一适当函数 $f$ 的共轭函数定义为
$f^*(y){\le}sup\{y^Tx-f(x)\},x{\in}domf$
简单点来说就是线性函数 $y^Tx$ 与f(x)的最大差值
对于每一个y，我们看图应该就很好明白了
在这里插入图片描述

设 $f$ 为 $R$ 上的适当函数，对任何函数 $f$ 都可以定义共轭函数，共轭函数 $f^*$ 恒为凸函数
借用一下知乎上对共轭函数的作用的说明
在这里插入图片描述
对于共轭函数，我们有以下重要的不等式
Fenchel不等式
$f(x)+f^*(y){\ge}x^Ty$
以下我们给出一些常见函数的共轭函数

1.二次函数

考虑二次函数
$f(x)=\frac{1}{2}x^TAx+b^Tx+c$
(1)强凸情形（ $A > 0$ ）:
$f^*(y)=\frac{1}{2}(y-b)^TA^{-1}(y-b)-c$
(2)一般凸情形( $A{\ge}0$ )：
$f^*(y)=\frac{1}{2}(y-b)^TA^+(y-b)-c,domf^*=R(A)+b$
这里R(A)为A的像空间
像空间就是值域，这个 $A^+$ 是什么意思我还没搞明白

2.凸集的示性函数

给定凸集C，其示性函数为
$I_C(x)= \begin{cases} 0& \text{x$\in$C}\\ +{\infty}& \text{x$\notin$C} \end{cases}$
可知对应的共轭函数为
$I_c^*(y)=sup_x\{y^Tx-I_C(x)\}=sup_{x{\in}C}y^Tx$
这里 $I_C^*$ 又称为凸集 $C$ 的支撑函数

3.范数

范数的共轭函数为其单位对偶范数球的示性函数，即若 $f (x) = ∣∣ x ∣∣$ ，则
$f^*(x)= \begin{cases} 0& \text{ {$||y||_*$}$\le$1}\\ +{\infty}& \text{ {$||y||_*$}$>$1} \end{cases}$
在这里插入图片描述

2.6.2 二次共轭函数

（二次共轭函数）任一函数 $f$ 的二次共轭函数定义为
$f^{**}(x)=sup_{y{\in}domf^*}sup\{x^Ty-f^*(y)\}$
显然 $f^{**}$ 恒为闭凸函数（虽然我也不知道哪里显然了），由Fenchel不等式可知
$f^{**}(x){\le}f(x),{\forall}x$
或等价的， $epif=epif^{**}$
定理：若 $f$ 为闭凸函数，则
$f^{**}(x)=f(x),{\forall}x$
或等价的， $epif=epif^{**}$
具体的证明这里就不过多阐述了

2.7 次梯度

2.7.1 次梯度的定义

前面介绍了可微函数的梯度，但是对于一般的函数，之前定义的梯度不一定存在，对于凸函数，类比梯度的一阶性质，我们可以引入次梯度的概念
（次梯度）设 $f$ 为适当凸函数， $x$ 为定义域 $d o m f$ 中的一点，若向量 $g{\in}R^n$ 满足
$f(y){\ge}f(x)+g^T(y-x),{\forall}y{\in}domf$
则称 $g$ 为函数 $f$ 在点 $x$ 处的一个次梯度，进一步的，称集合
${\partial}f(x)=\{g|g{\in}R^n,f(y){\ge}f(x)+g^T(y-x),{\forall}y{\in}domf\}$
为 $f$ 在点 $x$ 处的次微分
在这里插入图片描述
可以看出，次梯度实际上借鉴了凸函数判定定理的一阶条件，定义次梯度的初衷之一也是希望他具有类似于梯度的一些性质
从次梯度的定义可以直接推出，若 $g$ 是 $f (x)$ 在 $x_0$ 处的次梯度，则函数
$l(x)=f(x_0)+g^T(x-x_0)$
为凸函数 $f (x)$ 的一个全局下界，此外，次梯度 $g$ 可以诱导出上方图 $e p i f$ 在点 $(x, f (x))$ 处的一个支撑超平面
接下来一个问题就是，次梯度在什么条件下是存在的？实际上对一般凸函数 $f$ 而言， $f$ 未必在所有的点处都存在次梯度，但对于定义域中的内点， $f$ 在其上的次梯度总是存在的
定理：设 $f$ 为凸函数， $d o m f$ 为其定义域，如果 $x{\in}intdomf$ ，则 ${\partial}f(x)$ 是非空的
次梯度呢你可以理解成用于处理在某些点上不可微的函数。在这种情况下，我们可以计算次梯度的集合，表示函数在该点的所有可能梯度范围。

2.7.2 次梯度的性质

凸函数 $f (x)$ 的次梯度和次微分有许多有用的性质，下面的定理说明次微分 ${\partial}f(x)$ 在一定条件下分别为闭凸集合非空有界集
（定理）设 $f$ 是凸函数， ${\partial}f(x)$ 有如下性质：
（1）对任何 $x{\in}domf$ ， ${\partial}f(x)$ 是一个闭凸集（可能是空集）
（2）如果 $x{\in}intdomf$ ,则 ${\partial}f(x)$ 为非空有界集
PS：闭集：一个包含其所有极限点的集合（一个补集为开集的集合）
证明此处略

当凸函数 $f (x)$ 在某点处可微时， ${\nabla}f(x)$ 就是 $f (x)$ 在该点处唯一的次梯度
即设 $f (x)$ 在 $x_0{\in}intdomf$ 处可微，则
${\partial}f(x_0)=\{ {\nabla}f(x_0)\}$

定理（次梯度的单调性）：设 $f：R^n{\rightarrow}R$ 为凸函数， $x,y{\in}domf$ ，则
$(u-v)^T(x-y){\ge}0$
其中 $u{\in}{\partial}f(x),v{\in}{\partial}f(y)$
这个证明还蛮好证的

对于闭凸函数（即凸下半连续函数），次梯度还有某种连续性
定理：设 $f (x)$ 是闭凸函数且 ${\partial}f(x)$ 在点 $x$ 附近存在且非空，若序列 $x^k{\rightarrow}\bar{x}$ ， $g^k{\in}{\partial}f(x^k)$ 为 $f (x)$ 在点 $x^k$ 处的次梯度，且 $g^k{\rightarrow}\bar{g}$ ,则 $\bar{g}{\in}{\partial}f(\bar{x})$
证明有用到那个连续性，这里略

2.7.3 凸函数的方向导数

在数分中，我们知道方向导数的概念，设 $f$ 为适当函数，给定点 $x_0$ 以及方向 $d{\in}R^n$ ，方向导数（若存在）定义为
$\lim_{t{\downarrow}0}\phi(t)=\lim_{t{\downarrow}0}\frac{f(x_0+td)-f(x_0)}{t}$
其中 $t{\downarrow}0$ 表示 $t$ 单调下降趋于0，对于凸函数 $f (x)$ ，易知 ${\phi(t)}$ 在 $(0,+{\infty})$ 上是单调不减的，上述此时极限总是存在（可以为无穷），所以凸函数总是可以定义方向导数
定义（方向导数）：对于凸函数 $f$ ，给定点 $x_0{\in}domf$ 以及方向 $d{\in}R^n$ ，其方向导数定义为
${\partial}f(x_0;d)=\inf_{t>0}\frac{f(x_0+td)-f(x_0)}{t}$
方向导数可能是正负无穷，但在定义域的内点处方向导数是有限的
即设 $f (x)$ 为凸函数， $x_0{\in}intdomf$ ，则对任意 $d{\in}R^n，{\partial}f(x_0;d)$ 有限

凸函数的方向导数和次梯度之间有很强的联系，以下结果表明，凸函数 $f (x)$ 关于 $d$ 的方向导数 ${\partial}f(x;d)$ 正是 $f$ 在点 $x$ 处的所有次梯度与 $d$ 的内积的最大值
定理：设 $f:R^n{\rightarrow}(-{\infty},+{\infty}]$ 为凸函数，点 $x_0{\in}intdomf$ ， $d$ 为 $R^n$ 中任一方向，则
${\partial}f(x_0;d)=\max_{g{\in}{\partial}f(x_0)}g^Td$

以上定理可对一般的 $x{\in}domf$ 作如下推广
定理：设 $f$ 为适当凸函数，且在 $x_0$ 处次微分不为空集，则对任意 $d{\in}R^n$ 有
${\partial}f(x_0;d)=\sup_{g{\in}{\partial}f(x_0)}g^Td$
当 ${\partial}f(x_0;d)$ 不为无穷时，上确界可以取到

2.7.4 次梯度的计算规则

如何计算一个不可微凸函数的次梯度在优化算法设计中是很重要的一个问题，如果根据定义去计算次梯度的话一般来说比较繁琐，我们来介绍一些次梯度的计算规则，本小节讨论的都默认 $x{\in}intdomf$

1.基本规则

我们首先不加证明的给出一些计算次梯度（次微分）的基本规则
（1）可微凸函数：设 $f$ 为凸函数，若 $f$ 在点 $x$ 处可微，则 ${\partial}f(x)=\{ {\nabla}f(x)\}$
（2）凸函数的非负线性组合：设 $f_1,f_2$ 为凸函数，且满足
$intdomf_!{\cap}intdomf_2{\not=}{\varnothing}$
而 $x{\in}intdomf_!{\cap}intdomf_2$ ，若
$f(x)={\alpha}_1f_1(x)+{\alpha}_2f_2(x),{\alpha}_1,{\alpha}_2{\ge}0$
则 $f (x)$ 的次微分
${\partial}f(x)={\alpha}_1{\partial}f_1(x)+{\alpha}_2{\partial}f_2(x)$
（3）线性变量替换：设 $h$ 为适当函数，并且函数 $f$ 满足
$f(x)=h(Ax+b),{\forall}x{\in}R^m$
其中 $A{\in}R^{n*m}，b{\in}R^n$ ，若存在 $x^*{\in}R^m$ ，使得 $Ax^*+b{\in}intdomh$ ，则
${\partial}f(x)=A^T{\partial}h(Ax+b),{\forall}x{\in}intdomf$

2.两个函数之和的次梯度

以下的 $M ore a u - R oc ka f e ll a r$ 定理给出两个凸函数之和的次微分的计算方法
定理（Moreau-Rockafellar）：设 $f_1,f_2:R^n{\rightarrow}(-{\infty},+{\infty}]$ 是两个凸函数，则对任意的 $x_0{\in}R^n$ ,
${\partial}f_1(x_0)+{\partial}f_2(x_0){\subseteq}{\partial}(f_1+f_2)(x_0)$
进一步的，若 $intdomf_1{\cap}intdomf_2{\not=}{\varnothing}$ ，则对任意的 $x_0{\in}R^n$
${\partial}(f_1+f_2)(x_0)={\partial}f_1(x_0)+{\partial}f_2(x_0)$
证明略

3.函数族的上确界

容易验证一族凸函数的上确界函数扔是凸函数，我们有如下重要结果：
定理（Dubovitskii-Milyutin）设 $f_1,f_2,\cdots,f_m:R^n{\rightarrow}(-{\infty},+{\infty}]$ 均为凸函数，令
$f(x)=max\{f_1(x),f_2(x),\cdots,f_m(x)\},{\forall}x{\in}R^n$
对 $x_0{\in}{\cap_{i=1}^m}intdomf_i$ ，定义 $I(x_0)=\{i|f_i(x_0)=f(x_0)\}$ ，则
${\partial}f(x_0)=conv{\cup}_{i{\in}I(x_0)}{\partial}f_i(x_0)$
具体证明略，这里也许会不太明白conv是什么，如下
在这里插入图片描述

4. 固定分量的函数极小值

设 $h:R^n*R^m{\rightarrow}(-{\infty},+{\infty}]$ 是关于 $(x, y)$ 的凸函数，则 $f(x)=\inf_yh(x,y)$ 是关于 $x{\in}R^n$ 的凸函数，以下结果可以用于求解 $f$ 在点 $x$ 处的一个次梯度
定理：考虑函数
$f(x)=\inf_yh(x,y)$
其中
$h:R^n*R^m{\rightarrow}(-{\infty},+{\infty}]$
是关于 $(x, y)$ 的凸函数，对 $\hat{x}{\in}R^n$ ，设 ${\hat{y}{\in}R^m}$ 满足 $h({\hat{x}},{\hat{y}})=f(\hat{x})$ ，且存在 $g{\in}R^n$ 使得 $(g,0){\in}{\partial}f(\hat{x})$ ，则 $g{\in}{\partial}f(\hat{x})$
说实话这几个东西都挺抽象的，后面配点练习去做可能就好很多

5.复合函数

对于复合函数的次梯度，我们有如下链式法则
定理：设 $f_1,f_2,\cdots,f_m:R^n{\rightarrow}(-{\infty},+{\infty}]$ 为m个凸函数， $h:R^m{\rightarrow}(-{\infty},+{\infty}]$ 为关于各分量单调递增的凸函数，令
$f(x)=h(f_1(x),f_2(x),\cdots,f_m(x))$
设 $z=(z_1,z_2,\cdots,z_m){\in}{\partial}h(f_1(\hat{x}),f_2(\hat{x}),\cdots,f_m(\hat{x}))$ ，以及 $g_1{\in}{\partial}f_i(\hat{x})$ ,则
$g=z_1g_1,z_2g_2,\cdots,z_mg_m{\in}{\partial}f(\hat{x})$
就是 $g$ 为 $f$ 在点 $\hat{x}$ 的一个次梯度
感觉就跟正常的链式法则一样

到此为此，第二章基础知识已经过完啦，当然后面的章节肯定会有用到这部分内容的，到时候再回头看巩固一下，第三章是优化建模哦！