文章目录

1 等式约束极值问题

1.1 拉格朗日乘子法（必要条件）

2 不等式约束极值问题

2.1 约束作用
2.2 不等式约束的几何解释
2.3 下降方向
2.4 可行方向
2.5 Fritz John条件（最优解必要条件）
2.6 Kuhn-Tucker条件（最优解必要条件 - 约束规格）
2.7 最优解必要条件

3 对偶问题

3.1 原始问题的等价问题
3.2 原始问题的对偶问题
3.3 原始问题与对偶问题关系

1 等式约束极值问题

考虑非线性规划
$\begin{aligned} \min &\quad f(\bm{x}) \quad \bm{x}\in\R^n \\ \text{s.t.} &\quad \varphi_i(\bm{x}) =0,\quad i=1,\cdots,m \end{aligned}$

由于自变量的相互独立性被约束条件破坏，因此不可任意使用求导后的结果。

1.1 拉格朗日乘子法（必要条件）

基本思想：通过引入拉格朗日乘子，将含有n个变量和m个约束条件的约束极值问题转化为含n+k个变量的无约束优化问题。拉格朗日乘子的数学意义为约束方程梯度的线性组合中每个向量的系数。

数学意义思想实例：求双曲线xy=3离远点最近的点？
问题的数学模型：
$\begin{aligned} \min &\quad x^2 + y^2 \\ \text{s.t.} &\quad xy=3 \end{aligned}$

等式约束也可通过变量替换的形式将约束条件加入目标函数，从而转换为无约束极值问题，但一般不易求解。
令目标函数 $f(x)=x^2+y^2$ ，约束函数 $\varphi(x)=xy-3=0$ ，如下图

图1 目标函数等值线簇与约束条件曲线

由图可知，当目标函数与约束曲面相切时（目标函数的梯度正交于约束曲面），可能取得最优值。当 $f(\bm x)$ 与 $\varphi(\bm x)$ 相交时，在等高线 $f(\bm x)$ 的内外侧一定存在更大或更小的等高线（目标值）。相切亦不一定保证是极值点，这与 $f(\bm x)$ 和 $\varphi(\bm x)$ 的凹凸性有关。

$f$ 和 $\varphi$ 在切点处的法向量平行，即满足 $\nabla f(\bm x)=\lambda \nabla \varphi(\bm x)$ ，即 $(2x, 2y)^T=\lambda(y, x)^T$ ，因此等式约束问题转换为
$\begin{cases} 2x=\lambda y \\ 2y = \lambda x \\ xy = 3 \end{cases}$

易求得上述方程的解为 $\{(x,y)\,|\,(-\sqrt 3, -\sqrt 3), (\sqrt 3, \sqrt 3)\}$ 。

一般性，对于等式约束极值问题，定义辅助拉格朗日函数
$L(\bm x, \bm \lambda)=f(\bm x) + \sum_{i=1}^m\lambda_i\varphi_i(\bm x)$

分别对 $\bm x$ 和 $\bm \lambda$ 求偏导，并令各偏导为0，得
$\begin{cases} \nabla f(\bm x) + \sum\limits_{i=1}^m \lambda_i \nabla \varphi_i(\bm x) = 0 \\ \varphi_i(\bm x) = 0, \quad i = 1,2,\cdots,m \end{cases}$

上述方程组，恰好给出了等式约束和最优解的必要条件。

证明：最优解处目标函数和约束函数法向量平行，以及拉格朗日函数的意义

假设寻求函数
$z=f(x, y)$

在条件
$\varphi(x,y)=0$

下的极值的必要条件。

假设 $(x_0, y_0)$ 处取得极值，首先满足 $\varphi(x_0, y_0)=0$ 。假定 $(x_0,y_0)$ 的某邻域内 $f(x,y)$ 和 $g(x,y)$ 均有一阶连续偏导，且 $\varphi_y(x,y)\neq 0$ 。由隐函数存在定理，存在具有连续导数的函数 $y=\psi(x)$ 使得
$z=f(x,\psi(x))$

由极值的必要条件，知
$\frac{\mathrm dz}{\mathrm dx}\Big |_{x=x_0}=f_x(x_0,y_0)+f_y(x_0,y_0)\frac{\mathrm dy}{\mathrm dx}\big |_{x=x_0}=0$

由隐函数求导公式，知
$\frac{\partial\varphi}{\partial x} + \frac{\partial\varphi}{\partial y}\frac{\mathrm dy}{\mathrm dx}=0 \quad \Rightarrow \quad \frac{\mathrm dy}{\mathrm dx}=-\frac{\varphi_x}{\varphi_y} \quad \Rightarrow \quad \frac{\mathrm dy}{\mathrm dx}\big |_{x=x_0}=-\frac{\varphi_x(x_0,y_0)}{\varphi_y(x_0,y_0)}$

因此
$\frac{f_x(x_0,y_0)}{\varphi_x(x_0,y_0)}=\frac{f_y(x_0,y_0)}{\varphi_y(x_0,y_0)}=-\lambda$

综上所述，最优解的必要条件
$\begin{cases} f_x(x_0,y_0)+\lambda \varphi_x(x_0,y_0)=0\\ f_y(x_0,y_0)+\lambda \varphi_y(x_0,y_0)=0\\ \varphi(x_0,y_0)=0 \end{cases}$

引入辅助拉格朗日函数 $L(x,y,\lambda)=f(x,y)+\lambda \varphi(x,y)$ ，令 $L(x,y,\lambda)$ 对各变量的偏导为0等价于上述方程组。

2 不等式约束极值问题

考虑非线性规划问题
$\begin{aligned} \min &\quad f(\bm{x}) \quad \bm{x}\in\R^n\\ \text{s.t.} &\quad g_i(\bm{x}) \leq 0,\quad i=1,\cdots,m\\ \end{aligned}$

可行域 $S=\{\bm{x}|g_i(\bm{x})\leq 0, i=1,2,\cdots,m\}$ 。

2.1 约束作用

设 $\bm x^*$ 上述非线性规划问题的一个可行解，根据可行解的位置，约束作用可分为两种：
当 $g_i(\bm x^*) = 0$ ， $\bm x^*$ 位于 $S$ 边界， $\bm x^*$ 变动受到约束，该约束条件是 $\bm x^*$ 的起作用约束，约束下标集 $I = \{i \, | \, g_i(\bm x^*) = 0\}$ ，图中A点；
当 $g_i(\bm x^*) < 0$ ， $\bm x^*$ 位于 $S$ 内部， $\bm x^*$ 变动不受约束，该约束条件是 $\bm x^*$ 的不起作用约束，图中B点；

图2 可行解的可能分布情况

2.2 不等式约束的几何解释

当约束区域 $S$ 包含目标函数原有可行解时，此时可行解满足 $g_i(\bm x^*)<0$ ，约束不起作用，等价于无约束极值问题；
当约束区域 $S$ 不包含原有可行解时，此时可行解满足 $g_i(\bm x^*)=0$ ，约束起作用，可使用拉格朗日方法求解。

因此可行解位于可行域内部时， $\lambda=0$ ；可行解位于可行域边界时， $g_i(\bm x^*)=0$ ，因此无论哪种情况，均有
$\lambda g_i(\bm x^*)=0$

图3 可行域不包含原有问题的解（左）和可行域包含原有问题的解（右）

由上图可知，可行解应尽可能靠近约束边界，目标函数的负梯度方向应朝向无约束时的解。对于该非线性规划问题，约束函数的梯度方向与目标函数的负梯度方向同向：
$-\nabla f(\bm x)=\lambda \nabla g_i(\bm x), \quad \lambda > 0$

梯度的方向
对于线性规划中的约束条件 $g_i(\bm x^*)\leq0$ ，可行域对应图3中的红色区域。由于梯度是函数增长的方向，可行域的边界值为0，内部值小于0，因此可行域内某点的梯度方向指向可行域边界（较大的函数值）。

注：若可行域为 $g_i(\bm x^*)\geq0$ ，则可行域内某点的梯度方向指向可行域中心。

2.3 下降方向

设 $\bm x^* \in \R^n$ ， $\bm{d}$ 是非零向量，若 $\exists \delta$ 使得每个 $\lambda \in (0, \delta)$ ，都有 $f(\bm x^* + \lambda \bm{d})<f(\bm x^* )$ ，则 $\bm{d}$ 是 $\bm x^*$ 处的下降方向。
若 $f(\bm{x^*})$ 可微，当 $\nabla f(\bm x^*)^T \bm{d}<0$ ，显然可推出上式成立（泰勒展开）。

2.4 可行方向

设 $\bm x^*$ 为可行解， $\bm{d}$ 是非零向量，若 $\exists \delta$ 使得每个 $\lambda \in (0, \delta)$ ，都有 $\bm x^* + \lambda \bm{d}\in S$ ，则称 $\bm{d}$ 为 $\bm x^*$ 处的可行方向。
$D= \{\bm{d}|\bm{d}\neq\bm 0, \bm x^* \in \text{cl S}, \exists \delta > 0, \forall \lambda \in (0, \delta), \bm x^*+\lambda \bm{d} \in S\}$ ，则称为 $\bm x^*$ 处的可行方向锥。

设 $\bm x^*$ 为可行解， $\bm{d}$ 是非零向量，对于 $\bm x^*$ 的所有起作用约束，若 $\exists \delta$ 使得每个 $\lambda \in (0, \delta)$ ，都有 $g_i(\bm x^* +\lambda \bm d) < 0$ ，即
$g_i(\bm x^* +\lambda \bm d) \approx g_i(\bm x^*)+ \nabla g_i(\bm x^*)^T \bm d = \nabla g_i(\bm x^*)^T \bm d < 0, \quad i \in I$

即当 $i\in I$ ，只要满足 $\nabla g_i(\bm x^*)^T\bm{d} < 0$ ，则 $g_i(\bm x^* +\lambda \bm d)< 0$ ，即 $\bm d$ 为 $\bm x^*$ 的可行方向。

2.5 Fritz John条件（最优解必要条件）

由下降方向和可行方向的定义可知，若 $\bm x^*$ 是最优解，则 $\bm x^*$ 处的可行方向一定不是下降方向。
代数表示为，下列方程组无解
$\begin{cases} \nabla f(\bm x^*)^T\bm d\lt0 \\ \nabla g_i(\bm x^*)^T \bm d <0, \quad i \in I \end{cases}$

根据Gordan定理，必存在非零向量 $\bm \omega=(\omega_0,\omega_i, i\in I) \geq \bm 0$ ，使得
$\omega_0\nabla f(\bm x^*) + \sum_{i\in I}\omega_i\nabla g_i(\bm x^*)=\bm 0$

引理 Farkas
设 $a_1,\cdots,a_m$ 和 $b$ 是n维向量，则存在向量 $p$ ，满足 $a_i^Tp\ge 0$ 且 $b^Tp\ge 0$ 的充要条件是，存在非负数 $r_i$ 使得 $b=\sum\limits_{i=1}^m\gamma_ia_i$ 。
简单理解是，向量 $p$ 与所有 $a_i$ 和 $b$ 之间的夹角不超过 $\pi$ ，故向量 $b$ 与 $a_i$ 位于"同侧"，图4左图。

引理 Gordan
设 $a_1,\cdots,a_m$ 和 $b$ 是n维向量，则不存在向量 $p$ ，使得 $a_i^Tp\lt0$ 的充要条件是，存在非负数 $r_i$ 使得 $\sum\limits_{i=1}^m\gamma_ia_i=0$ 。
简单理解是，向量 $a_1, \cdots, a_m$ 中，存在夹角超过 $\pi$ 的两个向量，即 $a1, \cdots, a_m$ 位于"不同侧"，图4右图。

图4 Farkas引理和Gordan引理的几何意义

2.6 Kuhn-Tucker条件（最优解必要条件 - 约束规格）

Fritz John条件中，当 $\omega_0=0$ 时，梯度组合未包含目标函数信息。著名的K-T条件，增加起作用约束的梯度线性无关的约束规格。

若 $\bm x^*$ 是局部最优解，则存在非负数 $\omega_i$ ， $i\in I$ ，使得
$\nabla f(\bm x^*) + \sum_{i\in I}\omega_i\nabla g_i(\bm x^*)=\bm 0$

证明方法(1)
由存在非零向量 $\bm \omega=(\omega_0,\hat \omega_i, i\in I) \geq \bm 0$ ，使得
$\omega_0\nabla f(\bm x^*) + \sum_{i\in I} \hat \omega_i\nabla g_i(\bm x^*)=\bm 0$

显然 $\omega_0\neq0$ ，因为 $\omega_0=0$ 时， $\{\nabla g_i(\bm x^*)\,|\,i \in I\}$ 线性相关，因此令 $\omega_i=\hat \omega_i/\omega_0$ ，得
$\nabla f(\bm x^*) + \sum_{i\in I}\omega_i\nabla g_i(\bm x^*)=\bm 0, \qquad \omega_i\geq0$

证明方法(2)
引入辅助函数 $L(\bm x, \bm\omega)=f(\bm x)+\bm\omega^Tg(\bm x)$ ，假设 $\bm x^*$ 是原问题的最优解，由于 $g(\bm x)\leq\bm0$ ， $\bm\omega\geq\bm0$ ，故
$L(\bm x, \bm\omega)=f(\bm x)+\bm\omega^Tg(\bm x)\geq f(\bm x^*)$

因此， $L(\bm x, \bm\omega)$ 在 $\bm x^*$ 处梯度为 $\bm 0$ ，即
$\nabla f(\bm x^*) + \sum_{i\in I}\omega_i\nabla g_i(\bm x^*)=\bm 0, \qquad \omega_i\geq0$

因此若 $g_i(i\notin I)$ 在 $\bm x^*$ 可微，则 $K-T$ 条件的等价形式：
$\begin{cases} \nabla f(\bm x^*) + \displaystyle\sum\limits_{i=1}^m \omega_i\nabla g_i(\bm x^*)=\bm 0 &\qquad(1)\\ \omega_ig_i(\bm x^*)=0, \qquad i=1,2,\cdots,m &\qquad(2)\\ \omega_i \geq 0,\qquad i=1,2,\cdots,m &\qquad(3) \end{cases}$

当 $i\notin I$ 时， $g_i(\bm x^*)\neq0$ ，故 $\omega_i=0$ ，项 $\omega_i\nabla g_i(\bm x^*)$ 从 $(1)$ 式中自然消去；
当 $i\in I$ 时， $g_i(\bm x^*)=\bm 0$ ，条件 $(2)$ 对 $\omega_i$ 没有限制，条件 $(2)$ 称为互补松弛条件。

2.7 最优解必要条件

若非线性规划问题中，目标函数 $f(\bm x)$ 和 $g(\bm x)$ 均为凸函数，约束作用集 $I = \{i\ |\ g_i(\bm x^*)=0\}$ ， $f$ 和 $g_i(i\in I)$ 在 $\bm x^*$ 处可微， $g_i(i\notin I)$ 在点 $\bm x^*$ 处连续，若点 $\bm x^*$ 处K-T条件成立，则 $\bm x^*$ 为全局最优解。

证明：显然可行域为凸集， $f$ 为凸函数，此问题为凸规划。
凸函数 $f(\bm x)$ ，满足
$f(\bm x) \geq f(\bm x^*)+\nabla f(\bm x^*)^T(\bm x- \bm x^*)$

由于 $\bm x^*$ 处K-T条件成立，故 $\nabla f(\bm x^*) = - \displaystyle\sum\limits_{i=1}^m \omega_i\nabla g_i(\bm x^*)$ ， $\omega_i$ 非负，因此
$f(\bm x) \geq f(\bm x^*)-\sum\limits_{i\in I}\omega_i\nabla g_i(\bm x^*)^T(\bm x-\bm x^*)$

同理，由于 $g_i(\bm x)(i \in I)$ 为凸函数，满足
$g_i(\bm x) \geq g_i(\bm x^*)+\nabla g_i(\bm x^*)^T(\bm x- \bm x^*)$

由于 $g_i(\bm x^*)=0$ ， $g_i(\bm x)\geq0$ ，故 $\nabla g_i(\bm x^*)^T(\bm x- \bm x^*)\leq0$ ，因此
$f(\bm x) \geq f(\bm x^*)$
$f(\bm x^*)$ 为最小值，问题得证。

3 对偶问题

考虑非线性规划问题，令 $g(\bm x)=(g_1(\bm x), g_2(\bm x), \cdots, g_m(\bm x))^T$ ， $\bm h(\bm x)=(h_1(\bm x), h_2(\bm x), \cdots, h_l(\bm x))^T$ ，则
$\begin{aligned} \min\limits_{x\in\R^n} &\quad f(\bm x) \\ \text{s.t.} &\quad \bm g(\bm x)\leq \bm 0\\ &\quad \bm h(\bm x) = \bm 0 \end{aligned}$

可行域 $S=\{\bm{x}\ |\ \bm g(\bm x)\leq \bm 0;\ \bm h(\bm x) = \bm 0\}$ ，引入广义拉格朗日函数 $L(\bm x, \bm\omega, \bm\upsilon)=f(\bm x)+\bm\omega^T\bm g(\bm x)+\bm\upsilon^T \bm h(\bm x)$ 。

3.1 原始问题的等价问题

对于上述非线性规划问题，，令
$\theta_P(\bm x) = \max\limits_{\bm\omega, \bm\upsilon} L(\bm x, \bm\omega, \bm\upsilon)$

(i) $\bm x$ 违反约束， $\bm x \notin S$ ，此时 $\theta_P(\bm x) \to +\infty$
当 $g_i(\bm x^*)>0$ ，则可令 $\omega_i \to +\infty$ ，当 $h_i(\bm x^*)\neq 0$ ，令 $\upsilon_ih_i(\bm x ^*) \to +\infty$ ，而将其他 $\omega_j$ 和 $\upsilon_j$ 置0，则 $\theta_P(\bm x) \to +\infty$ 。

(ii) $\bm x$ 满足约束， $\bm x \in S$ ，此时 $\theta_P(\bm x) = f(\bm x)$
当且仅当 $x$ 位于约束边界时， $\theta_P(\bm x) = f(\bm x)$ 。

综上所述，有
$\max\limits_{\bm\omega, \bm\upsilon} L(\bm x, \bm\omega, \bm\upsilon) = \begin{cases} f(\bm x), \quad \bm x \in S\\ +\infty, \quad \bm x \notin S \end{cases}$

因此，原始问题的等价问题： $\min\limits_{\bm x}\max\limits_{\bm\omega, \bm\upsilon} L(\bm x, \bm\omega, \bm\upsilon)$ ，其中 $\bm x \in S$ ，即拉格朗日极小极大问题，先求最优 $\bm\omega$ 和 $\bm\upsilon$ ，再求最优 $\bm x$ 。

3.2 原始问题的对偶问题

原问题的对偶问题为
$\begin{aligned} \max\limits_{\bm \omega, \bm\upsilon} &\quad\min\limits_{\bm x}L(\bm x, \bm\omega, \bm\upsilon)\\ \text{s.t.} &\quad \bm\omega \geq\bm 0\\ \end{aligned}$

对偶问题为拉格朗日极大极小问题，先求最优 $\bm x$ ，再求最优 $\bm\omega$ 和 $\bm\upsilon$ 。

3.3 原始问题与对偶问题关系

当 $\bm x \in S$ 时， $g(\bm x)\leq\bm0$ ， $h(\bm x)=\bm0$ ，且 $\bm\omega\geq0$ ，因此
$\min\limits_{\bm x}L(\bm x, \bm\omega, \bm\upsilon) =\min_{\bm x}f(\bm x) + \min_{\bm x}\bm\omega^T \bm g(\bm x)+\min_{\bm x}\bm\upsilon^T\bm h(\bm x) \leq f(\bm x)$

对上述不等式的左边取上界（max）、右边取下界（min），则不等式仍然成立，即
$\max\limits_{\bm\omega,\bm\upsilon}\min\limits_{\bm x}L(\bm x, \bm\omega, \bm\upsilon) \leq \min\limits_{\bm x}f(\bm x)=\min\limits_{\bm x}\max\limits_{\bm\omega, \bm\upsilon} L(\bm x, \bm\omega, \bm\upsilon)$

即原问题目标函数的最小值不小于对偶问题目标函数的最大值，弱对偶定理。

原问题的解等价于对偶问题的解成立的条件是什么？（强对偶定理）
(i) 若 $f$ 和 $g$ 是凸函数， $h$ 是仿射函数，若存在 $\bm x$ ，对所有 $i$ 满足 $g_i(\bm x)\lt0$ ，则存在 $\bm x^*, \bm\omega^*,\bm\upsilon^*$ ，使 $\bm x^*$ 是原始问题的解， $\bm\omega^*,\bm\upsilon^*$ 是对偶问题的解，且目标值相同。

(ii) 若 $f$ 和 $g$ 是凸函数， $h$ 是仿射函数，且 $g_i(\bm x)\leq 0$ ，则存在 $\bm x^*$ 和 $\bm\omega^*,\bm\upsilon^*$ 分别是原始问题和对偶问题的解的充分必要条件是 $\bm x^*,\bm\omega^*,\bm\upsilon^*$ 满足KKT条件，即
$\begin{cases} \nabla f(\bm x^*) + \displaystyle\sum\limits_{i=1}^m \omega_i\nabla g_i(\bm x^*)=\bm 0 \\ \omega_ig_i(\bm x^*)=0, \qquad i=1,2,\cdots,m \\ g_i(\bm x^*)\leq 0, \qquad i=1,2,\cdots,m \\ \omega_i \geq 0,\qquad i=1,2,\cdots,m \\ h_j(\bm x^*)=0,\qquad j=1,2,\cdots,l \end{cases}$

参考文献：

约束优化方法之拉格朗日乘子法与KKT条件：https://www.cnblogs.com/ooon/p/5721119.html
约束最优化方法之最优性条件：https://blog.csdn.net/u012430664/article/details/78745729

约束极值问题：拉格朗日乘子法、KKT条件与对偶理论