乘子罚函数

考虑等式约束问题：
$\begin{aligned} \min ~~& f({x})\\ \text{s.t.} ~~& c_i(x) = 0, i = 1,2,\cdots,m \end{aligned}$
其 Courant 罚函数
$\begin{aligned} \phi(x,\sigma) = & f(x) + \frac{1}{2}\sigma\sum_i(c_i(x))^2 \\ = & f(x) + \frac{1}{2}\sigma c(x)^Tc(x) \end{aligned}$
在 $\sigma_k \to \infty$ 时，得到一个局部极小点 $x^*$ 。确切地说，罚函数在极小点 $x^{(k)}$ 处不再精确满足 $c_i(x) = 0, i \in \mathcal{E}$ ，而是被扰动为
$c_i^{(k)} \approx \frac{ {\lambda_i}^*}{\sigma_k}, i \in \mathcal{E}$
则有
$\left. \begin{aligned} c_i^{(k)} \to 0 \\ \exists i,~~ \lambda_i^* \neq 0 \end{aligned} \right \} \Rightarrow \sigma_k \to \infty$

动机

构造新的罚函数，使得固定某罚参数后，无约束优化问题的解与原始问题的相同！

改造约束函数

对 $c_i(x)$ 进行平移，即在罚函数中使用 $c_i(x) - \theta_i$ 代替 $c_i(x)$ ，使得对于有限的 $\sigma$ ， $\phi$ 可以在 $x^*$ 处取得极小值。该种方法由 Powell 于 1969 年提出。
$\phi(x,\theta,\sigma) = f(x) + \frac{1}{2}\sigma \sum_{i \in \mathcal{E}} (c_i(x) - \theta_i)^2$
例考虑问题
$KaTeX parse error: No such environment: equation* at position 8: \begin{̲e̲q̲u̲a̲t̲i̲o̲n̲*̲}̲\begin{aligned}…$
的乘子罚函数
$\phi(x,\sigma) = x + \frac{1}{2}\sigma(1 - x - \theta)^2$
如下图所示：

乘子罚函数-约束平移

由上图可知，该方法能够保证在 $\sigma$ 有限的情况下，通过调整 $\theta$ 的大小以保证 $x^*$ 就是 $\phi(x,\theta,\sigma)$ 的最优解，从而避免了极限 $\sigma \to \infty$ 的病态问题。

改造目标函数

改造目标函数以避免对系统的扰动，即对适中的 $\sigma_k$ ，近似极小点更好地满足等式约束 $c_i(x) = 0$ 。该方法由 Hestenes 于 1969 年提出，通过在罚函数中引入 Lagrange 乘子的显式估计可达到这种目标。
$\phi(x,\lambda,\sigma) = f(x) + \lambda^T c(x) + \frac{1}{2} \sigma c(x)^Tc(x)$
该方法由于引入了乘子项 $\lambda^Tc(x)$ ，因此也称为乘子罚函数；又因为在 Lagrange 函数中引入罚项 $\frac{1}{2} \sigma c(x)^Tc(x)$ 也可以得到，因而又称增广 Lagrange 函数。

Powell-Hestenes 函数

其实，令
$\lambda_i = -\theta_i\sigma, i = 1,2,\cdots,m$
Powell 函数展开后只比 Hestenes 函数多了一个与 $x$ 无关项 $\frac{1}{2}\sigma\sum_i\theta_i^2$ ，因此将 Hestenes 函数也称为 Powell-Hestenes 函数。

乘子罚函数的性质及特点

精确性

定理 1 如果 $x^*$ ， $\lambda^*$ 处二阶充分条件成立，则 $\exists \sigma'\geq 0$ ，对于 $\forall \sigma \geq \sigma'$ ， $x^*$ 为 $\phi(x,\lambda^*,\sigma)$ 的严格局部极小点，即 $x^* = x(\lambda^*)$ 。

在实际中，并不能得到 $\lambda^*$ 的精确值，该结论表明：若 $\lambda$ 是 $\lambda^*$ 的好的估计，那么对于不是很大的 $\sigma$ ，通过极小化 $\phi(x,\lambda,\sigma)$ 可以得到 $\lambda^*$ 的好的估计。

乘子的特点

子问题是光滑的
- 可以利用"使用导数的方法"求解子问题
一定条件下，不需要 $\sigma_k \to \infty$
- 避免了病态的 Hessian 矩阵

算法

选取充分大的控制参数 $\sigma$ 后，用 $\lambda$ 作为序列极小化算法中的控制参数，有如下算法：

算法 1 乘子法求解算法

选择一个乘子序列 $\{\lambda^{(k)}\}$ ，使得 $\lambda^{(k)} \to \lambda^*$
do

对于 $\forall \lambda^{(i)}$ ，求解
$\min_x~~\phi(x,\lambda^{(k)},\sigma)$
的最优解 $x(\lambda^{(k)})$ 。

while $c(x(\lambda^{(k)}))$ 充分小

实际中，如何确定乘子序列，以及罚参考如何选择将是需要解决的首要问题。

乘子更新

欲求解 $\phi(x,\lambda,\sigma)$ 的极小点
$x(\lambda) = \mathop{\arg\min}_{x \in \mathbb{R}^n} \phi(x,\lambda,\sigma)$
需求
$\begin{aligned} \nabla\phi(x,\lambda,\sigma) &= \nabla f(x) + \sum_{i \in \mathcal{E}}(\lambda_i + \sigma c_i(x)) \nabla c_i(x) \\ &= 0 \end{aligned}$
在确定 $x(\lambda)$ 后，得
$\psi(\lambda) \mathop{\colon =} \phi(x(\lambda),\lambda,\sigma)$
则
$\lambda^* = \mathop{\arg\max}_{\lambda\in \mathbb{R}^m}\psi(\lambda)$
计算可得
$\begin{aligned} \nabla \psi(\lambda) &=& c(x(\lambda)) \\ \nabla^2 \psi(\lambda) &=& \frac{d c}{d \lambda} = - A^TW_{\sigma}^{-1}A |_{x(\lambda)} \end{aligned}$
其中
$\begin{aligned} W_{\sigma} &=& \nabla^2_x\phi(x,\lambda,\sigma) = W + \sigma AA^T \\ W &=& \nabla^2f(x) + \sum_{i} [\lambda_i + \sigma c_i(x)] \nabla^2c_i(x) \end{aligned}$
且 $[\nabla c_1(x), c_2(x),\cdots,c_m(x)]$ 。

牛顿法

按照牛顿法迭代选取序列 $\{\lambda^{(k)}\}$ ，确定初始 $\lambda^0$ ，再利用
$\lambda^{(k +1)} = \lambda^{(k)} + (A^T W_{\sigma}^{-1}A)^{-1}c|_{x(\lambda^{(k)})}$
这种方式用到了 $W_{\sigma}$ 二阶导数的显式表达，只有一阶导可用时，可以利用拟牛顿法进行近似。

对于充分大的 $\sigma$ ，有
$(A^T W_{\sigma}^{-1}A)^{-1} \approx \sigma I$
因此，得到迭代
$\lambda^{(k +1)} = \lambda^{(k)} + \sigma c_i^{(k)}, i \in \mathcal{E}$
该式不需要任何导数，通过充分大的 $\sigma$ 可以让 $\lambda^{(k)}$ 以任意快的速度线性收敛于 $\lambda^*$ 。

例考虑等式规划问题
$KaTeX parse error: No such environment: equation* at position 8: \begin{̲e̲q̲u̲a̲t̲i̲o̲n̲*̲}̲\begin{aligned}…$
结果如下表所示：

不同的的修正结果

罚参数更新

给定初始罚参数 $\sigma$ ，解得最优解 $x^{(0)}$ 和乘子的估计 $\lambda^{(1)}$

第 $k$ 次迭代，固定参数 $\sigma$ 和 $\lambda^{(k)}$ ，得到 Warm-start 技术
$\mathop{\arg\min}_{x\in \mathbb{R}^n} \phi(x,\lambda^{(k)},\sigma)$
根据需要更新的罚参数

若 $\|c(x')\|_{\infty} > \frac{1}{4} \|c^{(k-1)}\|_{\infty}$ ，令
$\sigma = 10 \sigma,x^{(k-1)} = x'$
重复第 $k$ 次迭代
否则，令
$x^{(k)} = x', \lambda^{(k+1)} = \lambda^{(k)} + \sigma c(x^{(k)})$
令 $k = k + 1$ ，进行第 $k$ 次迭代。

参考资料

[1] 刘红英，夏勇，周永生. 数学规划基础，北京，北京航空航天大学出版社，2012.

【最优化】乘子罚函数