文献会议笔记: Replacing/Enhancing Iterative Algorithms with Neural Networks Part 3: Accelerating Convergence via Optimal First-Order Iterative Algorithms and Learning-to-Learn Generalizations

参考：David Wipf, Microsoft Research, Beijing, 2018

摘要：首先介绍加速的梯度下降算法以及在近端梯度下降上的应用；介绍基于学习的梯度下降算法并于神经网络进行类比.

$\begin{aligned} x^{(k+1)}&=\arg\min_x \hat{f}(x;u^{(k)})\\ &=\arg\min_x \frac{L}{2}\bigg\lvert \bigg\lvert x-\left(u^{(k)}-\frac{1}{L}\bigtriangledown f^s(u^{(k)})\right)\bigg\rvert \bigg\rvert^2 + f^n(x)\\ &=prox_{\frac{1}{L}f^n} \left(u^{(k)}-\frac{1}{L}\bigtriangledown f^s(u^{(k)})\right) \end{aligned}$

由此，得到加速近端梯度下降算法：

\begin{aligned} k n o w n : & f^{s} 凸 可 微 函 数, ▽ f^{s} (x) 满 足 L - L i p s c h i t z \\ r e p e a t : & u^{(k)} = x^{(k)} + β^{(k)} (x^{(k)} - x^{(k - 1)}) \\ x^{(k + 1)} = p r o x_{\frac{1}{L} f^{n}} (u^{(k)} - \frac{1}{L} ▽ f^{s} (u^{(k)})) \end{aligned}

$\begin{aligned} known:\quad &f^s凸可微函数,\bigtriangledown f^s(x)满足L -Lipschitz\\ repeat:\quad &u^{(k)}=x^{(k)}+\beta^{(k)} (x^{(k)}-x^{(k-1)})\\ &x^{(k+1)}=prox_{\frac{1}{L}f^n} \left(u^{(k)}-\frac{1}{L}\bigtriangledown f^s(u^{(k)})\right)\\ \end{aligned}$

其中

β^{(k)} = \frac{t^{(k)} - 1}{t^{(k)} + 1}, t^{(k)} = \frac{1 + \sqrt{1 + 4 (t^{(k)})^{2}}}{2}, η = \frac{1}{L}

$\beta^{(k)}=\frac{t^{(k)}-1}{t^{(k)}+1},\quad t^{(k)}=\frac{1+\sqrt{1+4(t^{(k)})^2}}{2},\quad \eta = \frac{1}{L}$

和之前一样可以通过求解近端问题高效计算.

p r o x_{μ f^{n} (x)} (z) = \arg min_{x} \frac{1}{2} | | x - z | |^{2} + μ f^{n} (x)

$prox_{\mu f^n(x)}(z)=\arg\min_x \frac{1}{2} ||x-z||^2+\mu f^n(x)$

只要 $f^n$ 有高效的近端操作符，就可以使光滑+非光滑的优化函数有和光滑函数同样的收敛速度. 但此时需要多个过去的 $x$ 值，这就要求我们的网络能够存储过去的数据.

3. 通过学习进一步改善性能

在Part 2的第四部分，我们的学习依赖有监督的训练数据对.
现在由于我们使用Nesterov’s Optimal Method，利用了多个之前迭代的数据，优化不再需要一个目标，因此学习变为非监督的情形.

{f_{θ_{i}} : θ_{i} \in Ω, i = 1, 2, . . ., N} \subset F

$\left\{f_{\theta_i}:\theta_i\in \Omega,i=1,2,...,N\right\}\subset F$

Learning to (learn by gradient descent) by gradient descent算法提供了该问题的解答.

3.1 Learning by gradient descent & Learning to (learn by gradient descent) by gradient descent

首先回顾Learning by gradient descent：

优化目标：

$x^{*} = \arg min_{x} f_{θ} (x)$ $x^*=\arg\min_x f_\theta(x)$
优化器，梯度更新：

$x^{(k + 1)} = x^{(k)} - η^{(k)} ▽ f (x^{(k)})$ $x^{(k+1)}=x^{(k)}-\eta^{(k)} \bigtriangledown f(x^{(k)})$

而Learning to (learn by gradient descent) by gradient descent：

优化目标仍是 $f_\theta$ ，提供误差参数用于调整优化器；
优化器为 $\pi$ ，获得新的优化目标，梯度更新：
$x^{(k + 1)} = x^{(k)} + π^{(k)} [▽ f_{θ} (x^{(k)}); ω]$ $x^{(k+1)}=x^{(k)}+\pi^{(k)} \left[\bigtriangledown f_\theta(x^{(k)});\omega\right]$

其中， $\pi^{(k)}$ 是梯度和 $\omega$ 的函数，以参数 $\omega$ 更新网络，并能存储过去迭代的数据； $\omega$ 通过梯度下降获得.

3.2 对优化器的优化，即Learning to learn

利用之前的结果，有更新公式

x^{(k + 1)} = x^{(k)} + π^{(k)} [▽ f_{θ} (x^{(k)}); ω]

$x^{(k+1)}=x^{(k)}+\pi^{(k)} \left[\bigtriangledown f_\theta(x^{(k)});\omega\right]$

而经过 $K$ 次迭代后，得到学习算法

g (θ; ω) = x^{(K)} = x^{(K - 1)} + π^{(K - 1)} [▽ f_{θ} (x^{(K - 1)}); ω]

$g(\theta;\omega) = x^{(K)}=x^{(K-1)}+\pi^{(K-1)} \left[\bigtriangledown f_\theta(x^{(K-1)});\omega\right]$

基于无监督的目标，我们的优化函数为

min_{ω} \sum_{i = 1}^{N} f_{θ_{i}} [g (θ_{i}; ω)]

$\min_\omega \sum_{i=1}^N f_{\theta_i}\left[g(\theta_i;\omega)\right]$

其中一个便于训练的目标函数为

min_{ω} \sum_{i = 1}^{N} [\sum_{k = 1}^{K} w^{(k)} f_{θ_{i}} (x^{(k)})]

$\min_\omega \sum_{i=1}^N \left[\sum_{k=1}^K w^{(k)} f_{\theta_i}\left(x^{(k)}\right)\right]$

在 $w^{(k)}=I\left[w^{(k)}=K\right]$ 时，即 $K=1$ 且 $w=1$ 时，退化为原来的优化函数.

3.3 更细节的讨论

由

min_{ω} \sum_{i = 1}^{N} [\sum_{k = 1}^{K} w^{(k)} f_{θ_{i}} (x^{(k)})]

$\min_\omega \sum_{i=1}^N \left[\sum_{k=1}^K w^{(k)} f_{\theta_i}\left(x^{(k)}\right)\right]$

得到参数 $\omega$ ，因此可以利用更新公式

x^{(k + 1)} = x^{(k)} + π^{(k)} [▽ f_{θ} (x^{(k)}); ω]

$x^{(k+1)}=x^{(k)}+\pi^{(k)} \left[\bigtriangledown f_\theta(x^{(k)});\omega\right]$

进行计算.

定义

▽^{(k)} = ▽ f_{θ} (x^{(k)})

$\bigtriangledown ^{(k)}=\bigtriangledown f_\theta(x^{(k)})$

能够得到

[\begin{matrix} π^{(k)} \\ h^{(k + 1)} \end{matrix}] = Λ (▽^{(k)}, h^{(k)}; ω)

$\begin{bmatrix} \pi^{(k)}\\ h^{(k+1)} \end{bmatrix}=\Lambda\left(\bigtriangledown^{(k)},h^{(k)};\omega\right)$

其中， $\pi$ 为每一步的更新量， $h$ 为隐藏的状态， $\Lambda$ 为二层LSTM网， $\omega$ 为优化器参数.
最终得到的更新公式为

x^{(k + 1)} = x^{(k)} + π^{(k)}

$x^{(k+1)}=x^{(k)}+\pi^{(k)}$

网络结构如图所示：

对某个样本，定义代价函数 $f_{\theta_i}$ ，并进行初始化，通过RNN后，利用反向传播更新权值参数.

4. 总结

主要讨论了梯度下降的推广.

对算法的提速，使其收敛速度达到 $O(\frac{1}{k^2})$ ；
将Nesterov’s Optimal Method应用到非光滑情况，结合近端操作符；
通过学习进一步改善算法，结合 $K$ 次迭代，并利用LSTM存储之前指代的结果，得到学习算法.

缺点：

测试时需要计算梯度，计算量可能较大；
想要得到非近似解，需要计算二阶量；
不能很好的结合全局来避免局部极小；
不一定收敛，可能会发散；