以压缩感知问题为例介绍利用神经网络的Learning to learn方法

参考：David Wipf, Microsoft Research, Beijing, 2018
摘要：利用近端梯度下降算法，给出求解压缩感知问题的迭代软阈值和迭代硬阈值算法，并将迭代硬阈值算法通过Learning to learn方法进行改进，利用深度神经网络的模型进行学习.

复杂的例子：声源定位问题

声源空间位置为 $x$ ，传感器空间位置为 $y$ ，从声源空间到传感器空间的映射为

$y = Φ x + ϵ$ $y=\Phi x+\epsilon$

希望由传感器空间的数据估计声源空间的位置 $x$ .
在 $\Phi$ 矩阵很大时，对 $x$ 的估计很困难，但是当假定 $x$ 的大部分元素为 $0$ 时，声源估计问题可以表示为如下形式

$\hat{x} = \arg min_{x} | | y - Φ x | |_{2}^{2} + λ | | x | |_{0}$ $\hat{x}=\arg\min_x ||y-\Phi x||_2^2+\lambda ||x||_0$

由此引出我们的问题是：

min_{x} | | x | |_{0} s . t . y = Φ x

$\min_x ||x||_0 \quad s.t.\quad y=\Phi x$

这是一个NP-hard问题，放松约束以后的形式为如下四种

\begin{aligned} min_{x} | | y - Φ x | |_{2}^{2} + λ | | x | |_{1} \\ min_{x} | | y - Φ x | |_{2}^{2} + λ | | x | |_{0} \\ min_{x} | | y - Φ x | |_{2}^{2} s . t . | | x | |_{0} \leq r \\ min_{x} | | y - Φ x | |_{2}^{2} + I_{\infty} [| | x | |_{0} > r] \end{aligned}

$\begin{aligned} &\min_x ||y-\Phi x||^2_2 + \lambda||x||_1\\ & \min_x ||y-\Phi x||^2_2 + \lambda||x||_0\\ &\min_x ||y-\Phi x||^2_2\quad s.t.\quad ||x||_0 \leq r\\ &\min_x ||y-\Phi x||^2_2+I_\infty\left[||x||_0 > r\right] \end{aligned}$

其中，第一种为凸约束，后三种为非凸约束，后面两种形式是等价的，限制其非零元素的个数.
上述形式都是标准的

min_{x} f^{s} (x) + f^{n} (x)

$\min_x f^s(x)+f^n(x)$

的问题，利用近端梯度下降，对不同的形式可以得到不同的迭代算法：

凸约束下，得到迭代软阈值(IST)算法；
非凸约束下，得到迭代硬阈值(IHT)算法.

2. 迭代软阈值算法

优化问题

\hat{x} = \arg min_{x} | | y - Φ x | |_{2}^{2} + λ | | x | |_{1}

$\hat{x}=\arg\min_x ||y-\Phi x||^2_2 + \lambda||x||_1$

为标准的 $f^s(x)+f^n(x)$ 的形式，求解的基本思路如下：

对光滑部分，计算其梯度 $\bigtriangledown f^s(x)$ ，得到标准梯度下降算法的迭代公式；
对非光滑部分，求解近端问题 $prox_{\mu f^n(x)}(z)$ ，得到非线性变换公式；
联立两项得到单步迭代，即迭代软阈值算法.

下面开始进行求解.
首先计算 $f^s(x)$ 的梯度

▽ f^{s} (x) = Φ^{T} Φ x^{(k)} + Φ^{T} y

$\bigtriangledown f^s(x)=\Phi^T\Phi x^{(k)}+\Phi^Ty$

带入梯度下降更新公式，得到

\begin{aligned} x^{(k + 1)} & = x^{(k)} - \frac{1}{L} ▽ f (x^{(k)}) \\ = (I - \frac{1}{L} Φ^{T} Φ) x^{(k)} + \frac{1}{L} Φ^{T} y \\ = W_{1} x^{(k)} + W_{2} y \end{aligned}

$\begin{aligned} x^{(k+1)} &= x^{(k)}-\frac{1}{L}\bigtriangledown f(x^{(k)})\\ &=\left(I-\frac{1}{L}\Phi^T\Phi\right)x^{(k)}+\frac{1}{L}\Phi^Ty\\ &=W_1x^{(k)}+W_2y \end{aligned}$

其次，求解近端问题

p r o x_{μ f^{n} (x)} (z) = \arg min_{x} \frac{1}{2} | | x - z | |^{2} + μ f^{n} (x)

$prox_{\mu f^n(x)}(z)=\arg\min_x \frac{1}{2} ||x-z||^2+\mu f^n(x)$

其中， $f^n(x)=||x||_1$ . 带入得到

\begin{aligned} p r o x_{μ f^{n} (x)} (z) & = \arg min_{x} \frac{1}{2} | | x - z | |^{2} + μ | | x | |_{1} \\ = s i g n (z) max {| z | - μ, 0} \\ = S_{μ} (z) \end{aligned}

$\begin{aligned} prox_{\mu f^n(x)}(z)&=\arg\min_x \frac{1}{2} ||x-z||^2+\mu||x||_1\\ &=sign(z)\max\left\{|z|-\mu,0\right\}\\ &=S_\mu(z) \end{aligned}$

最后，将梯度下降更新公式带入近端问题，得到最终的迭代软阈值算法

\begin{aligned} x^{(k + 1)} & = S_{μ} [(I - \frac{1}{L} Φ^{T} Φ) x^{(k)} + \frac{1}{L} Φ^{T} y] \\ = S_{μ} [W_{1} x^{(k)} + W_{2} y] \end{aligned}

$\begin{aligned} x^{(k+1)}&=S_\mu\left[\left(I-\frac{1}{L}\Phi^T\Phi\right)x^{(k)}+\frac{1}{L}\Phi^Ty\right]\\ &=S_\mu\left[W_1x^{(k)}+W_2y\right] \end{aligned}$

可以看出，形式上基本由线性变化与非线性激活组成，这就为后续利用神经网络模型提供基础.

3. 迭代硬阈值算法

优化问题

\hat{x} = \arg min_{x} | | y - Φ x | |_{2}^{2} + I_{\infty} [| | x | |_{0} > r]

$\hat{x}=\arg\min_x ||y-\Phi x||^2_2 + I_\infty\left[||x||_0 > r\right]$

同样为标准的 $f^s(x)+f^n(x)$ 的形式，求解的基本思路如下：

对光滑部分，计算其梯度 $\bigtriangledown f^s(x)$ ，得到标准梯度下降算法的迭代公式；
对非光滑部分，求解近端问题 $prox_{\mu f^n(x)}(z)$ ，得到非线性变换公式；
联立两项得到单步迭代，即迭代硬阈值算法.

下面开始进行求解.
首先计算 $f^s(x)$ 的梯度

▽ f^{s} (x) = Φ^{T} Φ x^{(k)} + Φ^{T} y

$\bigtriangledown f^s(x)=\Phi^T\Phi x^{(k)}+\Phi^Ty$

带入梯度下降更新公式，得到

\begin{aligned} x^{(k + 1)} & = x^{(k)} - \frac{1}{L} ▽ f (x^{(k)}) \\ = (I - \frac{1}{L} Φ^{T} Φ) x^{(k)} + \frac{1}{L} Φ^{T} y \\ = W_{1} x^{(k)} + W_{2} y \end{aligned}

$\begin{aligned} x^{(k+1)} &= x^{(k)}-\frac{1}{L}\bigtriangledown f(x^{(k)})\\ &=\left(I-\frac{1}{L}\Phi^T\Phi\right)x^{(k)}+\frac{1}{L}\Phi^Ty\\ &=W_1x^{(k)}+W_2y \end{aligned}$

其次，求解近端问题

p r o x_{μ f^{n} (x)} (z) = \arg min_{x} \frac{1}{2} | | x - z | |^{2} + μ f^{n} (x)

$prox_{\mu f^n(x)}(z)=\arg\min_x \frac{1}{2} ||x-z||^2+\mu f^n(x)$

其中， $f^n(x)=I_\infty\left[||x||_0 > r\right]$ . 带入得到

\begin{aligned} p r o x_{μ f^{n} (x)} (z) & = \arg min_{x} \frac{1}{2} | | x - z | |^{2} + μ I_{\infty} [| | x | |_{0} > r] \\ ≐ {\bar{H}}_{r} [z] \end{aligned}

$\begin{aligned} prox_{\mu f^n(x)}(z)&=\arg\min_x \frac{1}{2} ||x-z||^2+\mu I_\infty\left[||x||_0 > r\right]\\ &\doteq \bar{H}_r[z] \end{aligned}$

其中，

{\bar{H}}_{r} [z_{i}] = {\begin{cases} z_{i} & : | z_{i} | 为 z 的 最 大 r 个 元 素 之 一 \\ 0 & : o t h e r w i s e \end{cases}

$\bar{H}_r[z_i]=\begin{cases} z_i\quad&:\quad|z_i|为z的最大r个元素之一\\ 0 \quad&:\quad otherwise \end{cases}$

最后，将梯度下降更新公式带入近端问题，得到最终的迭代硬阈值算法

\begin{aligned} x^{(k + 1)} & = {\bar{H}}_{r} [(I - \frac{1}{L} Φ^{T} Φ) x^{(k)} + \frac{1}{L} Φ^{T} y] \\ = {\bar{H}}_{r} [W_{1} x^{(k)} + W_{2} y] \end{aligned}

$\begin{aligned} x^{(k+1)}&=\bar{H}_r\left[\left(I-\frac{1}{L}\Phi^T\Phi\right)x^{(k)}+\frac{1}{L}\Phi^Ty\right]\\ &=\bar{H}_r\left[W_1x^{(k)}+W_2y\right] \end{aligned}$

4. IHT算法的Learning to learn提升

4.1 Learning to learn

假设我们的目标函数为

f_{θ} (x), θ \in Ω

$f_\theta(x),\quad \theta\in\Omega$

并假设已有训练集，这里采用有监督的训练对

$x_i^*$ 由别的优化算法得到. 若难以得到，则可用生成模型：随机生成 $x^*$ ，计算 $y=\Phi x^* + \epsilon$

{θ_{i}, x_{i}^{*} | θ_{i} \in Θ, x_{i}^{*} = \arg min_{x} f_{θ_{i}} (x), i = 1, 2, . . ., N}

$\left\{\theta_i,x_i^*|\theta_i\in\Theta,x_i^*=\arg\min_x f_{\theta_i}(x),i=1,2,...,N\right\}$

我们的核心目标是：

利用上述信息，学习一些参数化的函数 $g(\theta;\omega)$ ，使其满足

g (θ; \hat{ω}) \approx x^{*} = \arg min_{x} f_{θ} (x)

$g(\theta;\hat{\omega})\approx x^*= \arg\min_x f_\theta(x)$

通过 $\theta$ 到 $g$ 是一种新的学习算法. 而 $g$ 也是一个优化算法，即Learning to learn.

4.2 IHT算法的Learning to learn提升

回顾一下IHT算法的基本思路：

对光滑部分，计算其梯度 $\bigtriangledown f^s(x)$ ，得到标准梯度下降算法的迭代公式，记为 $\hat{h}(x,\theta;\omega)$ ；
对非光滑部分，求解近端问题 $prox_{\mu f^n(x)}(z)$ ，得到非线性变换公式；
联立两项得到单步迭代，即迭代硬阈值算法.

在第一步中，我们得到梯度下降的更新公式

x^{(k + 1)} = \hat{h} (x^{(k)}, θ; ω) = W_{1} x^{(k)} + W_{2} y

$x^{(k+1)}=\hat{h}(x^{(k)},\theta;\omega)=W_1x^{(k)}+W_2y$

其中， $\theta = y$ ， $W_1=I-\frac{1}{L}\Phi^T\Phi$ ， $W_2=\frac{1}{L}\Phi^T$ ， $\omega=\left\{W_1,W_2\right\}$

在第三步以后，我们得到IHT算法

x^{(k + 1)} = {\bar{H}}_{r} [W_{1} x^{(k)} + W_{2} y]

$x^{(k+1)}=\bar{H}_r\left[W_1x^{(k)}+W_2y\right]$

若将迭代硬阈值算法进行 $K$ 次，则可以得到我们的学习算法

\begin{aligned} \hat{x} & = x^{(K)} \\ = g (θ; ω) \\ = p r o x_{μ f^{n} (x)} [\hat{h} (\dots p r o x_{μ f^{n} (x)} [\hat{h} (x^{(1)}, θ; ω)] \dots, θ; ω)] \end{aligned}

$\begin{aligned} \hat{x}&=x^{(K)}\\ &=g(\theta;\omega)\\ &=prox_{\mu f^n(x)}\left[\hat{h}\left(\cdots prox_{\mu f^n(x)}\left[\hat{h}\left(x^{(1)},\theta;\omega\right)\right]\cdots,\theta;\omega\right)\right] \end{aligned}$

通常的深层神经网络为

而LIHT模型的深度神经网络模型为

取 $K=2$ ，则很明显这如下的网络结构，网络需要学习的可调参数为 $\omega$ .

训练过程：

通过已知的信息，可以给出网络的训练过程为对目标函数

min_{ω} \sum_{i = 1}^{N} ℓ [g (θ_{i}; ω), x_{i}^{*}]

$\min_\omega \sum_{i=1}^N\ell\left[g(\theta_i;\omega),x_i^*\right]$

的优化. 也可看作是非监督学习，其中 $\ell$ 为任意的损失函数或距离度量. 可以利用随机梯度下降等方式，得到 $\omega$ .

测试过程

给出新的函数 $f_{\theta'}$ ，即给出新的数据 $\theta'$ ，由训练得到的参数 $\hat{\omega}$ 计算

g (θ^{'}; \hat{ω}) \approx \arg min_{x} f_{θ^{'}} (x)

$g(\theta';\hat{\omega})\approx \arg\min_x f_{\theta'}(x)$

$g$ 就是新学习到的算法，也就是Learning to learn.

因此，我们的IHT算法变为一个Learning to learn方法，原始算法直接求出 $x$ 的稀疏最优解，而Learning to learn方法通过学习 $\omega$ 建立起从 $\theta$ 到 $x$ 映射. 即学习得到的不是某一个特定的解，而是一个从 $\theta$ 中学到的新的学习算法.

两者的区别：

原始方法是利用测量矩阵 $\Phi$ 计算 $\hat{x}$ ，Learning to learn方法中的 $\omega$ 是通过训练数据对 $\left\{\theta_i,x_i^*|\theta_i\in\Theta,x_i^*=\arg\min_x f_{\theta_i}(x),i=1,2,...,N\right\}$ 学习得到的.
有限等距性质对 $\Phi$ 的相关性提出一定要求，而利用Learning to learn方法可以很好的减轻 $\Phi$ 相关性对估计的影响.