文献会议笔记: Replacing/Enhancing Iterative Algorithms with Neural Networks Part 4: Analysis and Extension to MultiLoop Iterative Algorithms

参考：David Wipf, Microsoft Research, Beijing, 2018

摘要：从最大稀疏估计出发，讨论基于学习的方法带来的性能提升；利用稀疏贝叶斯学习方法进一步提升性能，将其扩展到多循环算法的形式；将SBL模型与神经网络进行类比，并提出门反馈稀疏估计网络.

总是存在每一层的权值 $\left\{W_1,W_2\right\}$ ，使得实际起作用的RIP常量减小. 其中， $\Psi$ 是任意的，而 $D$ 为对角阵.

$δ_{3 r}^{*} [Φ] = inf_{Ψ, D} δ_{3 r}^{*} [Ψ Φ D] \leq δ_{3 r} [Φ]$ $\delta_{3r}^*[\Phi] = \inf_{\Psi,D} \delta_{3r}^*[\Psi\Phi D]\leq \delta_{3r}[\Phi]$
上述命题意味着：
对于比较大的RIP常量，此时测量矩阵 $\Phi$ 具有较强的相关性. 而总是能学到合适的权值 $\left\{W_1,W_2\right\}$ ，从而减小起作用的RIP常量，使得测量矩阵 $\Phi$ 具有较弱的相关性.

因此，学习带来的提升就是：提高对相关性的容忍度.

最终得到的迭代其收敛条件为

\begin{aligned} y = Φ x^{*} \\ | | x^{*} | |_{0} \leq r \\ δ_{3 r} [Φ] < \frac{1}{\sqrt{32}} \end{aligned}

$\begin{aligned} &y=\Phi x^*\\ &||x^*||_0 \leq r\\ &\delta_{3r}[\Phi] < \frac{1}{\sqrt{32}} \end{aligned}$

迭代公式

x^{(k + 1)} = {\bar{H}}_{r} [{\bar{W}}_{1} x^{(k)} + {\bar{W}}_{2} y], x^{(1)} = 0

$x^{(k+1)}=\bar{H}_r\left[\bar{W}_1 x^{(k)}+\bar{W}_2y\right],\quad x^{(1)}=0$

能准确收敛到 $x^*$ ，且对相关性由较高的容忍度.

学习的作用可以表示如下：

理想情况下，RIP常量较小，不需要学习. 例如

$Φ_{(u n c o r r)} : N (0, v)$ $\Phi_{(uncorr)}:\quad N(0,v)$
相关情况，利用优化学习处理. 其中， $\Delta$ 为低秩矩阵.

${\begin{cases} Φ_{(c o r r)} = Ψ Φ_{(u n c o r r)} D \\ Φ_{(c o r r)} = [Φ_{(u n c o r r)} + Δ] D \end{cases}$ $\begin{cases} \Phi_{(corr)}=\Psi \Phi_{(uncorr)}D\\ \\ \Phi_{(corr)}=\left[\Phi_{(uncorr)}+\Delta\right]D \end{cases}$

更复杂的相关结构需要用更复杂的网络来实现，线性变换层与可调的非线性激活层；有时在获得理想的RIP常量时， $\Delta$ 也可能是满秩矩阵.

限制：

现在使用的算法，如IHT，ISTA等，都对字典的一致性敏感；
学习参数 $\left\{W_1,W_2\right\}$ 对性能的改善有限；
通过调整(通常是调整非线性激活)会使结构脱离标准高效的RNN/CNN结构.

因此下一步目标变为：
假设我们的算法已经能够处理具有一定相关性的测量矩阵 $\Phi$ 的问题，需要将其映射到一种强适应能力的RNN网络.

3. 稀疏贝叶斯(Sparse Bayesian Learning)

参考文献：
1. From Bayesian Sparsity to Gated Recurrent Nets
2. Sparse Bayesian Learning for Basis Selection

3.1 SBL模型

由参考文献1.，最大后验等价为最小化负对数似然，而得到损失函数负对数似然为

\begin{aligned} l (γ) & = y^{T} Σ_{y}^{- 1} y + \log | Σ_{y} |, w i t h Σ_{y} = Φ Γ Φ^{T} + λ I \\ = y^{T} {(Φ Γ Φ^{T} + λ I)}^{- 1} + \log | Φ Γ Φ^{T} + λ I | \end{aligned}

$\begin{aligned} l(\gamma)&=y^T\Sigma_y^{-1}y+\log|\Sigma_y|,\quad with\quad \Sigma_y =\Phi\Gamma\Phi^T+\lambda I\\ &=y^T\left(\Phi\Gamma\Phi^T+\lambda I\right)^{-1}+\log|\Phi\Gamma\Phi^T+\lambda I| \end{aligned}$

其中， $\gamma$ 与解的稀疏程度密切相关：当 $\gamma_i=0$ 时，相应的 $x_i=0$ . 因此， $\gamma$ 的学习规则是SBL算法最核心的部分.
求出 $\gamma^*$ 后，可以得到稀疏解

\begin{aligned} \hat{x} & = E [x | y; γ^{*}] \\ = Γ^{*} Φ^{T} Σ_{y}^{- 1} y \\ = Γ^{*} Φ^{T} {(Φ Γ^{*} Φ^{T} + λ I)}^{- 1} y \end{aligned}

$\begin{aligned} \hat{x}&=E[x|y;\gamma^*]\\ &=\Gamma^*\Phi^T\Sigma_y^{-1}y\\ &=\Gamma^*\Phi^T\left(\Phi\Gamma^*\Phi^T+\lambda I\right)^{-1}y \end{aligned}$

从这里可以看到一些EM算法的影子.

由参考文献2.，得到高斯的

x_{M A P} = \arg min_{x} λ | | y - Φ x | |^{2} + \sum_{y} | x_{i} |^{p}

$x_{MAP}=\arg\min_x \lambda||y-\Phi x||^2+\sum_y|x_i|^p$
取

p \to 0

$p\rightarrow 0$ ，则第二项就是

L_{0}

$L_0$ 范数.
通过最开始的讨论，我们发现该问题实际上可以等价为

min_{x} | | x | |_{0} s . t . y = Φ x

$\min_x ||x||_0\quad s.t.\quad y=\Phi x$

其放松形式为

\begin{aligned} min_{x} | | y - Φ x | |_{2}^{2} + λ | | x | |_{0} \\ min_{x} | | y - Φ x | |_{2}^{2} s . t . | | x | |_{0} \leq r \\ min_{x} | | y - Φ x | |_{2}^{2} + I_{\infty} [| | x | |_{0} > r] \end{aligned}

$\begin{aligned} &\min_x ||y-\Phi x||^2_2 + \lambda||x||_0\\ &\min_x ||y-\Phi x||^2_2\quad s.t.\quad ||x||_0 \leq r\\ &\min_x ||y-\Phi x||^2_2+I_\infty\left[||x||_0 > r\right] \end{aligned}$

因此，有如下结论：

\begin{aligned} \hat{x} & = E [x | y; γ^{*}] \\ = Γ^{*} Φ^{T} {(Φ Γ^{*} Φ^{T} + λ I)}^{- 1} y \\ \approx \arg min_{x} | | y - Φ x | |_{2}^{2} + λ | | x | |_{0} \end{aligned}

$\begin{aligned} \hat{x}&=E[x|y;\gamma^*]\\ &=\Gamma^*\Phi^T\left(\Phi\Gamma^*\Phi^T+\lambda I\right)^{-1}y\\ &\approx \arg\min_x ||y-\Phi x||^2_2 + \lambda||x||_0 \end{aligned}$

可以发现，SBL通过 $\gamma$ ，自动地补偿了 $\Phi$ 的相关性.

3.2 多循环扩展

由参考文献2.，将 $L_0$ 范数 $||x||_0$ 用一个光滑的近似 $g(|x_i|)=f(\gamma;\Phi^T\Phi)|x_i|$ 代替，得到迭代形式

x^{(k + 1)} \leftarrow \arg min_{x} | | y - Φ x | |_{2}^{2} + λ \sum_{i} w_{i} (γ^{(k)}) | x_{i} |

$x^{(k+1)}\leftarrow \arg\min_x ||y-\Phi x||^2_2 + \lambda \sum_i w_i(\gamma^{(k)})|x_i|$

这是内循环，形式上是 $f^s+f^n$ ，可以用近端梯度下降(迭代软阈值)求解. 我们可以看到 $L_1$ 范数各项再分配的权值 $w_i$ 由相关性决定，能够补偿强相关性.

求解内循环的迭代软阈值算法

$\begin{aligned} d e f i n e x^{(k, 1)} = x^{(k)} \\ f o r t = 1, 2, . . ., T \\ x^{(k, t + 1)} = S_{μ} [(I - \frac{1}{L} Φ^{T} Φ) x^{(k, t)} + \frac{1}{L} Φ^{T} y], μ = \frac{λ}{L} w (γ^{(k)}) \\ e n d \\ x^{(k + 1)} = x^{(k, T)} \end{aligned}$ $\begin{aligned} &define \quad x^{(k,1)}=x^{(k)}\\ &for \quad t=1,2,...,T\\ &\quad \quad x^{(k,t+1)}=S_\mu\left[\left(I-\frac{1}{L}\Phi^T\Phi\right)x^{(k,t)}+\frac{1}{L}\Phi^Ty\right],\mu=\frac{\lambda}{L}w(\gamma^{(k)})\\ &end\\ &x^{(k+1)}=x^{(k,T)} \end{aligned}$
另外还有 $\gamma$ 的迭代形式
$γ_{i}^{(k + 1)} \leftarrow | x^{(k + 1)} | w_{i} (γ^{(k)})^{- 1}, \forall i$ $\gamma^{(k+1)}_i\leftarrow |x^{(k+1)}|w_i(\gamma^{(k)})^{-1},\forall i$

这是外循环. 内外循环结合，即多循环算法，但仍存在以下不足：

可能失败；
不清楚怎么自适应地调整内循环迭代次数T.

3.3 Neural Network Analogue for SBL

从参考文献得到类比结果为

观测向量 $y$ 为网络输入，随着每一步时间都不会发生改变；
SBL估计的超参数 $\gamma^{(t)}$ 为 $t$ 时间步的网络输出；
隐藏的数据 $x$ 为隐藏的记忆单元；
门 $\sigma$ 取决于 $\Phi^T\Phi$ .

但这样的类比也存在局限性：

只有在 $T=1$ 的情况下，即内循环是只有一次迭代的迭代软阈值的情况才能作此类比；
在 $T>1$ 时，没有合适的结构；
而我们希望能有更多层的结构，为了避免局部极小和提高效率.

3.4 Gated Feedback Sparse Estimation Network

多循环迭代，可以看作是多尺度递归神经网络的类比.

固定更新计划的多循环迭代算法，类比于多尺度clock RNN 进行序列预测；
学习更新计划的多循环迭代算法，类比于多尺度Gated Feedback RNN 进行序列预测.

Gated Feenback LSTM 的结构如图所示：

而训练数据的生成模型可以参考Part 2的弱监督内容.
由于求解 $L_0$ 范数约束问题为NP-hard问题，因此用生成样本的方式处理会比较简单.

随机生成 $x^*$ ，满足 $||x^*||\leq r$ ；
计算 $y=\Phi x^*$ ；
通过这样的方式，最终求得的 $x^*$ 有很高的概率的最优的.

4. 总结

多循环SBL迭代能部分解决字典相关的问题，而多循环迭代算法能由多尺度序列预测Gated RNN得到.
Gated RNN 模型能学到更鲁棒SBL迭代.

好处：

高相关测量矩阵下的超快速最先进的最优稀疏表示；
能观察到RNN模型对手工算法的改进；
使用的原理能推广到其他领域的多循环算法.

本节小结：
讨论了在压缩感知中，测量矩阵 $\Phi$ 对估计的影响以及其神经网络模型.

从稀疏估计出发，利用近端梯度下降得到迭代硬阈值算法，通过将多次迭代结合并引入可学习到的参数 $\omega$ ，将其能够容忍的相关性提高，但此时的算法对字典敏感，而且很难映射到稳健的RNN结构，因此进一步讨论了稀疏贝叶斯学习.

先分析稀疏贝叶斯模型，并将其和 $L_0$ 范数约束的压缩感知问题进行对比，得到一种多循环迭代算法，其中内循环可用软阈值迭代求解(可以从EM算法处理解).

再将SBL迭代和RNN网络进行类比，发现可以从LSTM的角度推出SBL迭代算法，但通常的LSTM模型只能推出一阶内循环的SBL算法，存在缺陷，因此进一步提出Gated RNN模型.