文献会议笔记: Replacing/Enhancing Iterative Algorithms with Neural Networks Part 4: Analysis and Extension to MultiLoop Iterative Algorithms
参考:David Wipf, Microsoft Research, Beijing, 2018
摘要:从最大稀疏估计出发,讨论基于学习的方法带来的性能提升;利用稀疏贝叶斯学习方法进一步提升性能,将其扩展到多循环算法的形式;将SBL模型与神经网络进行类比,并提出门反馈稀疏估计网络.
目录
- 背景
- 例:最大稀疏估计
- 算法推导
- 有限等距性质及收敛保证
- 基于学习的提升
- 稀疏贝叶斯学习(SBL)
- SBL模型
- 多循环扩展
- SBL的神经网络类比
- 门反馈稀疏估计网络
- 总结
1. 背景
对于 ,基于近端梯度下降算法的特殊情况,我们要量化其可能的改进程度,并通过更复杂的多循环迭代算法及其神经网络类比,进一步改善其性能.
2. 例:最大稀疏估计
下面以稀疏估计为例子进行分析.
2.1 算法推导
我们的问题是:
这是一个NP-hard问题,放松以后的形式为
后面两种形式是等价的,约束为限制非零元素的个数.
通过Part 2的分析,已经知道该问题可以通过近端梯度下降算法近似求解,分别为软阈值迭代(凸)和硬阈值迭代(非凸). 下面以硬阈值迭代为例.
对硬阈值迭代(IHT,Iterative Hard Thresholding),目标函数为
利用近端梯度下降算法求解,得到
其中 满足
最终得到IHT算法为:
2.2 有限等距性质及收敛保证
- 有限等距性质定义:
当RIP常数
时,对所有的
,如果满足
则称测量矩阵 满足 阶RIP.
以 为例,直观表示有限等距性质,小的RIP常数会使得测量矩阵更像正交阵,不同特征之间的相关性越低.
因此,也有定义直接取 为满足条件的最小值.
要满足有限等距性的原因:
- 从能量角度看,RIP实际上要求能量稳定在一定范围内
由 可得,有限等距性质要求输出能量大于 ,小于两倍信号能量. 小的 让测量矩阵更像正交阵,即更能保持能量不变.
- 从唯一映射角度看,RIP实际上保证了观测空间和稀疏空间的一一映射关系
只要 ,则 范数约束问题有唯一 稀疏解.
因此,可以给出确保收敛的条件:
此时,IHT算法能确保收敛到 . 这意味着 不能由太强的相关性. 在相关性很强, 时,不能收敛到 .
2.3 基于学习的提升
由Part 2可以知道,最终学习到的IHT算法可以表示成下图形式.
其中,
因此,
结合
次迭代的结果,得到学习算法为
其中,
可看作可调参数,就是要学习的参数.
那么,通过学习参数
,能获得何种性能提升呢??
首先给出如下命题:
总是存在每一层的权值 ,使得实际起作用的RIP常量减小. 其中, 是任意的,而 为对角阵.
上述命题意味着:对于比较大的RIP常量,此时测量矩阵 具有较强的相关性. 而总是能学到合适的权值 ,从而减小起作用的RIP常量,使得测量矩阵 具有较弱的相关性.
因此,学习带来的提升就是:提高对相关性的容忍度.
最终得到的迭代其收敛条件为
迭代公式
能准确收敛到 ,且对相关性由较高的容忍度.
学习的作用可以表示如下:
理想情况下,RIP常量较小,不需要学习. 例如
相关情况,利用优化学习处理. 其中, 为低秩矩阵.
更复杂的相关结构需要用更复杂的网络来实现,线性变换层与可调的非线性激活层;有时在获得理想的RIP常量时, 也可能是满秩矩阵.
限制:
- 现在使用的算法,如IHT,ISTA等,都对字典的一致性敏感;
- 学习参数 对性能的改善有限;
- 通过调整(通常是调整非线性激活)会使结构脱离标准高效的RNN/CNN结构.
因此下一步目标变为:
假设我们的算法已经能够处理具有一定相关性的测量矩阵
的问题,需要将其映射到一种强适应能力的RNN网络.
3. 稀疏贝叶斯(Sparse Bayesian Learning)
参考文献:
1. From Bayesian Sparsity to Gated Recurrent Nets
2. Sparse Bayesian Learning for Basis Selection
3.1 SBL模型
由参考文献1.,最大后验等价为最小化负对数似然,而得到损失函数负对数似然为
其中,
与解的稀疏程度密切相关:当
时,相应的
. 因此,
的学习规则是SBL算法最核心的部分.
求出
后,可以得到稀疏解
从这里可以看到一些EM算法的影子.
由参考文献2.,得到高斯的
取 ,则第二项就是 范数.
通过最开始的讨论,我们发现该问题实际上可以等价为
其放松形式为
因此,有如下结论:
可以发现,SBL通过 ,自动地补偿了 的相关性.
3.2 多循环扩展
由参考文献2.,将
范数
用一个光滑的近似
代替,得到迭代形式
这是内循环,形式上是 ,可以用近端梯度下降(迭代软阈值)求解. 我们可以看到 范数各项再分配的权值 由相关性决定,能够补偿强相关性.
求解内循环的迭代软阈值算法
另外还有 的迭代形式
这是外循环. 内外循环结合,即多循环算法,但仍存在以下不足:
- 可能失败;
- 不清楚怎么自适应地调整内循环迭代次数T.
3.3 Neural Network Analogue for SBL
从参考文献得到类比结果为
- 观测向量 为网络输入,随着每一步时间都不会发生改变;
- SBL估计的超参数 为 时间步的网络输出;
- 隐藏的数据 为隐藏的记忆单元;
- 门 取决于 .
但这样的类比也存在局限性:
- 只有在 的情况下,即内循环是只有一次迭代的迭代软阈值的情况才能作此类比;
- 在 时,没有合适的结构;
- 而我们希望能有更多层的结构,为了避免局部极小和提高效率.
3.4 Gated Feedback Sparse Estimation Network
多循环迭代,可以看作是多尺度递归神经网络的类比.
- 固定更新计划的多循环迭代算法,类比于多尺度clock RNN 进行序列预测;
- 学习更新计划的多循环迭代算法,类比于多尺度Gated Feedback RNN 进行序列预测.
Gated Feenback LSTM 的结构如图所示:
而训练数据的生成模型可以参考Part 2的弱监督内容.
由于求解
范数约束问题为NP-hard问题,因此用生成样本的方式处理会比较简单.
- 随机生成 ,满足 ;
- 计算 ;
- 通过这样的方式,最终求得的 有很高的概率的最优的.
4. 总结
多循环SBL迭代能部分解决字典相关的问题,而多循环迭代算法能由多尺度序列预测Gated RNN得到.
Gated RNN 模型能学到更鲁棒SBL迭代.
好处:
- 高相关测量矩阵下的超快速最先进的最优稀疏表示;
- 能观察到RNN模型对手工算法的改进;
- 使用的原理能推广到其他领域的多循环算法.
本节小结:
讨论了在压缩感知中,测量矩阵
对估计的影响以及其神经网络模型.
从稀疏估计出发,利用近端梯度下降得到迭代硬阈值算法,通过将多次迭代结合并引入可学习到的参数 ,将其能够容忍的相关性提高,但此时的算法对字典敏感,而且很难映射到稳健的RNN结构,因此进一步讨论了稀疏贝叶斯学习.
先分析稀疏贝叶斯模型,并将其和 范数约束的压缩感知问题进行对比,得到一种多循环迭代算法,其中内循环可用软阈值迭代求解(可以从EM算法处理解).
再将SBL迭代和RNN网络进行类比,发现可以从LSTM的角度推出SBL迭代算法,但通常的LSTM模型只能推出一阶内循环的SBL算法,存在缺陷,因此进一步提出Gated RNN模型.