文献会议笔记: Replacing/Enhancing Iterative Algorithms with Neural Networks Part 4

文献会议笔记: Replacing/Enhancing Iterative Algorithms with Neural Networks Part 4: Analysis and Extension to MultiLoop Iterative Algorithms


参考:David Wipf, Microsoft Research, Beijing, 2018

摘要:从最大稀疏估计出发,讨论基于学习的方法带来的性能提升;利用稀疏贝叶斯学习方法进一步提升性能,将其扩展到多循环算法的形式;将SBL模型与神经网络进行类比,并提出门反馈稀疏估计网络.

目录

  1. 背景
  2. 例:最大稀疏估计
    1. 算法推导
    2. 有限等距性质及收敛保证
    3. 基于学习的提升
  3. 稀疏贝叶斯学习(SBL)
    1. SBL模型
    2. 多循环扩展
    3. SBL的神经网络类比
    4. 门反馈稀疏估计网络
  4. 总结

1. 背景

对于 f s + s n ,基于近端梯度下降算法的特殊情况,我们要量化其可能的改进程度,并通过更复杂的多循环迭代算法及其神经网络类比,进一步改善其性能.


2. 例:最大稀疏估计

下面以稀疏估计为例子进行分析.

2.1 算法推导

我们的问题是:

min x | | x | | 0 s . t . y = Φ x

这是一个NP-hard问题,放松以后的形式为

min x | | y Φ x | | 2 2 + λ | | x | | 0 min x | | y Φ x | | 2 2 s . t . | | x | | 0 r min x | | y Φ x | | 2 2 + I [ | | x | | 0 > r ]

后面两种形式是等价的,约束为限制非零元素的个数.

通过Part 2的分析,已经知道该问题可以通过近端梯度下降算法近似求解,分别为软阈值迭代(凸)和硬阈值迭代(非凸). 下面以硬阈值迭代为例.

对硬阈值迭代(IHT,Iterative Hard Thresholding),目标函数为

min x | | y Φ x | | 2 2 + I [ | | x | | 0 > r ]

利用近端梯度下降算法求解,得到
H ¯ r ( z ) = p r o x μ f n ( z ) = arg min x 1 2 | | x z | | 2 + I [ | | x | | 0 > r ]

其中 z 满足
z i = { z i : | z i | r 0 : o t h e r w i s e

最终得到IHT算法为:

x ( k + 1 ) = H ¯ r [ ( I 1 L Φ T Φ ) x ( k ) + 1 L Φ T y ]

2.2 有限等距性质及收敛保证

  • 有限等距性质定义:

当RIP常数 δ r [ Φ ] < 1 时,对所有的 { x : | | x | | 0 r } ,如果满足

( 1 δ r [ Φ ] ) | | x | | 2 2 | | Φ x | | 2 2 ( 1 + δ r [ Φ ] ) | | x | | 2 2

则称测量矩阵 Φ 满足 r 阶RIP.

r = 2 为例,直观表示有限等距性质,小的RIP常数会使得测量矩阵更像正交阵,不同特征之间的相关性越低.
因此,也有定义直接取 δ r [ Φ ] 为满足条件的最小值.

要满足有限等距性的原因:

  • 从能量角度看,RIP实际上要求能量稳定在一定范围内

0 < δ r [ Φ ] < 1 可得,有限等距性质要求输出能量大于 0 ,小于两倍信号能量. 小的 δ r [ Φ ] 让测量矩阵更像正交阵,即更能保持能量不变.

  • 从唯一映射角度看,RIP实际上保证了观测空间和稀疏空间的一一映射关系

只要 δ 2 r [ Φ ] < 1 ,则 L 0 范数约束问题有唯一 r 稀疏解.

因此,可以给出确保收敛的条件:

y = Φ x | | x | | 0 r δ 3 r [ Φ ] < 1 32

此时,IHT算法能确保收敛到 x . 这意味着 Φ T Φ 不能由太强的相关性. 在相关性很强, δ r [ Φ ] 1 时,不能收敛到 x .

2.3 基于学习的提升

由Part 2可以知道,最终学习到的IHT算法可以表示成下图形式.


其中,
W 1 = ( I 1 L Φ T Φ ) W 2 = 1 L Φ T

因此,

x ( k + 1 ) = H ¯ r [ W 1 x ( k ) + W 2 y ]

结合 K 次迭代的结果,得到学习算法为

x ^ = g ( y ; ω ) = g ( y ; { W 1 , W 2 , x ( 1 ) } )

其中, ω 可看作可调参数,就是要学习的参数.
那么,通过学习参数 ω ,能获得何种性能提升呢??

首先给出如下命题:

  • 总是存在每一层的权值 { W 1 , W 2 } ,使得实际起作用的RIP常量减小. 其中, Ψ 是任意的,而 D 为对角阵.

    δ 3 r [ Φ ] = inf Ψ , D δ 3 r [ Ψ Φ D ] δ 3 r [ Φ ]

    上述命题意味着:

  • 对于比较大的RIP常量,此时测量矩阵 Φ 具有较强的相关性. 而总是能学到合适的权值 { W 1 , W 2 } ,从而减小起作用的RIP常量,使得测量矩阵 Φ 具有较弱的相关性.

因此,学习带来的提升就是:提高对相关性的容忍度.

最终得到的迭代其收敛条件为

y = Φ x | | x | | 0 r δ 3 r [ Φ ] < 1 32

迭代公式

x ( k + 1 ) = H ¯ r [ W ¯ 1 x ( k ) + W ¯ 2 y ] , x ( 1 ) = 0

能准确收敛到 x ,且对相关性由较高的容忍度.

学习的作用可以表示如下:

  • 理想情况下,RIP常量较小,不需要学习. 例如

    Φ ( u n c o r r ) : N ( 0 , v )

  • 相关情况,利用优化学习处理. 其中, Δ 为低秩矩阵.

    { Φ ( c o r r ) = Ψ Φ ( u n c o r r ) D Φ ( c o r r ) = [ Φ ( u n c o r r ) + Δ ] D

更复杂的相关结构需要用更复杂的网络来实现,线性变换层与可调的非线性激活层;有时在获得理想的RIP常量时, Δ 也可能是满秩矩阵.

限制:

  • 现在使用的算法,如IHT,ISTA等,都对字典的一致性敏感;
  • 学习参数 { W 1 , W 2 } 对性能的改善有限;
  • 通过调整(通常是调整非线性激活)会使结构脱离标准高效的RNN/CNN结构.

因此下一步目标变为:
假设我们的算法已经能够处理具有一定相关性的测量矩阵 Φ 的问题,需要将其映射到一种强适应能力的RNN网络.


3. 稀疏贝叶斯(Sparse Bayesian Learning)

参考文献:
1. From Bayesian Sparsity to Gated Recurrent Nets
2. Sparse Bayesian Learning for Basis Selection

3.1 SBL模型

由参考文献1.,最大后验等价为最小化负对数似然,而得到损失函数负对数似然

l ( γ ) = y T Σ y 1 y + log | Σ y | , w i t h Σ y = Φ Γ Φ T + λ I = y T ( Φ Γ Φ T + λ I ) 1 + log | Φ Γ Φ T + λ I |

其中, γ 与解的稀疏程度密切相关:当 γ i = 0 时,相应的 x i = 0 . 因此, γ 的学习规则是SBL算法最核心的部分.
求出 γ 后,可以得到稀疏解

x ^ = E [ x | y ; γ ] = Γ Φ T Σ y 1 y = Γ Φ T ( Φ Γ Φ T + λ I ) 1 y

从这里可以看到一些EM算法的影子.

由参考文献2.,得到高斯的

x M A P = arg min x λ | | y Φ x | | 2 + y | x i | p

p 0 ,则第二项就是 L 0 范数.
通过最开始的讨论,我们发现该问题实际上可以等价为
min x | | x | | 0 s . t . y = Φ x

其放松形式为

min x | | y Φ x | | 2 2 + λ | | x | | 0 min x | | y Φ x | | 2 2 s . t . | | x | | 0 r min x | | y Φ x | | 2 2 + I [ | | x | | 0 > r ]

因此,有如下结论:

x ^ = E [ x | y ; γ ] = Γ Φ T ( Φ Γ Φ T + λ I ) 1 y arg min x | | y Φ x | | 2 2 + λ | | x | | 0

可以发现,SBL通过 γ ,自动地补偿了 Φ 的相关性.

3.2 多循环扩展

由参考文献2.,将 L 0 范数 | | x | | 0 用一个光滑的近似 g ( | x i | ) = f ( γ ; Φ T Φ ) | x i | 代替,得到迭代形式

x ( k + 1 ) arg min x | | y Φ x | | 2 2 + λ i w i ( γ ( k ) ) | x i |

这是内循环,形式上是 f s + f n ,可以用近端梯度下降(迭代软阈值)求解. 我们可以看到 L 1 范数各项再分配的权值 w i 由相关性决定,能够补偿强相关性.

求解内循环的迭代软阈值算法

d e f i n e x ( k , 1 ) = x ( k ) f o r t = 1 , 2 , . . . , T x ( k , t + 1 ) = S μ [ ( I 1 L Φ T Φ ) x ( k , t ) + 1 L Φ T y ] , μ = λ L w ( γ ( k ) ) e n d x ( k + 1 ) = x ( k , T )

另外还有 γ 的迭代形式
γ i ( k + 1 ) | x ( k + 1 ) | w i ( γ ( k ) ) 1 , i

这是外循环. 内外循环结合,即多循环算法,但仍存在以下不足:

  • 可能失败;
  • 不清楚怎么自适应地调整内循环迭代次数T.

3.3 Neural Network Analogue for SBL

从参考文献得到类比结果为

  • 观测向量 y 为网络输入,随着每一步时间都不会发生改变;
  • SBL估计的超参数 γ ( t ) t 时间步的网络输出;
  • 隐藏的数据 x 为隐藏的记忆单元;
  • σ 取决于 Φ T Φ .

但这样的类比也存在局限性:

  1. 只有在 T = 1 的情况下,即内循环是只有一次迭代的迭代软阈值的情况才能作此类比;
  2. T > 1 时,没有合适的结构;
  3. 而我们希望能有更多层的结构,为了避免局部极小和提高效率.

3.4 Gated Feedback Sparse Estimation Network

多循环迭代,可以看作是多尺度递归神经网络的类比.

  • 固定更新计划的多循环迭代算法,类比于多尺度clock RNN 进行序列预测;
  • 学习更新计划的多循环迭代算法,类比于多尺度Gated Feedback RNN 进行序列预测.

Gated Feenback LSTM 的结构如图所示:

而训练数据的生成模型可以参考Part 2的弱监督内容.
由于求解 L 0 范数约束问题为NP-hard问题,因此用生成样本的方式处理会比较简单.

  • 随机生成 x ,满足 | | x | | r
  • 计算 y = Φ x
  • 通过这样的方式,最终求得的 x 有很高的概率的最优的.

4. 总结

多循环SBL迭代能部分解决字典相关的问题,而多循环迭代算法能由多尺度序列预测Gated RNN得到.
Gated RNN 模型能学到更鲁棒SBL迭代.

好处:

  • 高相关测量矩阵下的超快速最先进的最优稀疏表示;
  • 能观察到RNN模型对手工算法的改进;
  • 使用的原理能推广到其他领域的多循环算法.

本节小结
讨论了在压缩感知中,测量矩阵 Φ 对估计的影响以及其神经网络模型.

从稀疏估计出发,利用近端梯度下降得到迭代硬阈值算法,通过将多次迭代结合并引入可学习到的参数 ω ,将其能够容忍的相关性提高,但此时的算法对字典敏感,而且很难映射到稳健的RNN结构,因此进一步讨论了稀疏贝叶斯学习.

先分析稀疏贝叶斯模型,并将其和 L 0 范数约束的压缩感知问题进行对比,得到一种多循环迭代算法,其中内循环可用软阈值迭代求解(可以从EM算法处理解).

再将SBL迭代和RNN网络进行类比,发现可以从LSTM的角度推出SBL迭代算法,但通常的LSTM模型只能推出一阶内循环的SBL算法,存在缺陷,因此进一步提出Gated RNN模型.

猜你喜欢

转载自blog.csdn.net/qq_38290475/article/details/81064797