ICLR 2019最佳论文:The Lottery Ticket Hypothesis: Finding Sparse, Trainable Neural Networks

一、论文

The Lottery Ticket Hypothesis: Finding Sparse, Trainable Neural Networks

二、论文笔记

1、摘要：神经网络剪枝技术可将网络参数量减少 90%，进而在不牺牲准确率的前提下减少存储需求、提升推断的计算性能。然而现有经验表明，剪枝生成的解析架构从一开始就很难训练，尽管解析架构同样可以提升训练性能。

我们发现，标准的剪枝技术会自然地发现子网络，这些子网络经过初始化后能够有效进行训练。基于这些结果，我们提出了「彩票假设」（lottery ticket hypothesis）：密集、随机初始化的前馈网络包含子网络（「中奖彩票」），当独立训练时，这些子网络能够在相似的迭代次数内达到与原始网络相当的测试准确率。

「中奖彩票」赢得了「初始化彩票」：它们的连接具有使训练非常高效的初始权重。我们提出了一种识别中奖彩票的算法，并用一系列实验来支持彩票假设以及这些偶然初始化的重要性。我们发现在 MNIST 和 CIFAR10 数据集上，「中奖彩票」网络的大小不及全连接、卷积前馈架构的 10%-20%。而且，这种「中奖彩票」比原始网络学习速度更快，测试准确率也更高。

2、确定中奖彩票的两种策略（第一个效果更好）

（a）、

每次修剪完之后，剩下的节点的权重置为初始化权重，然后接续迭代修剪

（b）、

每次修剪完之后，剩下的节点的权重不变接着训练，然后接续迭代修剪

最终训练完之后，两者都是把剩余节点的权重置为最初始的权重。

剪枝策略：

We use a simple layer-wise pruning heuristic: remove a percentage of the weights with the lowest magnitudes within each layer

（Song Han, Jeff Pool, John Tran, and William Dally. Learning both weights and connections for efficient neural network. In Advances in neural information processing systems, pp. 1135–1143,2015.）

3、一些观点

（a）、从一开始就训练一个修剪过的网络比重新训练一个修剪的网络效果更差

（b）、网络修剪之后，剩余的节点（剩余节点组成的模型就是中奖彩票）最好使用最开始的初始化权重，而不是重新随机化权重。（这也是本论文的一个核心实验），表明单靠网络结构是不能表明这种假设的的有效性的，言外之意还需要初始化的参数

（c）未经验证的新的猜想：