优化训练 正交性

【优化训练】RePr:Improved Training of Convolutional Filters论文笔记
原创行者无疆兮 发布于2019-04-19 17:24:01 阅读数 360  收藏
展开
论文题目     RePr:Improved Training of Convolutional Filters

这是2019年CVPR的一篇文章,主要针对卷积神经网络的训练方法,提出一种新的训练模式。训练插入Re-initializing和Pruning 简称 RePr,文章通过大量的分析和实验,验证了提出的训练方法非常有效,在cifar、ImageNet、VQA、object detection上涨点很多。

论文地址:https://arxiv.org/abs/1811.07275

 
亮点:
1、提出一种新的训练策略:通过循环删除冗余过滤器,重新训练网络,重新初始化已删除的过滤器以及重复来修改训练过程;

2、提出一种新的filter重要程度的度量方法;

【Introduction】
卷积神经网络在视觉任务中取得了SOTA性能,我们会为不同的任务单独设计不同的网络结构,虽然网络结构不同,但使用的优化方法都是一样的,而且这些优化方法将网络权重视为单独的个体,没有考虑彼此之前的相关性。而事实上,网络权重之间是有很大联系的。为了获取最好的性能,网络经常过参数化(over-parameterized)。然而即使是过参数化的网络,也会存在很多冗余的参数。model pruning证明了一个大的网络可以通过丢弃一部分参数权重得到一个性能损失不大的小网络,从而实现网络压缩和加速。
因此文章提出了一个新的训练方法。既然网络中有些参数权重是多余,那我们训练的时候把他们丢弃(pruning),接着训练剩下的网络,为了不损失模型的capacity,然后再把丢弃的参数拿回来,效果是不是会好一点呢?基于这个想法,文章作者任务有几个重要的点:一是pruning哪些权重,而是如何再把丢弃的权重拿回来让他们发挥更大的作用。本文的一个贡献在于提出了一个metric,用于选择哪些filters丢弃。同时作者指出,即使是一个参数很少( under-parameterized )的网络,也会出现学到冗余的参数的情况,这不仅仅在多参数的网络中存在,原因就在于训练过程低效。

【Motivation】
特征之间的相关性越高,其泛化性能越差。即使是参数少的模型,由于训练的低效,也会存在大量冗余的卷积核。

先看实验效果:


 



 

训练策略:


RePr参数:S1 = 20,S2 = 10,p%= 30,并且具有三次迭代,N = 3

具体步骤:

       (1)训练整体模型 S1 epochs;

       (2)通过卷积过滤器之间的正交性算法(inter-filter orthogonality)度量,计算出每个filter的重要程度并排序;

       (3)在模型中剪枝掉最不重要的filter,数量为p%;

       (4)在剪枝filter后的模型继续训练 S2 epochs;

       (5)对剪枝的filter重新初始化,并具有正交性;

       (6)重复N次

计算filter的正交性(inter-filter orthogonality):


引用别人说的,一个layer的多个卷积核可以用一个matrix表示,也就是 W_{l} ,先对 W_{l} 归一化,再与自己的转置相乘得到 P_{l} ,这是一个 J_{l} x J_{l} 大小的matrix,第i行表示其他filter对第i个filter的projection,可以看成是相关性,如果是正交性的越大,那么这个值就越小,一行的数值之和越小,说明其他filter与这个filter相关性越低。因此可以通过这个sum来对filter进行rank。

同时文章还说明了,计算这个metric是在一个layer内,但rank是在所有layer进行的,目的是为了不让layer这个因数影响filter的rank,避开layer的差异性,同时也不引入过多的超参。


 对比实验:
1、提出的inter-filter orthogonality度量算法排序比其他方法要好;
2、学习率方面使用Cyclical learning rates会更好(但是与RePr没有关系,固定学习率通过RePr也能提高模型性能);
3、RePr剪枝过程可以看作非随机的Dropout过程,但是RePr可以应用到浅层网络,Dropout不能应用浅层网络;

4、添加滤波器的正交性作为正则化项,作为优化损失的一部分,不会显着影响模型的性能,但也有提高,λ= 0.01,如图:

5、RePr与Knowledge Distillation (KD)不是解决同源问题,表明可以将RePr与KD结合起来以实现更好的性能;

参考:https://www.bilibili.com/read/cv2215246/
————————————————
版权声明:本文为CSDN博主「行者无疆兮」的原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/qq_30159015/article/details/89401926

发布了2608 篇原创文章 · 获赞 920 · 访问量 506万+

猜你喜欢

转载自blog.csdn.net/jacke121/article/details/103822885