Deep learning II - II Optimization algorithms - learning rate decay 学习速率衰减
其他
2018-06-24 05:13:45
阅读次数: 3
learning rate decay 学习速率衰减
- 对于mini-batch gradient descent,其梯度下降可能会围绕最优点附近徘徊,但是由于learning rate不变,可能不会进一步靠近最优点(蓝色路径)
- 如果learning rate会随着学习的深入不断衰减,那么上述情况会得到改善,最终的结果和更加靠近最优点(绿色路径)
方法 一
1 epoch=1 pass through data
α=11+decayRate∗epochNumα0
方法 二 (exponentially decay)
α=0.95epochNumα0
方法 三
α=kepochNum−−−−−−−−−√α0
α=kt√α0
t
是mini-batch的次数。
方法 四 (discrete staircase)
方法 五 (manual decay )
转载自blog.csdn.net/zfcjhdq/article/details/80746635