Deep learning II - II Optimization algorithms - learning rate decay 学习速率衰减 - 代码天地

Deep learning II - II Optimization algorithms - learning rate decay 学习速率衰减

其他 2018-06-24 05:13:45 阅读次数: 3

learning rate decay 学习速率衰减

这里写图片描述

对于mini-batch gradient descent，其梯度下降可能会围绕最优点附近徘徊，但是由于learning rate不变，可能不会进一步靠近最优点（蓝色路径）
如果learning rate会随着学习的深入不断衰减，那么上述情况会得到改善，最终的结果和更加靠近最优点（绿色路径）

方法一
$1 e p o c h = 1 p a s s t h r o u g h d a t a$ $1\ epoch = 1\ pass\ through\ data$
$α = \frac{1}{1 + d e c a y R a t e * e p o c h N u m} α_{0}$ $\alpha = \frac{1}{1+decayRate*epochNum}\alpha_0$

方法二 (exponentially decay)
$α = {0.95}^{e p o c h N u m} α_{0}$ $\alpha = 0.95^{epochNum}\alpha_0$
方法三
$α = \frac{k}{\sqrt{e p o c h N u m}} α_{0}$ $\alpha = \frac{k}{\sqrt{epochNum}}\alpha_0$
$α = \frac{k}{\sqrt{t}} α_{0}$ $\alpha = \frac{k}{\sqrt{t}}\alpha_0\quad$
$t$ 是mini-batch的次数。
方法四（discrete staircase）
方法五（manual decay ）

猜你喜欢

转载自blog.csdn.net/zfcjhdq/article/details/80746635

Deep learning II - II Optimization algorithms - learning rate decay 学习速率衰减

Deep learning II - II Optimization algorithms - Mini-batch gradient descent

Deep learning II - II Optimization algorithms - Adam (Adaptive Moment Estimation)自适应矩估计

Deep learning II - II Optimization algorithms - RMSprop (Root Mean Square prop)均方根传递

Deep learning II - II Optimization algorithms - Gradient descent with momentum 动量梯度下降算法

Deep learning II - II Optimization algorithms - Exponentially weighted averages 指数加权平均

权重衰减（weight decay）与学习率衰减（learning rate decay）

学习率衰减 Learning Rate Decay

学习率衰减/learning rate decay

pytorch learning rate decay

【转载】权重衰减（weight decay）与学习率衰减（learning rate decay）

learning rate 和weight decay

《抛弃learning rate decay吧！》

学习速率 learning rate

【深度学习】学习率预热和学习率衰减 (learning rate warmup & decay)

学习率调整策略，学习率预热（warmup）和学习率衰减（Learning Rate Decay）

学习笔记一：learning rate,weight decay和momentum的理解

深度学习超参数——momentum、learning rate和weight decay

使用Pytorch实现学习率衰减/降低（learning rate decay）

TensorFlow中的Learning rate decay介绍

Linear Regression with multiple variables - Gradient descent in practice II: Learning rate

「Deep Learning」Note on Dynamic Bound of Learning Rate

Adam和学习率衰减（learning learning decay）

Optimization algorithm----Deep Learning

Optimization for Deep Learning Highlights in 2017

「Deep Learning」Note on Decoupled Weight Decay Regularization

11_Training Deep Neural Networks_3_Adam_Learning Rate Scheduling_Decay_np.argmax(」)_lambda语句_Regular

深度学习超参数简单理解learning rate,weight decay和momentum

深度学习超参数简单理解：learning rate,weight decay和momentum

深度学习概念、参数理解：iteration, batch_size, epoch, learning rate, weight_decay

今日推荐

周排行

深度学习------Lingvo框架下的加速通道GPipe

webjars管理静态资源

C专家编程_2.2

mysql 源码安装

json文件操作

123231432

注解的实现

Spring MVC 控制器

《人月神话》读后感二

C#使用HttpWebRequest和HttpWebResponse上传文件示例

每日归档

更多

2024-09-08(0)

2024-09-07(0)

2024-09-06(0)

2024-09-05(0)

2024-09-04(0)

2024-09-03(0)

2024-09-02(0)

2024-09-01(0)

2024-08-31(0)

2024-08-30(0)