learning rate 和weight decay - 代码天地

learning rate 和weight decay

其他 2018-11-01 00:11:21 阅读次数: 0

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/laoxuan2011/article/details/52754288

首先，假设我们有loss function为 $E(\mathbf{w})$
梯度下降算法告诉我们，为了最小化loss function为 $E(\mathbf{w})$ ，要在 $E$ 的最快速下降的方向修改权值：

$\begin{equation} w_i \leftarrow w_i-\eta\frac{\partial E}{\partial w_i}, \end{equation}$

这里 $\eta$ 为学习率，学习率越大则对应的权重 $w_i$ 修改也越大。
为了防止过拟合，在loss function上加上正则项（惩罚项），一种简单的方法是通过在权重上引入一零均值高斯项。

$\widetilde{E}(\mathbf{w})=E(\mathbf{w})+\frac{\lambda}{2}\mathbf{w}^2$

这里，λ为正则化参数。正则项是模型复杂度的单调递增函数，所以weight decay的作用是调节模型复杂度对损失函数的影响，若weight decay很大，则复杂的模型损失函数的值也就大。

应用梯度下降算法到这个新的cost函数，我们得到：

$\begin{equation} w_i \leftarrow w_i-\eta\frac{\partial E}{\partial w_i}-\eta\lambda w_i. \end{equation}$

这新的一项 $-\eta\lambda w_i$ 起到的就是正规化的作用，使得权重与其大小成比例衰减。

猜你喜欢

转载自blog.csdn.net/laoxuan2011/article/details/52754288

learning rate 和weight decay

学习笔记一：learning rate,weight decay和momentum的理解

深度学习超参数——momentum、learning rate和weight decay

权重衰减（weight decay）与学习率衰减（learning rate decay）

pytorch learning rate decay

深度学习超参数简单理解learning rate,weight decay和momentum

深度学习超参数简单理解：learning rate,weight decay和momentum

深度学习超参数简单理解 learning rate,weight decay和momentum

深度学习超参数简单理解------ learning rate weight decay和momentum

【转载】权重衰减（weight decay）与学习率衰减（learning rate decay）

《抛弃learning rate decay吧！》

深度学习概念、参数理解：iteration, batch_size, epoch, learning rate, weight_decay

学习率衰减 Learning Rate Decay

TensorFlow中的Learning rate decay介绍

学习率衰减/learning rate decay

学习率调整策略，学习率预热（warmup）和学习率衰减（Learning Rate Decay）

[tensorflow] Tensorflow中learning rate 调整+ decay奇技淫巧

《Tensorflow 中 learning rate decay 的奇技淫巧》

「Deep Learning」Note on Decoupled Weight Decay Regularization

Deep learning II - II Optimization algorithms - learning rate decay 学习速率衰减

weight decay

使用Pytorch实现学习率衰减/降低（learning rate decay）

【深度学习】学习率预热和学习率衰减 (learning rate warmup & decay)

dying relu 和weight decay

Adam和学习率衰减（learning learning decay）

learning rate

11_Training Deep Neural Networks_3_Adam_Learning Rate Scheduling_Decay_np.argmax(」)_lambda语句_Regular

weight decay 和正则化caffe

关于weight decay

权重衰减（weight decay）

今日推荐

周排行

深度学习------Lingvo框架下的加速通道GPipe

webjars管理静态资源

C专家编程_2.2

mysql 源码安装

json文件操作

123231432

注解的实现

Spring MVC 控制器

《人月神话》读后感二

C#使用HttpWebRequest和HttpWebResponse上传文件示例

每日归档

更多

2024-09-08(0)

2024-09-07(0)

2024-09-06(0)

2024-09-05(0)

2024-09-04(0)

2024-09-03(0)

2024-09-02(0)

2024-09-01(0)

2024-08-31(0)

2024-08-30(0)