简单理解梯度消失与梯度爆炸 - 代码天地

简单理解梯度消失与梯度爆炸

企业开发 2022-04-28 14:01:48 阅读次数: 0

这两种现象的触发原因都是由于网络层数比较多，导致梯度在逐层回传的时候累积出了问题。

梯度消失

接近输出层的网络层梯度更新较为正常，而越远(越接近输入层)，其权值更新会非常慢，此时对网络的学习相当于等价于只对后几层的学习，而前面层的权重可以认为约等于是固定的保持不变。

诱因可以发现sigmoid激活函数的导数如下：
在这里插入图片描述
可以发现其导数是不会大于0.25的，此时链式求导梯度回传过程中梯度是很可能逐渐变小的(取决于初始化权值的大小)，导致最后梯度约等于0，即"消失"。

可以考虑采用如下方法缓解梯度消失问题：

将sigmoid替换成ReLU(其导数只为0或1)
使用BatchNorm层(约束 $x$ 的取值从而防止sigmoid导数过小)
使用现代化网络设计(如ResNet的残差连接与LSTM的门结构)
优化权重初始化方式(如xavier)

梯度爆炸

接近输出层的网络层梯度更新较为正常，而越远(越接近输入层)，其权值波动会非常剧烈，此时网络训练不稳定。不过相对于梯度消失而言，梯度爆炸则不那么容易遇到，其解决方案如下：

梯度裁切(给梯度设定阈值)
权重正则化(L1正则化，L2正则化)
上述四种梯度消失的解决办法

推荐阅读

https://zhuanlan.zhihu.com/p/72589432

猜你喜欢

转载自blog.csdn.net/qq_40714949/article/details/122377079

简单理解梯度消失与梯度爆炸

梯度消失，梯度爆炸＿原因分析＿简单例子助理解

梯度消失和梯度爆炸理解

对于梯度消失和梯度爆炸的理解

梯度消失与梯度爆炸

梯度消失&&梯度爆炸

梯度消失 + 梯度爆炸

梯度爆炸与梯度消失

梯度消失&梯度爆炸

梯度消失，梯度爆炸

梯度消失或梯度爆炸

梯度消失、梯度爆炸

梯度消失梯度爆炸

梯度消失和梯度爆炸

梯度爆炸和梯度消失

梯度消失，梯度爆炸及表现

梯度消失与梯度爆炸问题

梯度消失、梯度爆炸笔记

梯度消失和爆炸

RNN - 梯度消失与爆炸

梯度消失和梯度爆炸的解答

深度学习中的梯度消失与梯度爆炸

[深度学习] 梯度消失与梯度爆炸

深度学习-梯度爆炸和梯度消失

梯度消失和梯度爆炸情况详解

梯度消失/梯度爆炸/初始化

梯度消失和梯度爆炸问题详解

RNN 梯度消失和梯度爆炸

梯度消失，梯度爆炸＿解决办法

梯度消失和梯度爆炸（待改进）

今日推荐

周排行

Access的四舍五入取整

8.23 前端学习过程

入门学习过程方向与漏洞复现总结：

操作分布式文件之八：如何批量并行读写远程文件和事务补偿处理

应邀出个教程（搭建tensorflow跑网络环境）

Kubernetes之Pod控制器应用进阶

14-[mysql内置功能]--

HDU6212 区间dp 好题

VS2015生成代码图

验证手机号的工具类

每日归档

更多

2024-10-21(0)

2024-10-20(0)

2024-10-19(0)

2024-10-18(0)

2024-10-17(0)

2024-10-16(0)

2024-10-15(0)

2024-10-14(0)

2024-10-13(0)

2024-10-12(0)