Normalization如何解决梯度消失 - 代码天地

Normalization如何解决梯度消失

其他 2021-03-03 02:30:47 阅读次数: 0

转载大神的文章。感觉写的通俗易懂

https://blog.csdn.net/sinat_33741547/article/details/87158830

具体计算的方法可以看我的博客https://blog.csdn.net/gbz3300255/article/details/107997814

在训练过程中，随着网络加深，分布逐渐发生变动，导致整体分布逐渐往激活函数的饱和区间移动，从而反向传播时底层出现梯度消失，也就是收敛越来越慢的原因。

说白了Normalization就是为了解决上面问题，不让梯度往激活函数的饱和区移动

而Normalization则是把分布强行拉回到均值为0方差为1的标准正态分布，使得激活输入值落在非线性函数对输入比较敏感的区域，这样输入的小变化就会导致损失函数较大的变化，避免梯度消失问题产生，加速收敛，如下：

如上，假设正态分布均值是-2，方差是0.5，如上图绿色曲线，通过标准化操作转换为均值为0，方差为1的正态分布，如上图红色曲线。
实际上是将输入x的取值正态分布整体右移2（均值变化），图形曲线更平缓了（方差变化）。那么这么做的好处是什么呢？

图为标准正态分布的图形，可以看到，在一个标准差范围，有68%的概率x其值落在[-1,1]的范围内；在两个标准差范围，有95%的概率x其值落在了[-2,2]的范围内，假如这就是需要进行激活的分布，激活函数为sigmoid，如下：

可以看到，在[-2, 2]的范围内，即是标准正态分布两个标注差范围内，在sigmoid函数中为线性变换区域，微小的变化就能得到很大的改变，也即是梯度比较大。
如果不经过变换，存在一个均值为-6，方差为1的分布，对应到激活函数中就是[-8, -4]的区域，这已经是饱和区了，这也就是所谓的梯度消失。

所以标准化其实就是把大部分激活的值落入非线性函数的线性区内，其对应的导数远离导数饱和区，这样来加速训练收敛过程。饱和区就是梯度接近消失的区域。

猜你喜欢

转载自blog.csdn.net/gbz3300255/article/details/111244997

Normalization如何解决梯度消失

【深度学习笔记】Batch Normalization 以及其如何解决梯度消失问题

LSTM如何解决梯度消失或爆炸的？

如何解决梯度消失和梯度膨胀？

BPTT算法推导以及LSTM是如何解决梯度消失的

如何解决RNN中的梯度消失问题？

Python深度学习027：什么是梯度、梯度消失、梯度爆炸以及如何解决

实习点滴（9）--LSTM是如何解决RNN中的“梯度消失”

卷积神经网络进阶用法---残差网络如何解决梯度消失问题

如何确定梯度消失/爆炸和解决梯度消失/爆炸

Batch Normalization和梯度消失以及梯度爆炸的原理

lstm解决梯度消失

梯度消失，梯度爆炸＿解决办法

什么是梯度消失？怎么解决？

梯度消失问题与如何选择激活函数

LSTM解决梯度消失和爆炸情况

LSTM解决RNN梯度消失问题

梯度消失问题的出现和解决

【pytorch】梯度爆炸/消失解决办法

记录LSTM公式、梯度消失现象/解决

梯度消失问题探究与解决方案

如何解决vuex因浏览器刷新数据消失，保持数据持久化问题？

条码软件使用Excel导入时两位小数消失如何解决

如何解决IIS配置HTTPS证书后刷新消失问题

如何解决电脑桌面变黑桌面图标消失不见

深度学习之如何防止梯度爆炸/梯度消失?

梯度消失、梯度爆炸及其解决方法

梯度爆炸和梯度消失以及解决方案

梯度消失，梯度爆炸产生的原因及解决办法

梯度消失和梯度爆炸原因及其解决方案

今日推荐

周排行

Leetcode简单题61~80

解决zookeeper磁盘IO高的问题

多线程相关方法详解

Maven-setting.xml文件详解

Maven 项目的 classpath 理解

渊亭科技大数据笔试题

配置JVM内存分配

计算机网络个人学习笔记（三）网络层：第三部分连载

js中两个等号(==)和三个等号(===)的区别

用C程序自动打开电脑上的程序

每日归档

更多

2024-09-18(0)

2024-09-17(0)

2024-09-16(0)

2024-09-15(0)

2024-09-14(0)

2024-09-13(0)

2024-09-12(0)

2024-09-11(0)

2024-09-10(0)

2024-09-09(0)