最近在学邱锡鹏老师的《神经网络与深度学习》,学到激活函数这里后,邱老师写道:ReLU 函数的输出是非零中心化的,给后一层的神经网络引入偏置偏移,会影响梯度下降的效率。
引入偏置偏移我懂,但为什么会影响梯度下降的效率呢?
找了很多的资料描述地都不太好,但是发现了这位博主写的文章,感觉很清楚,故分享:
最近在学邱锡鹏老师的《神经网络与深度学习》,学到激活函数这里后,邱老师写道:ReLU 函数的输出是非零中心化的,给后一层的神经网络引入偏置偏移,会影响梯度下降的效率。
引入偏置偏移我懂,但为什么会影响梯度下降的效率呢?
找了很多的资料描述地都不太好,但是发现了这位博主写的文章,感觉很清楚,故分享: