目录
一、调试处理(随机-->合适范围内)
随机:
应用大一点的mini-batch会减弱正则化的作用
合适范围内:
现在在说明,为什么使用对数尺的方法,越靠近1,变化的影响的越大,所以靠近1的取值应该间隔小一点,远离1的数值之间的间隔取大一点
如何组织搜索过程:
二、Batch归一化
使得隐藏单元值的均值和方差标准化,就是某一层的z有一个固定的均值和方差
下面是在深度网络训练中的匹配:
为什么会起作用:
batch归一化做的就是它减少了这些隐藏层分布变化的数量。
如果是绘制这些隐藏的单元值的分布,从2d的视角来看。即使z1、z2会改变,而的确也在改变,batch归一化能够使的z1、z2的均值和方差保持不变。即使z1和z2一直在变,batch归一化至少能够保证其均值为0,方差为1或者是由γ和βγ和β决定的值。
也就是它限制了在前层的参数更新会影响数值分布的程度。当前面参数改变了它使得后面的参数适应的程度减小了,或许你可以这样想,它减少了前层参数与后层参数之间的联系,使得网络每层都可以自己学习,稍稍独立与其他层,这将有助于加速整个网络的学习。
batch还有一个作用,它有一个轻微的正则化的作用。
三、Softmax回归
四、深度学习框架
作业