神经网络预备知识
激活函数:
-
将 x∈R 压缩到 (0,1)之间 但过大过小时梯度近于0,并且长时间得不到更新(梯度弥散现象)tf.nn.sigmoid -
单边抑制 tf.nn.relu -
单边抑制的改进版,避免出现那梯度弥散 tf.nn.leaky_relu -
映射到 [-1,1]区间内
上下采样
太繁琐,略,可以理解为分块映射
卷积面计算
一个卷积层可以包含多个卷积面,卷积面根据输入,卷积核,和激活函数来计算,卷积核是一个矩阵(或张量),简称滤波器。
池化面计算
卷积神经网络,下采样称为池化过程,有平均下采样和最大下采样两种。卷积面经过池化后规模变小。
局部响应归一化
将卷积面上每个位置的值转换到[-1,1]之间
权值偏置初始化
偏置一般初始化为0,权值一般为确定分布的随机取样。
丢失输出
如果训练样本过少,一半考虑采用正则化来防止过拟合。通过组织特征检测器的共同作用来提高泛化能力,丢失输出是指在训练过程中随机让网络的某些节点不工作,可以看作加了一个随机伯努利分布的层。
随机梯度下降算法
有两种模式:在线模式、迷你快模式
在线模式:将所有样本随机洗牌,逐一计算每个样本对梯度的贡献并更新权值,缺点是不稳定。
迷你块模式:样本随机洗牌后分为若干个块,在逐一计算每个块对梯度的贡献并更新权值,可以看成打包处理。
块归一化
在多层神经网络中,对每层的输入数据都可以进行归一化,提高网络训练速度和泛化能力,可以选择比较大的初始学习率。
动态规划算法
这是运筹学的一个分支,是求解多阶段决策过程的最优化数学方法,核心是贝尔曼最优化原理和贝尔曼方程
一个最优策略的子策略,对于它的初态和终态而言也必是最优的
可以理解为,全局最优的子集一定是局部最优