CS231n-2017 第7讲训练网络(下) - 代码天地

CS231n-2017 第7讲训练网络(下)

编程语言 2018-09-24 10:33:12 阅读次数: 0

一. 优化算法

1. 随机梯度下降法(`SGD`)

表达式：

$x_{t+1} = x_t - \alpha\nabla f(x_t)$
缺点：

如果损失函数对某一维的参数敏感，而对另一维的参数不敏感，那么容易出现z-形优化路径。

图 1. z-形优化路径

会陷在局部最小值或鞍点附近。对于高维参数空间，出现鞍点的情形要远频繁于出现局部最小值的情形。
小批量数据使得优化方向受噪声影响严重，导致行进到最优解的路径会很长。

2. 带动量的随机梯度下降法(`SGD+Momentum`)

表达式：

$v_{t+1} = \rho v_t + \nabla f(x_t), \quad x_{t+1} = x_t - \alpha v_{t+1}$
即定义一个随时间变化的速度，每次计算的梯度视为速度的修正(动量)。这样有助于克服梯度计算过程中一些噪声的影响。

Nesterov Momentum：

$v_{t+1} = \rho v_t - \alpha \nabla f(x_t+\rho v_t), \quad x_{t+1} = x_t + v_{t+1}$

即在速度方向上前进一步，然后计算梯度，将这里的梯度和刚才的速度加权求和作为前进方向。基本思想是：如果速度方向出现了一点偏差，那么前进后的梯度方向会校正速度方向。

3. `AdaGrad`与`RMSProp`

AdaGrad维持一个对各个维度的梯度模值的统计，然后在更新参数时，用这个取规范化梯度。这样可以解决梯度向量的条件数恶化的问题。但随着学习的进行，后续更新会越来越慢。
RMSProp将累积的梯度模值，替换成线性加权的梯度模值。

4. `Adam`

Adam整合了动量法和RMSProp方法。但还有个问题：在最起初的步骤，由于线性加权中的权值较大一项被初始化为0，则在规范化梯度时，会出现除以一个小量的现象。Adam会对所用的两个参数进行偏置校正。

$\begin{array}{lll} v_{t+1} &=& \left[\beta_1 v_t + (1-\beta_1)\nabla f(x_t)\right]/(1-\beta_1^t)\\ \\ m_{t+1} &=& \left[\beta_2 m_t + (1-\beta_2)\nabla f(x_t)\odot\nabla f(x_t)\right]/(1-\beta_2^t)\\ \\ x_{t+1} &=& x_t - \alpha v_{t+1}/(\sqrt{m_{t+1}} + eps) \end{array}$

5. 二阶优化方法

将损失函数展开到二阶项，然后根据二次型表达，直接求出此时最小值对应的参数。
需要求解Hessian矩阵的逆。一个近似方法是Quasi-Newton方法(最流行的是BGFS)，适用于风格迁移这种随机性很小、参数不多的应用场景。

二. 学习速率衰减

阶梯式衰减：以某个常值遍历几次数据集后进行衰减。
指数式衰减： $\alpha = \alpha_0e^{-kt}$ 。
幂次衰减： $\alpha = \alpha_0/(1+kt)$

三. 集成学习

训练多个模型，在预测时集成相应输出结果。
还可以保留训练过程中，模型陷入各个局部最优解时的参数快照。

四. 正则化

正则化的一般模式：在训练阶段，给网络添加一些随机性，避免网络对训练数据的拟合过度。在测试阶段，则期望这种随机性被去除，从而提高泛化能力。

扫描二维码关注公众号，回复： 3322530 查看本文章

1. `Dropout`策略

按一定比例，随机地将某些神经元置0。
在卷积层应用Dropout时，是将某些卷积核所输出的特征层全部置0。
在预测时，不进行置零操作，而是将输出乘上训练时置零的概率。或是为了预测时的计算效率，用训练时的除以相应概率。(这样做的基本想法是使得预测时产生的数据的特征和训练时的一样。一个简单的推导是在穷举的情况下进行一下平均。)
由于每次只能更新部分参数，因此采用Dropout会使得训练过程变长。
Dropout起到正则化作用的一个解释：这种做法使得模型能够学习到关于数据的特征的冗余表达，从而降低相关联的特征对决策的影响。(即避免模型学到了训练数据的显著特征，出现过拟合，而不再进行学习或不能跳出局部最优解。)
Dropout起到正则化作用的另一个解释：相当于一个集成学习的过程。

2. 数据增强

图像裁剪。
图像几何变换。
颜色抖动。

五. 迁移学习

根据所拥有的数据集的大小，决定重新训练的层数。

一些框架的模型库

Caffe: https://github.com/BVLC/caffe/wiki/Model-Zoo
TensorFlow: https://github.com/tensorflow/models
PyTorch: https://github.com/pytorch/vision

猜你喜欢

转载自blog.csdn.net/suredied/article/details/82811760

CS231n-2017 第7讲训练网络(下)

CS231n-2017 第6讲训练网络(上)

CS231n-2017 第5讲卷积神经网络简介

CS231n-2017 第4讲反向传播算法与神经网络

CS231n-2017 第10讲循环神经网络

CS231n-2017 第9讲卷积神经网络的各种架构

CS231n-2017 第1讲课程简介

CS231n-2017 第8讲使用PyTorch

CS231n-2017 第13讲生成模型

CS231n-2017 第3讲损失函数与优化

CS231n-2017 第2讲图像分类：KNN与线性分类

CS231n-2017 第12讲可视化与理解

CS231n-2017 第11讲目标检测与图像分割

2017CS231n笔记_S7训练神经网络（下）

CS231n-2017 Assignment1 k-近邻方法、SVM、Softmax、两层神经网络

【2017CS231n】第十五讲：神经网络模型压缩和加速（硬件、算法层面）

【2017CS231n】第四讲：介绍神经网络

训练神经网络（CS231n 7. Training Neural Networks II）

CS231n 7. Training Neural Networks II 训练神经网络

Cs231n课堂内容记录-Lecture 7 神经网络训练2

【2017cs231n】：课程笔记-第2讲：图像分类

2017CS231n李飞飞深度视觉识别笔记（七）——训练神经网络（下）

2017CS231n笔记_S6训练神经网络（上）

CS231n 2018 神经网络第3部分：学习和评估（下）

2017CS231n李飞飞深度视觉识别笔记（六）——训练神经网络（上）

【cs231n学习笔记（2017）】—— 数据处理及监视训练

2017CS231n笔记_S16对抗样本和对抗训练

cs231n笔记05：神经网络训练（下）

CS231N-2017课程作业（assignment 1）之KNN

CS231n-2017 Assignment3 RNN、LSTM、风格迁移

今日推荐

周排行

深度学习------Lingvo框架下的加速通道GPipe

webjars管理静态资源

C专家编程_2.2

mysql 源码安装

json文件操作

123231432

注解的实现

Spring MVC 控制器

《人月神话》读后感二

C#使用HttpWebRequest和HttpWebResponse上传文件示例

每日归档

更多

2024-09-08(0)

2024-09-07(0)

2024-09-06(0)

2024-09-05(0)

2024-09-04(0)

2024-09-03(0)

2024-09-02(0)

2024-09-01(0)

2024-08-31(0)

2024-08-30(0)