训练小技巧

其他 2020-02-28 20:38:00 阅读次数: 0

文章目录

1、参数初始化
2、数据预处理方式
3、梯度裁剪

1、参数初始化

几种方式,结果差不多。但是一定要做。否则可能会减慢收敛速度，影响收敛结果，甚至造成Nan等一系列问题。

优秀的初始化应该使得各层的激活值和状态梯度的方差在传播过程中的方差保持一致。不然更新后的激活值方差发生改变，造成数据的不稳定。

Xavier初始化 :

条件：正向传播时，激活值的方差保持不变；反向传播时，关于状态值的梯度的方差保持不变。
论文：http://jmlr.org/proceedings/papers/v9/glorot10a/glorot10a.pdf
理论方法：

$W \sim U[-\frac{\sqrt{6}}{\sqrt{n_i + n_{i+1}}},\frac{\sqrt{6}}{\sqrt{n_i + n_{i+1}}}]$

假设激活函数关于0对称，且主要针对于全连接神经网络。适用于tanh和sigmoid。

He初始化：

条件：正向传播时，状态值的方差保持不变；反向传播时，关于激活值的梯度的方差保持不变。
论文：https://arxiv.org/abs/1502.01852
理论方法
- 适用于ReLU的初始化方法：
$W \sim U[0,\sqrt{\frac{2}{\hat{n}_i}}]$
- 适用于Leaky ReLU的初始化方法：
$W \sim U[0,\sqrt{\frac{2}{(1+\alpha^2)\hat{n}_i}}]$

其中
$\hat{n}_i = h_i * w_i * d_i \\ h_i,w_i分别表示卷积层中卷积核的高和宽 \\ d_i表示当前层卷积核的个数$

具体方法

下面的n_in为网络的输入大小，n_out为网络的输出大小，n为n_in或(n_in+n_out)/2

uniform均匀分布初始化：
```
w = np.random.uniform(low=-scale, high=scale, size=[n_in,n_out])
```
- Xavier初始法，适用于普通激活函数(tanh,sigmoid)：scale = np.sqrt(3/n)
- He初始化，适用于ReLU：scale = np.sqrt(6/n)
normal高斯分布初始化：
```
w = np.random.randn(n_in,n_out) * stdev # stdev为高斯分布的标准差，均值设为0
```
- Xavier初始法，适用于普通激活函数 (tanh,sigmoid)：stdev = np.sqrt(n)
- He初始化，适用于ReLU：stdev = np.sqrt(2/n)
svd初始化：对RNN有比较好的效果。参考论文：https://arxiv.org/abs/1312.6120

技巧

正确初始化最后一层的权重。如果回归一些平均值为50的值，则将最终偏差初始化为50。如果有一个比例为1:10的不平衡数据集，请设置对数的偏差，使网络预测概率在初始化时为0.1。正确设置这些可以加速模型的收敛。

2、数据预处理方式

zero-center

这个挺常用的.

X -= np.mean(X, axis = 0)   # zero-center
X /= np.std(X, axis = 0)    # normalize

PCA whitening

这个用的比较少.

3、梯度裁剪

实现方法见**pytorch小操作**

Bai丁

发布了33 篇原创文章 · 获赞 16 · 访问量 1万+

私信关注

猜你喜欢

转载自blog.csdn.net/StardustYu/article/details/103993608

训练小技巧

caffe模型训练小技巧

优化Pytorch模型训练的小技巧

深度学习训练的小技巧，调参经验

小数据集训练深度网络的小技巧

深度学习训练的小技巧，调参经验（转）

【pytorch实用小技巧】单gpu与多gpu训练与评估

训练技巧

小技巧

AS小技巧

【笔记】YOLOv3训练自己的数据集(3)——小技巧和训练日志可视化

【调参炼丹】深度学习训练的小技巧，调参经验。（2）

【调参炼丹】深度学习训练的小技巧，调参经验。

机器学习小技巧：模型训练完成后发送邮件

恒源云(Gpushare)_自动化训练小技巧白送给你，不要吗？

深度学习训练技巧

模型训练的技巧

模型训练技巧

caffe训练技巧总结

cnn训练技巧1

模型训练技巧——CutMix

模型训练技巧——mixup

mmdetection 模型训练技巧

PyTorch训练加速技巧

PaddleClas：训练技巧

小技巧、小tips

smarty使用小技巧——截取小技巧

模型训练测试技巧记录

SSD模型训练技巧小结

PyTorch-批量训练技巧

今日推荐

周排行

Leetcode简单题61~80

解决zookeeper磁盘IO高的问题

多线程相关方法详解

Maven-setting.xml文件详解

Maven 项目的 classpath 理解

渊亭科技大数据笔试题

配置JVM内存分配

计算机网络个人学习笔记（三）网络层：第三部分连载

js中两个等号(==)和三个等号(===)的区别

用C程序自动打开电脑上的程序

每日归档

更多

2024-09-18(0)

2024-09-17(0)

2024-09-16(0)

2024-09-15(0)

2024-09-14(0)

2024-09-13(0)

2024-09-12(0)

2024-09-11(0)

2024-09-10(0)

2024-09-09(0)