版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/ljyljyok/article/details/88305903
本文是Deep Learning 之 最优化方法系列文章的 Adam(自适应算法3)方法。主要参考Deep Learning 一书。
以下节选自个人深度学习笔记。
内容整合来源于网络与个人理解。
Adam(自适应矩估计)
口Adam 这个名字来源于adaptive moment estimation, 自适应矩估计。
口Adam本质上是带有动量项的RMSprop, 它利用梯度的一阶矩估计和二阶矩估计动态调整每个参数的学习率。
(注意:为二阶矩!)
碎碎念:
① 结论:
1.Adam算法可以看做是修正后的Momentum+RMSProp算法
2.动量直接并入梯度一阶矩估计中(指数加权)
3.Adam通常被认为对超参数的选择相当鲁棒
4.学习率建议为0.001。
② 再看算法:其实就是Momentum+RMSProp的结合,然后再修正其偏差。
参考:
其他:
深度学习中优化方法——momentum、Nesterov Momentum、AdaGrad、Adadelta、RMSprop、Adam