【深度学习】:优化器的选择

三种梯度下降法:

这里写图片描述
若是样本很多,用标准梯度法会很慢,用随机梯度会很快,但是由于每个样本都会用来更新权重,会有噪声的引入,会产生更新错误。

Momentum:

这里写图片描述
因此训练速度会有一定的加快。

NAG(Nesterov accelerated gradient):

这里写图片描述
这里写图片描述

Adagrad:

这里写图片描述

RMSProp:基于adagrad的缺点提出了这个

这里写图片描述
这里写图片描述

Adadelta:

这里写图片描述

Adam:

这里写图片描述

猜你喜欢

转载自blog.csdn.net/qiu931110/article/details/80400103