2019最牛的梯度优化算法出炉,AdaBound实验对比代码

版权声明:版权所有,原创文章请留言转载,并注明出处! https://blog.csdn.net/qq_36441393/article/details/88227470

论文:Adaptive Gradient Methods with Dynamic Bound of Learning Rate

论文地址:https://openreview.net/pdf?id=Bkg3g2R9FX

github地址:https://github.com/Luolc/AdaBound

AdaBound可以被视为一个优化器,随着训练步数的变大,它会从Adam动态转换为SGD。通过这种方式,它可以结合自适应方法的好处,即快速的初始过程,以及SGD的良好最终泛化属性。

以下部分是作者使用Pytorch深度学习框架,使用CIFAR-10数据,在ResNetDensetNet两个神经网络训练,使用各优化算法,以下为对比实验的代码截图:

ResNet(深度残差网络)模型

        

结论:我们看到自适应方法(AdaGrad,Ada

论文:Adaptive Gradient Methods with Dynamic Bound of Learning Rate

论文地址:https://openreview.net/pdf?id=Bkg3g2R9FX

github地址:https://github.com/Luolc/AdaBound

AdaBound可以被视为一个优化器,随着训练步数的变大,它会从Adam动态转换为SGD。通过这种方式,它可以结合自适应方法的好处,即快速的初始过程,以及SGD的良好最终泛化属性。

以下部分是作者使用Pytorch深度学习框架,使用CIFAR-10数据,在ResNetDensetNet两个神经网络训练,使用各优化算法,以下为对比实验的代码截图:

ResNet(深度残差网络)模型

        

结论:我们看到自适应方法(AdaGrad,Adam 和AMSGrad)刚开始比非自适应学习率(SGD)有着良好的表现。但是在150epoch之后学习率消失递减,SGD开始表现良好相比自适应方法更出色。从整个表现看我们的自适应方法AdaBound和AMSBound 能够在刚开始(和AdaGrad,Adam 和AMSGrad)快速得到一个较好的表现,也能在后面的epoch比SGD更出色稳定。

DensetNet(稠密卷积神经网络)

在DenseNet-121上验证与期望一样,同样AdaBound有着不俗的表现。 

实验设置:


m 和AMSGrad)刚开始比非自适应学习率(SGD)有着良好的表现。但是在150epoch之后学习率消失递减,SGD开始表现良好相比自适应方法更出色。从整个表现看我们的自适应方法AdaBound和AMSBound 能够在刚开始(和AdaGrad,Adam 和AMSGrad)快速得到一个较好的表现,也能在后面的epoch比SGD更出色稳定。

DensetNet(稠密卷积神经网络)

在DenseNet-121上验证与期望一样,同样AdaBound有着不俗的表现。 

实验设置:

猜你喜欢

转载自blog.csdn.net/qq_36441393/article/details/88227470