机器学习中的数学——优化技术：优化算法-[Nesterov Momentum] - 代码天地

机器学习中的数学——优化技术：优化算法-[Nesterov Momentum]

企业开发 2022-03-23 12:56:49 阅读次数: 0

受Nesterov Accelerated Gradient算法的启发，Sutskever提出了动量算法的一个变种。这种情况的更新规则如下：
$v=\alpha v-\epsilon\nabla_\theta[\frac{1}{m}\sum_{i=1}^mL(f(x^{(i)});\theta+\alpha v), y^{(i)}]\\ \quad\\ \theta=\theta+v$

其中参数 $\alpha$ 和 $\epsilon$ 发挥了和标准动量方法中类似的作用。Nesterov动量和标准动量之间的区别体现在梯度计算上。Nesterov动量中，梯度计算在施加当前速度之后。因此，Nesterov动量可以解释为往标准动量方法中添加了一个校正因子。

Nesterov Momentum第 $k$ 次迭代
输入：学习率 $\epsilon$ ；初始化参数 $\theta_0$ 或第 $k - 1$ 次输出参数 $\theta_{k-1}$ ；动量参数 $\alpha$ ；第 $k - 1$ 次输出速度 $v_{k-1}$
输出：第 $k$ 次迭代后的参数 $\theta_k$
(1) while $\quad\text{停止准则为满足}$
(2) $\quad$ 从训练集中采包含 $m$ 个样本 $\{x^{(1)}, x^{(2)}, \cdots, x^{(m)}\}$ 的小批量，其中 $x^{(i)}$ 对应目标为 $y^{(i)}$
(3) $\quad$ 计算梯度估计： $g_k = \frac{1}{m}\nabla_{\theta+\alpha v}\sum_iL(f(x^{(i)}; \theta+\alpha v), y^{(i)})$
(4) $\quad v_k = \alpha v_{k-1} - \epsilon g_k$
(5) $\quad\theta_k = \theta_{k-1}+ v$
(6) $\quad k = k + 1$
(7) return $\theta_k$

在凸批量梯度的情况下，Nesterov Momentum将额外误差收敛率从 $O(\frac{1}{k})$ （k步后）改进到 $O(\frac{1}{k^2})$ 。可惜，在随机梯度的情况下，Nesterov Momentum没有改进收敛率。

猜你喜欢

转载自blog.csdn.net/hy592070616/article/details/123362497

机器学习中的数学——优化技术：优化算法-[Nesterov Momentum]

机器学习中的数学——优化技术：优化算法-[Momentum（Gradient Descent with Momentum, GDM）]

深度学习中优化方法——momentum、Nesterov Momentum、AdaGrad、Adadelta、RMSprop、Adam

度学习中优化方法——momentum、Nesterov Momentum、AdaGrad、Adadelta、RMSprop、Adam

最优化算法Nesterov Momentum牛顿动量法

SGD的动量（Momentum）算法

深度学习优化算法——彻底搞懂Momentum

Momentum

【推荐算法】常见优化算法总结（BGD、SGD、Momentum、Nesterov、Adagrad、AdaDelta、Adam）

优化算法比较的实验结果比较（BGD，SGD，MBGD，Momentum，Nesterov，Adagrad，RMSprop）

入门神经网络优化算法（一）：Gradient Desend，Momentum，Nesterov accelerated gradient

SGD ,Adam,momentum等优化算法比较

优化算法optimization：SGD动量法momentum

深度学习中momentum的作用

机器学习中几种优化算法的比较（SGD、Momentum、RMSProp、Adam）

动量Momentum梯度下降算法

pytorch学习：动量法momentum

Gradient Descent、Momentum、Nesterov的实现及直觉对比

优化方法：SGD，Momentum，AdaGrad，RMSProp，Adam

TensorFlow 常用优化器：GradientDescent、Momentum、Adam

优化算法总结 -- SGD，Momentum，AdaGrad，RMSProp，Adam

Mini-Batch 、Momentum、Adam算法的实现

PyTorch SGD 中参数 Momentum 的理解

Momentum, RMSProp, Adam，自适应学习率

pytorch学习笔记（三十五）：Momentum

tensorflow中各种优化器解析（SGD、Momentum、Adam等）

深度学习优化入门：Momentum、RMSProp 和 Adam

深度学习优化函数详解（4）-- momentum 动量法

理解深度学习各种优化策略-SGD,Adagrad,Momentum...

了解深度学习优化器：Momentum、AdaGrad、RMSProp 和 Adam

今日推荐

周排行

深度学习------Lingvo框架下的加速通道GPipe

webjars管理静态资源

C专家编程_2.2

mysql 源码安装

json文件操作

123231432

注解的实现

Spring MVC 控制器

《人月神话》读后感二

C#使用HttpWebRequest和HttpWebResponse上传文件示例

每日归档

更多

2024-09-08(0)

2024-09-07(0)

2024-09-06(0)

2024-09-05(0)

2024-09-04(0)

2024-09-03(0)

2024-09-02(0)

2024-09-01(0)

2024-08-31(0)

2024-08-30(0)