《深度学习轻松学》-第8章优化与训练

梯度下降法

前提:固定学习率,两个函数和三个变量组成

函数1:待优化函数f(x);

函数2:待优化函数f(x)的导数g(x);

变量x:函数中的变量,优化过程中会不断变化,直到它找到最小值;

变量grad:变量x点处的梯度值;

变量step:表示沿着梯度下降方法行进的步长,也被称为学习率(LearningRate),优化过程中固定不变。

梯度下降(Gradient Descent)代码:

猜你喜欢

转载自www.cnblogs.com/chamie/p/9046303.html