传统机器学习-梯度下降

1-什么是梯度下降

一种基于搜索的最优化算法,作用:最小化一个损失函数

梯度上升:最大化一个效用函数

\frac{dJ}{d\theta }:在曲线方程中,导数代表切线斜率;导数代表\theta单位变化时,J相应的变化

梯度下降法的超参:学习率(通常取0.01一般是没有太大问题的);起始点(并不是所有函数都有唯一极值点)

线性回归法的损失函数具有唯一最优解

2-随机梯度下降法

每次只看一个样本,只用一个样本来更新梯度,这也会出现不是每次都能使损失函数减小的情况。

随机梯度下降:若学习率固定为一个值,可能会出现损失函数已在最小值附近,但是由于随机过程的不稳定性,跳出了最小值附近。改进的方法,使得学习率随着随机梯度下降法的过程逐渐下降,其中a和b通常取5和50,这样在前50轮时学习率大概会减少2%,是一个还可以的值。

发布了46 篇原创文章 · 获赞 1 · 访问量 5038

猜你喜欢

转载自blog.csdn.net/qq_xuanshuang/article/details/105210618