吴恩达机器学习(八)

随机梯度下降

由于数据量的规模比较大,所以普通的梯度下降的计算量比较大
在这里插入图片描述
批量梯度算法(Batch gradient descent)与随机梯度算法的比较:

首先的一步是将数据进行随机打乱,保证数据之间没有关联
因为随机梯度算法不需要将所有的平方项进行求和,所以比批量梯度算法更具有计算性
实际上就是使用的cost函数不同,导致每次迭代更新的时候速度比较快,迅速求得最优的 θ \theta
得到最优值的过程和批量梯度算法相比,是迂回逼近最优值,而不是直接得到最优值
具有一个内部循环,外层循环的值从1到10,取决于数据量的大小
在这里插入图片描述


Min-Batch梯度下降

在这里插入图片描述
与批量和随机梯度算法相比,每次迭代中使用的样本数为b个
在这里插入图片描述


Stochastic gradient descent convergence随机梯度下降收敛

在这里插入图片描述
如果误差函数在上升,则使用更小的 α \alpha
在这里插入图片描述
手动设置 α \alpha 的值,进行变化,从而更快的收敛到全局最优


MapReduce方法

在这里插入图片描述
Map-reduce方法是将一个大的训练集进行划分,从而将整个大的任务分为几个小的任务来进行计算,从而提高效率。每个小任务将进行各自的参数计算,最后将总和汇总到一个服务器上,从而进行整体的梯度下降。

猜你喜欢

转载自blog.csdn.net/JasonSparrow_1/article/details/86557045