BGD(批量梯度下降):更新每一参数都用所有样本更新,m=all,更新100次遍历多有数据100次
SGD(随机梯度下降):更新每一参数都随机选择一个样本更新,m=1
MBGD(小批量梯度下降):更新每一参数都选m个样本平均梯度更新,1<m<all
总结:SGD训练速度快,大样本选择;BGD能得到全局最优解,小样本选择;MBGD综合二者选择。
BGD(批量梯度下降):更新每一参数都用所有样本更新,m=all,更新100次遍历多有数据100次
SGD(随机梯度下降):更新每一参数都随机选择一个样本更新,m=1
MBGD(小批量梯度下降):更新每一参数都选m个样本平均梯度更新,1<m<all
总结:SGD训练速度快,大样本选择;BGD能得到全局最优解,小样本选择;MBGD综合二者选择。