三种拟合方式:
防止过拟合的三种方式:
c0 表示代价函数 也可理解为 代价函数加上正则化项 正则化项中的n表示样本个数 w表示权值 为可调参数
以下各种优化器:
标准梯度下降算法在样本小的时候可以用 ,随机梯度下降算法容易引入噪点导致向错误的方向下降 ,实际工作中用批量梯度下降算法比较多。
SGD就是随机梯度下降算法,其中 大家函数的梯度就是代价函数对W求导
在SGD基础上 做一些优化
RMS表示均方根
SGD是最慢的,速度指的是模型收敛的速度。当你训练模型的时候可以选则收敛快的 但是确率最重要(发表论文用准确率高的)
SGD逃离不了去不最小值。
根据经验来谈:如果有10个权值 那就需要准备5倍到10倍的样本
左边为VALID PADDING 右边为same padding