神经网络和深度学习

神经网络基础

梯度下降法

梯度下降法可以在你测试集上，通过最小化代价函数（成本函数） $J(w, b)$ 来训练的参数 $w$ 和 $b$ 。
梯度下降法的形象化说明：
- 在这个图中，横轴表示你的空间参数 $w$ 和 $b$ ；
- 在实践中， $w$ 可以是更高的维度，但是为了更好地绘图，我们定义 $w$ 和 $b$ 都是单一实数；
- 代价函数（成本函数） $J(w, b)$ 是在水平轴 $w$ 和 $b$ 上的曲面，因此曲面的高度就是 $J(w, b)$ 在某一点的函数值；
- 我们所做的就是找到使得代价函数（成本函数） $J(w, b)$ 函数值是最小值时对应的参数 $w$ 和 $b$ ；
- 由于逻辑回归的代价函数（成本函数） $J(w, b)$ 特性，我们必须定义代价函数（成本函数） $J(w, b)$ 为凸函数。
初始化 $w$ 和 $b$ ，可以用如图那个小红点来初始化参数，也可以采用随机初始化的方法，对于逻辑回归几乎所有的初始化方法都有效，因为函数是凸函数，无论在哪里初始化，应该达到同一点或大致相同的点。
我们以如图的小红点的坐标来初始化参数 $w$ 和 $b$ ：
- 朝最陡的下坡方向走一步，不断地迭代，走到了如图中第二个小红点处：
- 我们可能停在这里也有可能继续朝最陡的下坡方向再走一步，经过两次迭代走到第三个小红点处：
- 直到走到全局最优解或者接近全局最优解的地方，通过以上的三个步骤我们可以找到全局最优解，也就是代价函数（成本函数） $J(w, b)$ 这个凸函数的最小值点。
梯度下降法的细节化说明（仅有一个参数）：
- 假定代价函数（成本函数） $J(w)$ 只有一个参数 $w$ ，即用一维曲线代替多维曲线，这样可以更好画出图像；
- $w=w-\alpha\frac{dJ(w)}{dw}$ ，迭代就是不断重复更新参数；
- $\alpha$ 表示学习率，用来控制步长，即向下走一步的长度 $\frac{dJ(w)}{dw}$ 就是函数 $J(w)$ 对 $w$ 求导，在代码中我们会使用 $dw$ 表示这个结果；
- 对于导数更加形象化的理解就是斜率，如图该点的导数就是这个点相切于 $J(w)$ 的小三角形的高除宽；
- 假设我们以如下图点为初始化点，该点处的斜率的符号是正的，即 $\frac{dJ(w)}{dw}>0$ ，所以接下来会向左走一步：
- 整个梯度下降法的迭代过程就是不断地向左走，直至逼近最小值点。
- 假设我们以如下图点为初始化点，该点处的斜率的符号是负的，即 $\frac{dJ(w)}{dw}<0$ ，所以接下来会向右走一步：
- 整个梯度下降法的迭代过程就是不断地向右走，即朝着最小值点方向走。
逻辑回归的代价函数（成本函数） $J(w, b)$ 是含有两个参数的。
- $w=w-\alpha\frac{\partial J(w, b)}{\partial w}$ ；
- $b=b-\alpha\frac{\partial J(w, b)}{\partial b}$ ；
- $\partial$ 表示求偏导符号， $\frac{\partial J(w, b)}{\partial w}$ 就是函数 $J(w, b)$ 对 $w$ 求偏导，在代码中我们会使用 $dw$ 表示这个结果；
- $\frac{\partial J(w, b)}{\partial w}$ 就是函数 $J(w, b)$ 对 $b$ 求偏导，在代码中我们会使用 $db$ 表示这个结果；
- 小写字母 $d$ 用在求导数，即函数只有一个参数，偏导数符号 $\partial$ 用在求偏导，即函数含有两个以上的参数。

算法工程师修仙之路：吴恩达深度学习（五）

神经网络和深度学习

神经网络基础

梯度下降法

猜你喜欢