1.2.9&1.2.10 【Deep Learning翻译系列】Logistic Regression Gradient Descent 对数几率回归的梯度下降

我们按如下方式设置了对数几率回归，
$z=w^Tx+b,$
$a = \hat y=\sigma(z),$
$L(a,y)=-(1-y)\log(1-\hat y)-y\log(\hat y).$

在对数几率回归中，我们想要做的是修改参数w和b，以减少L。我们已经描述了在单个训练示例中实际计算损失的四个传播步骤，现在让我们谈谈如何反向计算导数。
对数几率回归的计算图
因为我们想做的是关于这种损失的计算导数，我们反向计算时要做的第一件事就是计算 $\frac {\partial L} {\partial a} =\frac y a + \frac {1-y} {1-a}$ 。

然后 $\frac {\partial L} {\partial z} =\frac {\partial L} {\partial a} \frac {\partial a} {\partial z}=a(1-a)(\frac y a + \frac {1-y} {1-a})=a-y$ 。

最后计算关于w和b的微分
$\frac {\partial L} {\partial w_1} =x_1\frac {\partial L} {\partial z},$
$\frac {\partial L} {\partial w_2} =x_2\frac {\partial L} {\partial z},$
$\frac {\partial L} {\partial b} =\frac {\partial L} {\partial z}.$

因此对数几率回归梯度下降计算的方向是：
$w_1:=w_1-\alpha\frac {\partial L} {\partial w_1},$
$w_2:=w_2-\alpha\frac {\partial L} {\partial w_2},$
$b:=b-\alpha\frac {\partial L} {\partial b}.$

其中 $\alpha$ 是学习率。

上面是只有一个训练样本时的对数几率回归的梯度下降方向，
现在我们想要为m个训练样本的对数几率回归进行梯度下降操作。
整体的成本函数 $J=\frac {1} {m} \sum_{i=1}^m L(a^{(i)},y^{(i)})，$
然后 $\frac {\partial J} {\partial w_i} = \frac 1 m \sum \frac {\partial L(a^{(i)},y^{(i)})} {\partial w_i}。$
令 $\alpha$ 是学习率，然后梯度下降每次迭代的更新公式为：
$w_1:=w_1-\alpha\frac {\partial J} {\partial w_1},$
$w_2:=w_2-\alpha\frac {\partial J} {\partial w_2},$
$b:=b-\alpha\frac {\partial J} {\partial b}.$

1.2.9&1.2.10 【Deep Learning翻译系列】Logistic Regression Gradient Descent 对数几率回归的梯度下降

猜你喜欢