logistic回归的参数梯度更新方法的个人理解

logistic回归参数更新看了几篇博文，感觉理解不透彻，所以自己写一下，希望能有更深的理解。logistic回归输入是一个线性函数 $\boldsymbol{W}\boldsymbol{x}+\boldsymbol{b}$ ，为了简单理解，考虑batchsize为1的情况。这时输入 $\boldsymbol{x}$ 为一个 $n\times1$ 的向量，标签 $\boldsymbol{y}$ 我们采用oneHot编码为一个 $m\times1$ 的向量，显然\boldsymbol{b}也是一个 $m\times1$ 的向量，参数 $\boldsymbol{W}$ 为一个 $m\times n$ 的矩阵。若 $n = 4$ 、 $m = 3$ ，我们用图形表示logistic回归如下：
在这里插入图片描述
这里的标签 $\boldsymbol{y}$ 采用onehot编码，长度为3，如果类别编号为1，则其编码为 ${1,0,0\}^T$ ，对应上图的话，就是 $y_*^1=1$ ， $y_*^2=0$ ， $y_*^3=0$ 。损失函数 $L$ 就是 $y^1$ 和 $y_*^1$ 的交叉熵损失+ $y^2$ 和 $y_*^2$ 的交叉熵损失+ $y^3$ 和 $y_*^3$ 的交叉熵损失。
$\begin{aligned} L&=\sum_{i=1}^3y^i_*\log{y^i}\\ &=y^1_*\log{y^1}+y^2_*\log{y^2}+y^3_*\log{y^3} \end{aligned}$
上式中：
$\begin{aligned} y^1&=\frac{e^{z^1}}{e^{z^1}+e^{z^2}+e^{z^3}}\\ y^2&=\frac{e^{z^2}}{e^{z^1}+e^{z^2}+e^{z^3}}\\ y^3&=\frac{e^{z^3}}{e^{z^1}+e^{z^2}+e^{z^3}}\\ \end{aligned}$
而
$\begin{aligned} z^1=\boldsymbol{w_1}^T \boldsymbol{x}+b_1\\ z^2=\boldsymbol{w_2}^T \boldsymbol{x}+b_2\\ z^3=\boldsymbol{w_3}^T \boldsymbol{x}+b_3 \end{aligned}$
其中， $\boldsymbol{w_1}=\{w_{11},w_{12},w_{13},w_{14}\}^T$ ， $\boldsymbol{x}=\{x_{1},x_{2},x_{3},x_{4}\}^T$ 因此：

损失函数 $L$ 对 $\boldsymbol{w_1}$ 求导：
$\begin{aligned} \frac{\partial L}{\partial \boldsymbol{w_1}}&=\frac{\partial L}{\partial y_1}\frac{\partial y_1}{\partial z^1}\frac{\partial z^1}{\partial \boldsymbol{w_1}}+\frac{\partial L}{\partial y_2}\frac{\partial y_2}{\partial z^1}\frac{\partial z^1}{\partial \boldsymbol{w_1}}+\frac{\partial L}{\partial y_3}\frac{\partial y_3}{\partial z^1}\frac{\partial z^1}{\partial \boldsymbol{w_1}}\\ &=\frac{y_1^*}{y_1}\times y_1(1-y_1)\times \boldsymbol{x}-\frac{y_2^*}{y_2}\times y_1y_2\times \boldsymbol{x}-\frac{y_3^*}{y_3}\times y_1y_3\times \boldsymbol{x}\\ &=(y_1^*(1-y_1)-y_2^*y_1-y_3^*y_1)\boldsymbol{x}\\ &=(y_1^*-y_1(y_1^*+y_2^*+y_3^*))\boldsymbol{x}\\ &=(y_1^*-y_1)\boldsymbol{x}\\ \end{aligned}$
注意 $y_1^*+y_2^*+y_3^*)$ 是标签onehot编码的三个值，和正好为1。同理可得到剩下的两个导数：
$\frac{\partial L}{\partial \boldsymbol{w_2}} = (y_2^*-y_2)\boldsymbol{x}\\ \frac{\partial L}{\partial \boldsymbol{w_3}} = (y_3^*-y_3)\boldsymbol{x}$
交叉熵损失函数 $L$ 关于 $\boldsymbol{w}$ 的梯度为：
$\left[ \begin{aligned} &(y_1^*-y_1)x1&(y_2^*-y_2)x1\space\space\space\space&(y_3^*-y_3)x1\\ &(y_1^*-y_1)x2&(y_2^*-y_2)x2\space\space\space\space&(y_3^*-y_3)x2\\ &(y_1^*-y_1)x3&(y_2^*-y_2)x3\space\space\space\space&(y_3^*-y_3)x3\\ &(y_1^*-y_1)x4&(y_2^*-y_2)x4\space\space\space\space&(y_3^*-y_3)x4\\ &(y_1^*-y_1)x5&(y_2^*-y_2)x5\space\space\space\space&(y_3^*-y_3)x5\\ \end{aligned} \right]^T$
这样交叉熵损失函数 $L$ 关于 $\boldsymbol{w}$ 的梯度用numpy的外积计算表示为：
$\frac{\partial L}{\partial \boldsymbol{w}}=numpy.outer(\boldsymbol{x},\boldsymbol{y^*}-\boldsymbol{y})$
用同样的方法可以推导出：
$\frac{\partial L}{\partial \boldsymbol{b}}=\boldsymbol{y^*}-\boldsymbol{y}$

logistic回归的参数梯度更新方法的个人理解

猜你喜欢