TensorFlow可微分编程实践3---计算图模型

在这篇博文中，我们将探讨怎样通过可微分编程技术，实现深度学习中最常用的多层感知器（MLP）模型。我们在这里使用TensorFlow Eager Execution API，并使用多层感知器模型来进行MNIST手写数字识别任务。如果我们单纯想尝试一下自动微分和可微分编程，以及如何用TensorFlow来调用这些技术，我们可以使用TensorFlow内置类来做这个工作，但是这样大家就无从了解实现的细节了，对于深刻掌握可微分编程来说是不利的。因此我们在这篇博文，会尝试从头开始，利用自动微分技术，实现一个简单的多层感知器模型。
我们可以构造一个最简的多层感知器（MLP）模型，来做MNIST手写数字识别工作，如下所示：
这里写图片描述
因为MNIST图片为 $28 \times 28$ 的黑白图片，所以输入向量为 $\boldsymbol{x} \ in R^{784}$ ，这里的 $n=784$ ，即共有784维。对第i个样本，我们用 $\boldsymbol{x}^{(i)}$ 来表示，在本例中，为了讨论问题方便，我们省略的上标仅用 $\boldsymbol{x}$ 表示，但是大家要注意这代表的是某一个样本。对于图中的每个像素点，我们将28行串接起来，组成一个784个的长数列，用下标表示某个像素点的取值，例如第2行第5列的下标为 $28 \times 2 + 5=61$ ，可以用 $\boldsymbol{x}_{61}$ 来表示。
输入层与第1层采用全连接方式，第1层第i个节点的输入值我们用 $\boldsymbol{z}^1_i$ ，其为输入层所有神经元的输出值，与该神经元与第1层第i个神经元连接权值相乘再相加的结果，我们假设输入层第j个神经元指向第1层第i个神经元的连接权值用 $W^1_{i,j}$ 表示，上标代表为第1层，下标第一个代表是第1层第i个神经元，第二个代表是输入层第j个神经元，我们可以得出第1层第i个神经元的输入值公式：

\begin{matrix} (1) & z_{i}^{1} = W_{i, 1}^{1} x_{1} + W_{i, 2}^{1} x_{2} + . . . + W_{i, j}^{1} x_{j} + . . . + W_{i, 784}^{1} x_{784} + b_{i}^{1} \end{matrix}

$\begin{equation} \boldsymbol{z}^1_i=W^1_{i,1}\boldsymbol{x}_1+W^1_{i,2}\boldsymbol{x}_2+...+W^1_{i,j}\boldsymbol{x}_j+...+W^1_{i,784}\boldsymbol{x}_{784}+b^1_i \end{equation}$
或者简写为：

\begin{matrix} (2) & z_{i}^{1} = \sum_{j = 1}^{784} W_{i, j}^{1} x_{j} + b_{i}^{1} \end{matrix}

$\begin{equation} \boldsymbol{z}^1_i=\sum_{j=1}^{784}W^1_{i,j}\boldsymbol{x}_j+b^1_i \end{equation}$
我们通常将所有第1层神经元的输入值串起来形成一个向量，如下所示：

z^{1} = [\begin{matrix} z_{1}^{1} \\ z_{2}^{1} \\ . . . \\ z_{512}^{1} \end{matrix}]

$\boldsymbol{z}^1=\begin{bmatrix} \boldsymbol{z}^1_1 \\ \boldsymbol{z}^1_2 \\ ... \\ \boldsymbol{z}^1_{512} \end{bmatrix}$
我们将第1层神经元的偏置值

b_{i}^{1}

$b^1_i$ 与串在一起形成一个向量，如下所示：

b^{1} = [\begin{matrix} b_{1}^{1} \\ b_{2}^{1} \\ . . . \\ b_{512}^{1} \end{matrix}]

$\boldsymbol{b}^1=\begin{bmatrix} \boldsymbol{b}^1_1 \\ \boldsymbol{b}^1_2 \\ ... \\ \boldsymbol{b}^1_{512} \end{bmatrix}$
我们将输入层与第1层的连接权值表示为矩阵形式，如下所示：

W^{1} = [\begin{matrix} W_{1, 1}^{1} & W_{1, 2}^{1} & . . . & W_{1, 784}^{1} \\ W_{2, 1}^{1} & W_{2, 2}^{1} & . . . & W_{2, 784}^{1} \\ . . . & . . . & . . . & . . . \\ W_{512, 1}^{1} & W_{512, 2}^{1} & . . . & W_{512, 784}^{1} \end{matrix}]

$W^1=\begin{bmatrix} W^1_{1,1} & W^1_{1, 2} & ... & W^1_{1,784} \\ W^1_{2,1} & W^1_{2, 2} & ... & W^1_{2,784} \\ ... & ... & ... & ... \\ W^1_{512,1} & W^1_{512, 2} & ... & W^1_{512,784} \end{bmatrix}$
输入信号也表示为向量形式：

\begin{matrix} (3) & x = [\begin{matrix} x_{1} \\ x_{2} \\ . . . \\ x_{584} \end{matrix}] \end{matrix}

$\begin{equation} \boldsymbol{x}=\begin{bmatrix} \boldsymbol{x}_1 \\ \boldsymbol{x}_2 \\ ... \\ \boldsymbol{x}_{584} \end{bmatrix} \end{equation}$
则第1层神经元的输入信号可以表示矩阵向量的运算，如下所示：

\begin{matrix} (e000001) & z^{1} = W^{1} \cdot x + b^{1} \end{matrix}

$\begin{equation} \tag{e000001} \boldsymbol{z}^1=W^1 \cdot \boldsymbol{x}+\boldsymbol{b}^1 \end{equation}$
我们假设第1层第i个神经元的激活函数为ReLU函数，则其输出为：

\begin{matrix} (4) & a_{i}^{1} = R e L U (z_{i}^{1}) \end{matrix}

$\begin{equation} \boldsymbol{a}^1_i=ReLU(\boldsymbol{z}^1_i) \end{equation}$
我们同样将第1层所有神经元的输出串在一起形成一个向量，如下所示：

\begin{matrix} (5) & a^{1} = R e L U (z^{1}) \end{matrix}

$\begin{equation} \boldsymbol{a}^1=ReLU(\boldsymbol{z}^1) \end{equation}$
将式（

e 000001

$e000001$ ）代入得到：

\begin{matrix} (e000002) & a^{1} = R e L U (z^{1}) = R e L U (W^{1} \cdot x + b^{1}) \end{matrix}

$\begin{equation} \tag{e000002} \boldsymbol{a}^1=ReLU(\boldsymbol{z}^1)=ReLU(W^1 \cdot \boldsymbol{x}+\boldsymbol{b}^1) \end{equation}$
以上我们讨论的是输入导到第1层，我们可以很容易的将其推广为从第

l - 1

$l-1$ 到第

l

$l$ 层：

\begin{matrix} (e000003) & a^{l} = R e L U (z^{l}) = R e L U (W^{l} \cdot a^{l - 1} + b^{l}) \end{matrix}

$\begin{equation} \tag{e000003} \boldsymbol{a}^l=ReLU(\boldsymbol{z}^l)=ReLU(W^l \cdot \boldsymbol{a}^{l-1}+\boldsymbol{b}^l) \end{equation}$
我们用

N_{l - 1}

$N_{l-1}$ 代表第

l - 1

$l-1$ 层神经元数量，用

N_{l}

$N_{l}$ 表示第

l

$l$ 层神经元数量，则第

l - 1

$l-1$ 层输出信号

a^{l - 1} \in R^{N_{l - 1}}

$\boldsymbol{a}^{l-1} \in R^{N_{l-1}}$ ，第

l - 1

$l-1$ 层到第

l

$l$ 层连接权值矩阵

W^{l} \in R^{N_{l} \times N_{l - 1}}

$W^l \in R^{N_l \times N_{l-1}}$ ，第

l

$l$ 层偏置值

b^{l} \in R^{N_{l}}

$\boldsymbol{b}^l \in R^{N_l}$ ，第

l

$l$ 层输入信息

z^{l} \in R^{N_{l}}

$\boldsymbol{z}^l \in R^{N_l}$ ，第

l

$l$ 层的输出值

a^{l} \in R^{N_{l}}

$\boldsymbol{a}^l \in R^{N_l}$ 。
前向传播各层计算公式一样，直到我们的输出层（这里是第2层），我们有10个神经元，分别代表取0~9这10个数字的概率，激活函数采用Softmax函数，取概率最大的那个作为整个网络的分类结果。
神经网络的训练可以采用BP算法，这里有很多成熟的算法库可用。但是我们在这里要采用计算的方式来讲解，同时我们在讲解了计算图的基本原理之后，我们会用TensorFlow Eager Execution API，采用可微分编程方式，实现这一经典算法。
采用计算图方式的话，我们需要引入一种网络的另一种表示方式，如图所示：
这里写图片描述

我们将输入信号向量

x

$\boldsymbol{x}$ 、输入层到第1层的连接权值矩阵

W^{1}

$W^1$ 、第1层神经元偏置值向量

b^{1}

$\boldsymbol{b}^1$ 放在图的最左侧，将这三个值进行如下运算：

\begin{matrix} (6) & z^{1} = W^{1} x + b^{1} \end{matrix}

$\begin{equation} \boldsymbol{z}^1=W^1\boldsymbol{x}+\boldsymbol{b}^1 \end{equation}$
经过计算得到节点

z^{1}

$\boldsymbol{z}^1$ ，我们再经过激活函数得到第1层神经元输出信号

a^{1} = R e L U (z^{1})

$\boldsymbol{a}^1=ReLU(\boldsymbol{z}^1)$ ，得到

a^{1}

$\boldsymbol{a}^1$ 节点。
我们将第1层输出信号

a^{1}

$\boldsymbol{a}^1$ 、第1层到第2层连接权值矩阵

W^{2}

$W^2$ 、第2层神经元偏置值向量

b^{2}

$\boldsymbol{b}^2$ 放在一起，经过如下运算：

\begin{matrix} (7) & z^{2} = W^{2} a^{1} + b^{2} \end{matrix}

$\begin{equation} \boldsymbol{z}^2=W^2\boldsymbol{a}^1+\boldsymbol{b}^2 \end{equation}$
第2层也就是输出层的激活函数为Softmax函数：

\begin{matrix} (8) & y_{i} = a_{i}^{2} = \frac{e^{z_{i}^{2}}}{\sum_{j = 1}^{N_{2}} e^{z_{j}^{2}}} \end{matrix}

$\begin{equation} \boldsymbol{y}_i=\boldsymbol{a}^2_i=\frac{e^{\boldsymbol{z}^2_i}}{\sum_{j=1}^{N_2}e^{\boldsymbol{z}^2_j}} \end{equation}$
其向量形式表示为：

\begin{matrix} (9) & y_{i} = [\begin{matrix} \frac{e^{z_{1}^{2}}}{\sum_{j = 1}^{N_{2}} e^{z_{j}^{2}}} \\ \frac{e^{z_{2}^{2}}}{\sum_{j = 1}^{N_{2}} e^{z_{j}^{2}}} \\ . . . \\ \frac{e^{z_{N_{2}}^{2}}}{\sum_{j = 1}^{N_{2}} e^{z_{j}^{2}}} \end{matrix}] \end{matrix}

$\begin{equation} \boldsymbol{y}_i=\begin{bmatrix} \frac{e^{\boldsymbol{z}^2_1}}{\sum_{j=1}^{N_2}e^{\boldsymbol{z}^2_j}} \\ \frac{e^{\boldsymbol{z}^2_2}}{\sum_{j=1}^{N_2}e^{\boldsymbol{z}^2_j}} \\ ... \\ \frac{e^{\boldsymbol{z}^2_{N_2}}}{\sum_{j=1}^{N_2}e^{\boldsymbol{z}^2_j}} \end{bmatrix} \end{equation}$
而我们的希望的结果表示为：

\begin{matrix} (10) & {\hat{y}}_{i} = [\begin{matrix} 0 \\ 0 \\ 1 \\ 0 \\ . . . \\ 0 \end{matrix}] \end{matrix}

$\begin{equation} \boldsymbol{\hat{y}}_i=\begin{bmatrix} 0 \\ 0 \\ 1 \\ 0 \\ ... \\ 0 \end{bmatrix} \end{equation}$
如上所示，其用one-hot向量形式表示，即只有正确的数字处为1，其余位置为0，例如本例中，就代表其识别结果应该为2。

向量运算的微分
我们先来定义向量微分，假设有向量 $\boldsymbol{y} \in R^m$ 和向量 $\boldsymbol{x} \in R^n$ ，微分 $\frac{\partial{\boldsymbol{y}}}{\partial{\boldsymbol{x}}}$ 定义为：

$\begin{matrix} (11) & \frac{\partial y}{\partial x} = [\begin{matrix} \frac{\partial y_{1}}{\partial x_{1}} & \frac{\partial y_{1}}{\partial x_{2}} & . . . & \frac{\partial y_{1}}{\partial x_{n}} \\ \frac{\partial y_{2}}{\partial x_{1}} & \frac{\partial y_{2}}{\partial x_{2}} & . . . & \frac{\partial y_{2}}{\partial x_{n}} \\ . . . & . . . & . . . & . . . \\ \frac{\partial y_{m}}{\partial x_{1}} & \frac{\partial y_{m}}{\partial x_{2}} & . . . & \frac{\partial y_{m}}{\partial x_{n}} \end{matrix}] \end{matrix}$ $\begin{equation} \frac{\partial{\boldsymbol{y}}}{\partial{\boldsymbol{x}}}=\begin{bmatrix} \frac{\partial{y}_1}{\partial{x}_1} & \frac{\partial{y}_1}{\partial{x}_2} & ... & \frac{\partial{y}_1}{\partial{x}_n} \\ \frac{\partial{y}_2}{\partial{x}_1} & \frac{\partial{y}_2}{\partial{x}_2} & ... & \frac{\partial{y}_2}{\partial{x}_n} \\ ... & ... & ... & ... \\ \frac{\partial{y}_m}{\partial{x}_1} & \frac{\partial{y}_m}{\partial{x}_2} & ... & \frac{\partial{y}_m}{\partial{x}_n} \end{bmatrix} \end{equation}$
这就是Jacobian矩阵 $\boldsymbol{j} \in R^{m \times n}$ 。
代价函数求导
我们首先从计算图最右侧开始反向求导，如图所示：

我们首先处理损失函数，这里我们假设不考虑添加调整项的情况，我们的代价函数取交叉熵（cross entropy）函数，根据交叉熵定义：

$\begin{matrix} (12) & H (p, q) = E_{p} (- \log q) = H (p) + K L (p ‖ q) \end{matrix}$ $\begin{equation} H(p, q)=E_p(-\log{q})=H(p)+KL(p \Vert q) \end{equation}$
对离散值情况，交叉熵（cross entropy）可以表示为：
$\begin{matrix} (13) & H (p, q) = - \sum_{k = 1}^{K} p (k) \log q (k) \end{matrix}$ $\begin{equation} H(p, q)=-\sum_{k=1}^{K}p(k)\log{q(k)} \end{equation}$
在这里我们设正确值 $\hat{\boldsymbol{y}}$ 的分布为p，而计算值 $\boldsymbol{y}=\boldsymbol{a}^2$ 的分布为q，假设共有 $K=10$ 个类别，并且假设第 $r$ 维为正确数字，则代价函数的值为：
$\begin{matrix} (14) & C = H (p, q) = - \sum_{k = 1}^{K} p (k) \log q (k) = - (0 * \log y_{1} + 0 * \log y_{2} + . . . + 1 * \log y_{r} + . . . + 0 * \log y_{10}) = - \log y_{r} \end{matrix}$ $\begin{equation} C=H(p, q)=-\sum_{k=1}^{K}p(k)\log{q(k)}=-(0*\log{y_1}+0*\log{y_2}+...+1*\log{y_r}+...+0*\log{y_{10}}) \\ =-\log{y_r} \end{equation}$
我们可以将代价函数值视为 $R^{1}$ 的向量，我们对 $\boldsymbol{y}$ 求偏导，根据Jacobian矩阵定义，结果为 $R^{1 \times N_2}=R^{1 \times 10}$ 的1行10列的矩阵。结果如下所示：
$\begin{matrix} (15) & \frac{\partial C}{\partial y} = [\begin{matrix} 0 & 0 & . . . & - \frac{1}{y_{r}} & . . . & 0 \end{matrix}] \end{matrix}$ $\begin{equation} \frac{\partial{C}}{\partial{y}}=\begin{bmatrix} 0 & 0 & ... & -\frac{1}{y_r} & ... & 0 \end{bmatrix} \end{equation}$
其只有正确数字对应的第r维不为0，其余均为零。
接下来我们来求： $\frac{\partial{\boldsymbol{y}}}{\partial{\boldsymbol{z}^2}}$ ，因为 $\boldsymbol{y}$ 和$\boldsymbol{a}^2均为向量，可以直接使用Jacobian矩阵定义得：

\begin{matrix} (16) & \frac{\partial y}{\partial z^{2}} = [\begin{matrix} \frac{\partial y_{1}}{\partial z_{1}^{2}} & \frac{\partial y_{1}}{\partial z_{2}^{2}} & . . . & \frac{\partial y_{1}}{\partial z_{N_{2}}^{2}} \\ \frac{\partial y_{2}}{\partial z_{1}^{2}} & \frac{\partial y_{2}}{\partial z_{2}^{2}} & . . . & \frac{\partial y_{2}}{\partial z_{N_{2}}^{2}} \\ . . . & . . . & . . . & . . . \\ \frac{\partial y_{N_{2}}}{\partial z_{1}^{2}} & \frac{\partial y_{N_{2}}}{\partial z_{2}^{2}} & . . . & \frac{\partial y_{N_{2}}}{\partial z_{N_{2}}^{2}} \end{matrix}] \end{matrix}

$\begin{equation} \frac{\partial{\boldsymbol{y}}}{\partial{\boldsymbol{z}^2}}=\begin{bmatrix} \frac{\partial{y_1}}{\partial{z^2_1}} & \frac{\partial{y_1}}{\partial{z^2_2}} & ... & \frac{\partial{y_1}}{\partial{z^2_{N_2}}} \\ \frac{\partial{y_2}}{\partial{z^2_1}} & \frac{\partial{y_2}}{\partial{z^2_2}} & ... & \frac{\partial{y_2}}{\partial{z^2_{N_2}}} \\ ... & ... &... &... \\ \frac{\partial{y_{N_2}}}{\partial{z^2_1}} & \frac{\partial{y_{N_2}}}{\partial{z^2_2}} & ... & \frac{\partial{y_{N_2}}}{\partial{z^2_{N_2}}} \\ \end{bmatrix} \end{equation}$
式中

N_{2} = 10

$N_2=10$ 为第2层即输出层神经元个数。由此可见

\frac{\partial y}{\partial z^{2}} \in R^{N_{2} \times N_{2}} (R^{10 \times 10})

$\frac{\partial{\boldsymbol{y}}}{\partial{\boldsymbol{z}^2}} \in R^{N_2 \times N_2}(R^{10 \times 10})$ 的方阵。
如果我们输出层采用

σ

$\sigma$ 函数，那么第i个神经元的输出只与其输入有关，与其他神经元无关，因此该矩阵就变为一个对角阵，如下所示：

\begin{matrix} (17) & \frac{\partial y}{\partial z^{2}} = [\begin{matrix} σ^{'} (z_{1}^{2}) & 0 & . . . & 0 \\ 0 & σ^{'} (z_{2}^{2}) & . . . & 0 \\ . . . & . . . & . . . & . . . \\ 0 & 0 & . . . & σ^{'} (z_{10}^{2}) \end{matrix}] \end{matrix}

$\begin{equation} \frac{\partial{\boldsymbol{y}}}{\partial{\boldsymbol{z}^2}}=\begin{bmatrix} \sigma'(z^2_1) & 0 & ... & 0 \\ 0 & \sigma'(z^2_2) & ... & 0 \\ ... & ... &... &... \\ 0 & 0 & ... & \sigma'(z^2_{10}) \end{bmatrix} \end{equation}$
但是我们在这里使用的是Softmax激活函数，每个输出与该层所有神经元的输入均有关，所以其不是对角阵。
接下来我们计算

\frac{\partial z^{2}}{\partial a^{1}}

$\frac{\partial{\boldsymbol{z}^2}}{\partial{\boldsymbol{a}^1}}$ ，根据Jacobian矩阵定义得：

\begin{matrix} (e000004) & \frac{\partial z^{2}}{\partial a^{1}} = [\begin{matrix} \frac{\partial z_{1}^{2}}{\partial a_{1}^{1}} & \frac{\partial z_{1}^{2}}{\partial a_{2}^{1}} & . . . & \frac{\partial z_{1}^{2}}{\partial a_{N_{1}}^{1}} \\ \frac{\partial z_{2}^{2}}{\partial a_{1}^{1}} & \frac{\partial z_{2}^{2}}{\partial a_{2}^{1}} & . . . & \frac{\partial z_{2}^{2}}{\partial a_{N_{1}}^{1}} \\ . . . & . . . & . . . & . . . \\ \frac{\partial z_{N_{2}}^{2}}{\partial a_{1}^{1}} & \frac{\partial z_{N_{2}}^{2}}{\partial a_{2}^{1}} & . . . & \frac{\partial z_{N_{2}}^{2}}{\partial a_{N_{1}}^{1}} \end{matrix}] \end{matrix}

$\begin{equation} \tag{e000004} \frac{\partial{\boldsymbol{z}^2}}{\partial{\boldsymbol{a}^1}}=\begin{bmatrix} \frac{\partial{z^2_1}}{\partial{a^1_1}} & \frac{\partial{z^2_1}}{\partial{a^1_2}} & ... & \frac{\partial{z^2_1}}{\partial{a^1_{N_1}}} \\ \frac{\partial{z^2_2}}{\partial{a^1_1}} & \frac{\partial{z^2_2}}{\partial{a^1_2}} & ... & \frac{\partial{z^2_2}}{\partial{a^1_{N_1}}} \\ ... & ... &... &... \\ \frac{\partial{z^2_{N_2}}}{\partial{a^1_1}} & \frac{\partial{z^2_{N_2}}}{\partial{a^1_2}} & ... & \frac{\partial{z^2_{N_2}}}{\partial{a^1_{N_1}}} \\ \end{bmatrix} \end{equation}$
我们知道：

z_{i}^{2} = W_{i, 1}^{2} a_{1}^{1} + W_{i, 2}^{2} a_{2}^{1} + . . . + W_{i, j}^{2} a_{j}^{1} + . . . + W_{i, N_{1}}^{2} a_{N_{1}}^{1}

$z^2_i=W^2_{i,1}a^1_1+W^2_{i,2}a^1_2+...+W^2_{i,j}a^1_j+...+W^2_{i,N_1}a^1_{N_1}$
则其对第1层第j个神经元输出信号求导：

\frac{\partial z_{i}^{2}}{\partial a_{j}^{1}} = W_{i, j}^{2}

$\frac{\partial{z^2_i}}{\partial{a^1_j}}=W^2_{i,j}$
所以式（e000004）的最终结果为：

\begin{matrix} (e000004) & \frac{\partial z^{2}}{\partial a^{1}} = [\begin{matrix} \frac{\partial z_{1}^{2}}{\partial a_{1}^{1}} & \frac{\partial z_{1}^{2}}{\partial a_{2}^{1}} & . . . & \frac{\partial z_{1}^{2}}{\partial a_{N_{1}}^{1}} \\ \frac{\partial z_{2}^{2}}{\partial a_{1}^{1}} & \frac{\partial z_{2}^{2}}{\partial a_{2}^{1}} & . . . & \frac{\partial z_{2}^{2}}{\partial a_{N_{1}}^{1}} \\ . . . & . . . & . . . & . . . \\ \frac{\partial z_{N_{2}}^{2}}{\partial a_{1}^{1}} & \frac{\partial z_{N_{2}}^{2}}{\partial a_{2}^{1}} & . . . & \frac{\partial z_{N_{2}}^{2}}{\partial a_{N_{1}}^{1}} \end{matrix}] = [\begin{matrix} W_{1, 1}^{2} & W_{1, 2}^{2} & . . . & W_{1, N_{1}}^{2} \\ W_{2, 1}^{2} & W_{2, 2}^{2} & . . . & W_{2, N_{1}}^{2} \\ . . . & . . . & . . . & . . . \\ W_{N_{2}, 1}^{2} & W_{N_{2}, 2}^{2} & . . . & W_{N_{2}, N_{1}}^{2} \end{matrix}] = W^{2} \end{matrix}

z^{2} = W^{2} a^{1} + b^{2}

$\boldsymbol{z}^2=W^2\boldsymbol{a}^1+\boldsymbol{b}^2$ 对

a^{1}

$\boldsymbol{a}^1$ 求导得

W^{2}

$W^2$ 一致。
接下来我们要求的

\frac{\partial z^{2}}{\partial W^{2}}

$\frac{\partial{\boldsymbol{z}^2}}{\partial{W^2}}$ ，这里是向量对矩阵求偏导，结果将是一个张量（Tensor）。
我们可以将连接权值矩阵

W^{2}

$W^2$ 视为由列向量组成：

\begin{matrix} (18) & W^{2} = [\begin{matrix} w^{1} & w^{2} & . . . & w^{N_{1}} \end{matrix}] \end{matrix}

$\begin{equation} W^2=\begin{bmatrix} \boldsymbol{w}^{1} & \boldsymbol{w}^{2} & ... & \boldsymbol{w}^{N_1} \end{bmatrix} \end{equation}$
其中第

k

$k$ 个列向量

w^{k}

$\boldsymbol{w}^{k}$ 为：

\begin{matrix} (19) & w^{k} = [\begin{matrix} W_{1, k}^{2} \\ W_{2, k}^{2} \\ . . . \\ W_{N_{2}, k}^{2} \end{matrix}] \end{matrix}

$\begin{equation} \boldsymbol{w}^{k}=\begin{bmatrix} W^2_{1,k} \\ W^2_{2,k} \\ ... \\ W^2_{N_2,k} \end{bmatrix} \end{equation}$
这时

\frac{\partial z^{2}}{\partial W^{2}}

$\frac{\partial{\boldsymbol{z}^2}}{\partial{W^2}}$ 就可以转化为对一系列连接权值矩阵组成的列向量求导，就变为列向量求导，如下所示：

\begin{matrix} (20) & \frac{\partial z^{2}}{\partial W^{2}} = [\begin{matrix} \frac{\partial z^{2}}{\partial w^{1}} & \frac{\partial z^{2}}{\partial w^{2}} & . . . & \frac{\partial z^{2}}{\partial w^{N_{1}}} \end{matrix}] \end{matrix}

$\begin{equation} \frac{\partial{\boldsymbol{z}^2}}{\partial{W^2}}=\begin{bmatrix} \frac{\partial{\boldsymbol{z}^2}}{\partial{\boldsymbol{w}^{1}}} & \frac{\partial{\boldsymbol{z}^2}}{\partial{\boldsymbol{w}^{2}}} & ... & \frac{\partial{\boldsymbol{z}^2}}{\partial{\boldsymbol{w}^{N_1}}} \end{bmatrix} \end{equation}$
式中的每一项均为向量对向量的导数，其为Jacobian矩阵，因为

z^{2} \in R^{N_{2}}

$\boldsymbol{z}^2 \in R^{N_2}$ ，且

w^{k} \in R^{N_{2}}

$\boldsymbol{w}^{k} \in R^{N_2}$ ，根据Jacobian矩阵定义，

\frac{\partial z^{2}}{\partial w^{k}} \in R^{N_{2} \times N_{2}}

$\frac{\partial{\boldsymbol{z}^2}}{\partial{\boldsymbol{w}^{k}}} \in R^{N_2 \times N_2}$ 的矩阵，如下所示：

\begin{matrix} (21) & \frac{\partial z^{2}}{\partial w^{k}} = [\begin{matrix} \frac{\partial z_{1}^{2}}{\partial w_{1}^{k}} & \frac{\partial z_{1}^{2}}{\partial w_{2}^{k}} & . . . & \frac{\partial z_{1}^{2}}{\partial w_{k}^{k}} & . . . & \frac{\partial z_{1}^{2}}{\partial w_{N_{2}}^{k}} \\ \frac{\partial z_{2}^{2}}{\partial w_{1}^{k}} & \frac{\partial z_{2}^{2}}{\partial w_{2}^{k}} & . . . & \frac{\partial z_{2}^{2}}{\partial w_{k}^{k}} & . . . & \frac{\partial z_{2}^{2}}{\partial w_{N_{2}}^{k}} \\ . . . & . . . & . . . & . . . & . . . & . . . \\ \frac{\partial z_{N_{2}}^{2}}{\partial w_{1}^{k}} & \frac{\partial z_{N_{2}}^{2}}{\partial w_{2}^{k}} & . . . & \frac{\partial z_{N_{2}}^{2}}{\partial w_{k}^{k}} & . . . & \frac{\partial z_{N_{2}}^{2}}{\partial w_{N_{2}}^{k}} \end{matrix}] \end{matrix}

$\begin{equation} \frac{\partial{\boldsymbol{z}^2}}{\partial{\boldsymbol{w}^{k}}}=\begin{bmatrix} \frac{\partial{z^2_1}}{\partial{w^k_1}} & \frac{\partial{z^2_1}}{\partial{w^k_2}} & ... & \frac{\partial{z^2_1}}{\partial{w^k_k}} & ... & \frac{\partial{z^2_1}}{\partial{w^k_{N_2}}} \\ \frac{\partial{z^2_2}}{\partial{w^k_1}} & \frac{\partial{z^2_2}}{\partial{w^k_2}} & ... & \frac{\partial{z^2_2}}{\partial{w^k_k}} & ... & \frac{\partial{z^2_2}}{\partial{w^k_{N_2}}} \\ ... & ... & ... & ... & ... & ... \\ \frac{\partial{z^2_{N_2}}}{\partial{w^k_1}} & \frac{\partial{z^2_{N_2}}}{\partial{w^k_2}} & ... & \frac{\partial{z^2_{N_2}}}{\partial{w^k_k}} & ... & \frac{\partial{z^2_{N_2}}}{\partial{w^k_{N_2}}} \\ \end{bmatrix} \end{equation}$
由此可知其为

R^{N_{2} \times N_{2}}

$R^{N_2 \times N_2}$ 的方阵，对其中第

i

$i$ 行第

j

$j$ 列元素：

\begin{matrix} (e000005) & \frac{\partial z_{i}^{2}}{\partial w_{j}^{k}} = \frac{\partial z_{i}^{2}}{\partial W_{j, k}^{2}} \end{matrix}

$\begin{equation} \tag{e000005} \frac{\partial{z^2_i}}{\partial{w^k_j}}=\frac{\partial{z^2_i}}{\partial{W^2_{j,k}}} \end{equation}$
在式(e000005)中，如果

i \neq j

$i \neq{j}$ ，此时连接权值不指向第

i

$i$ 个神经元，因此值为0。当

i = j

$i=j$ 时，

W_{i, k}^{2}

$W^2_{i,k}$ 是与第1层的第

k

$k$ 个神经元的输出

a_{k}^{1}

$a^1_k$ 相乘，因此其导数为

a_{k}^{1}

$a^1_k$ ，当

i = j

$i=j$ 时对应的是式(e000005)的对角线，因此其为对角阵，而且其值均为

a_{k}^{1}

$a^1_k$ ，如下所示：

\begin{matrix} (22) & [\begin{matrix} a_{k}^{1} & 0 & . . . & 0 \\ 0 & a_{k}^{1} & . . . & 0 \\ . . . & . . . & . . . & . . . \\ 0 & 0 & . . . & a_{k}^{1} \end{matrix}] \end{matrix}

$\begin{equation} \begin{bmatrix} a^1_k & 0 & ... & 0 \\ 0 & a^1_k & ... & 0 \\ ... & ... & ... & ... \\ 0 & 0 & ... & a^1_k \end{bmatrix} \end{equation}$
余下部分的偏导求法和上面的方法相同，我们在这里就不再一一列举了。读者可以自行补齐。
到此我们基本把多层感知器模型的计算图讲完了，下一步就是利用TensorFlow Eager Execution API来实现这个模型，我们将在下一篇博文中进行介绍。

TensorFlow可微分编程实践3---计算图模型

猜你喜欢