矩阵求导的本质与分子布局、分母布局的本质（一）

这篇文章，通过查阅大量资料，总结出矩阵求导的本质与分子布局、分母布局，希望对初学的同学、想理解本质的同学提供一些帮助。

在开始学习之前，我们引入《动手学深度学习》里面的一个实例：

在这里插入图片描述

对于前两个求导式，第一印象是不是感觉写反了？是不是应该为：
$\nabla_x\textbf{Ax}=\textbf{A}$
$\nabla_x\textbf{x}^T\textbf{A}=\textbf{A}^T$
相信看完这篇文章的小伙伴就能明白为什么？

首先需要说明的是，理解本文不需要有多么高深的数学理论，只需要了解本科阶段高等数学的偏导如何求、线性代数的矩阵的定义，请大家放心食用。

文章中若没有说明，则约定向量均为列向量，如我们定义 $\textbf{x}=[x_1,x_2,x_3]^T$

一、基础知识引入（函数、标量、向量和矩阵）

首先考虑函数：
$f u n c t i o n (in p u t)$
针对函数和输入的类型，我们可以将这个函数分为不同的类别。

1.1函数是一个标量

这时我们称函数是一个实值标量函数，用细体小写字母 $f$ 表示。

1.1.1输入是一个标量

我们称函数的变元是标量，用细体小写字母 $x$ 表示。

例如我们最常见的函数的定义形式：
$f(x)=\theta_0+\theta_1x$

1.1.2输入是一个向量

我们称函数的变元是向量，用粗体小写字母 $\textbf{x}$ 表示。

如下所示：

设 $\textbf{x}=[x_1,x_2,x_3]^T$ ，则有：
$f(\textbf{x})=a_1x_1^2+a_2x_2^2+a_3x_3^2+a_4x_2x_2$

1.1.3输入是一个矩阵

我们称函数的变元是矩阵。用粗体大写字母 $\textbf{X}$ 表示。

如下所示：

设 $\textbf{X}_{3\times 2}=(x_{ij})_{i=1,j=1}^{3,2}$ ，则有：
$f(\textbf{X})=a_1x_{11}^2+a_2x_{12}^2+a_3x_{21}^2+a_4x_{22}^2+a_5x_{31}^2+a_6x_{32}^2$

1.2函数是一个向量

我们称函数是一个实向量函数，用粗体小写字母 $\textbf{f}$ 表示。

含义： $\textbf{f}$ 是由若干个 $f$ 组成的一个向量。

同样的，变元分三种：标量、向量、矩阵。符号的含义与上文一致。

1.2.1输入是一个标量

例如：
$\textbf{f}_{3\times 1}(x)=\left[ \begin{matrix} f_1(x)\\ f_2(x)\\ f_3(x) \end{matrix} \right]=\left[ \begin{matrix} x+1\\ 2x+1\\ 3x+1 \end{matrix} \right]$

1.2.2输入是一个向量

例如：

设 $\textbf{x}=[x_1,x_2,x_3]^T$ ：
$\textbf{f}_{3\times 1}(x)=\left[ \begin{matrix} f_1(\textbf{x})\\ f_2(\textbf{x})\\ f_3(\textbf{x}) \end{matrix} \right]=\left[ \begin{matrix} x_1+x_2+x_3\\ x_1^2+2x_2+2x_3\\ x_1x_2+x_2+x_3 \end{matrix} \right]$

1.2.3输入是一个矩阵

设 $\textbf{X}_{3\times 2}=(x_{ij})_{i=1,j=1}^{3,2}$
$\textbf{f}_{3\times 1}(\textbf{X})=\left[ \begin{matrix} f_1(\textbf{X})\\ f_2(\textbf{X})\\ f_3(\textbf{X}) \end{matrix} \right]=\left[ \begin{matrix} x_{11}+x_{12}+x_{21}+x_{22}+x_{31}+x_{32}\\ x_{11}+x_{12}+x_{21}+x_{22}+x_{31}+x_{32}+x_{11}x_{12}\\ x_{11}+x_{12}+x_{21}+x_{22}+x_{31}+x_{32}+x_{11}x_{12} \end{matrix} \right]$

1.3函数是一个矩阵

此时我们称函数是一个实矩阵函数，用粗体大写字母 $\textbf{F}$ 表示。

含义： $\textbf{F}$ 是由若干个 $f$ 组成的一个矩阵。

同样的，输入继续分三种。

1.3.1输入是一个标量

例如：
$\textbf{F}_{3\times 2}(x)=\left[ \begin{matrix} f_{11}(x) & f_{12}(x)\\ f_{21}(x) & f_{22}(x)\\ f_{31}(x) & f_{32}(x) \end{matrix} \right]=\left[ \begin{matrix} x+1 & x+2\\ x+3 & x+4\\ x+6 & x+7 \end{matrix} \right]$

1.3.2输入是一个向量

例：设 $\textbf{x}=[x_1,x_2,x_3]^T$
$\textbf{F}_{3\times 2}(x)=\left[ \begin{matrix} f_{11}(\textbf{x} & f_{12}(\textbf{x}\\ f_{21}(\textbf{x} & f_{22}(\textbf{x}\\ f_{31}(\textbf{x} & f_{32}(\textbf{x} \end{matrix} \right]=\left[ \begin{matrix} x_1+x_2+x_3 & 2x_1+2x_2+x_3\\ 2x_1+2x_2+x_3 & x_1+2x_2+x_3\\ x_1+2x_2+x_3 & x_1+2x_2+2x_3 \end{matrix} \right]$

1.3.3输入是一个矩阵

设 $\textbf{X}_{3\times 2}=(x_{ij})_{i=1,j=1}^{3,2}$
$\textbf{F}_{3\times 2}(\textbf{X})=\left[ \begin{matrix} f_{11}(\textbf{X}) & f_{12}(\textbf{X})\\ f_{21}(\textbf{X}) & f_{22}(\textbf{X})\\ f_{31}(\textbf{X}) & f_{32}(\textbf{X}) \end{matrix} \right]=\left[ \begin{matrix} x_{11}+x_{12}+x_{21}+x_{22}+x_{31}+x_{32} & 2x_{11}+x_{12}+x_{21}+x_{22}+x_{31}+x_{32} \\ 3x_{11}+x_{12}+x_{21}+x_{22}+x_{31}+x_{32} & 4x_{11}+x_{12}+x_{21}+x_{22}+x_{31}+x_{32} \\ 5x_{11}+x_{12}+x_{21}+x_{22}+x_{31}+x_{32} & 6x_{11}+x_{12}+x_{21}+x_{22}+x_{31}+x_{32} \end{matrix} \right]$

二、矩阵求导的本质

在本科阶段的数学学习中，我们知道如何对一个多元函数进行求偏导。

例如，给定一个多元函数：
$f(x_1,x_2,x_3)=x_1^2+2x_1x_2+3x_2x_3$
我们咳哟将 $f$ 对 $x_1,x_2,x_3$ 的偏导分别求出来，即：
$\frac{\partial f}{\partial x_1} =2x_1+2x_2$
$\frac{\partial f}{\partial x_2} =2x_1+3x_3$
$\frac{\partial f}{\partial x_3} =3x_2$
矩阵求导也是一样的，本质就是函数中的每个 $\textbf{f}$ 分别对变元中的每个元素逐个求偏导，只不过写成了向量、矩阵形式而已。

我们把得出的三个结果写成列向量的形式：
$\frac{\partial f(\textbf{x})}{\partial \textbf{x}_{3\times 1}}=\left[ \begin{matrix} \frac{\partial f}{\partial x_1}\\ \frac{\partial f}{\partial x_2}\\ \frac{\partial f}{\partial x_3} \end{matrix} \right]=\left[ \begin{matrix} 2x_1+2x_2\\ 2x_1+3x_3\\ 3x_2 \end{matrix} \right]$
这便是一个简单的矩阵求导，以列向量的形式展开。

当然也可以使用行向量的形式展开：
$\frac{\partial f(\textbf{x})}{\partial \textbf{x}_{3\times 1}^T}=\left[ \begin{matrix} \frac{\partial f}{\partial x_1},\frac{\partial f}{\partial x_2},\frac{\partial f}{\partial x_3} \end{matrix} \right]=\left[ \begin{matrix} 2x_1+2x_2,2x_1+3x_3,3x_2 \end{matrix} \right]$
所以，如果 $f u n c t i o n$ 中有 $m$ 个 $f$ ，变元中有 $n$ 个元素，那么，每个 $f$ 对变元中的每个元素逐个求偏导后，我们就会产生 $m\times n$ 个结果。

以上便是矩阵求导的本质！

这里就引入了一个重要的问题，这个 $m\times n$ 个结果的布局，究竟是写成行向量的形式，还是写成列向量的形式？

三、矩阵求导结果的布局

从直观上来讲：

分子布局，就是分子是列向量形式，分母是行向量的形式。如果这里的 $f u c t i o n$ 是实向量函数 $\textbf{f}_{2\times 1}$ 的话，结果就是 $2\times 3$ 的矩阵了，结果可以展示为：
$\frac{\partial \textbf{f}_{2\times 1}(\textbf{x})}{\partial \textbf{x}_{3\times 1}^T}=\left[ \begin{matrix} \frac{\partial f_1}{\partial x_1} & \frac{\partial f_1}{\partial x_2} & \frac{\partial f_1}{\partial x_3}\\ \frac{\partial f_2}{\partial x_1} & \frac{\partial f_2}{\partial x_2} & \frac{\partial f_2}{\partial x_3} \end{matrix} \right]_{2\times 3}$
分母布局，就是分母是列向量形式，分子是行向量形式，如果这里的 $f u n c t i o n$ 是实向量函数 $\textbf{f}_{2\times 1}$ 的话，结果就是 $3\times 2$ 的矩阵了：
$\frac{\partial \textbf{f}_{2\times 1}^T(\textbf{x})}{\partial \textbf{x}_{3\times 1}}=\left[ \begin{matrix} \frac{\partial f_1}{\partial x_1} & \frac{\partial f_2}{\partial x_1}\\ \frac{\partial f_1}{\partial x_2} & \frac{\partial f_2}{\partial x_2}\\ \frac{\partial f_1}{\partial x_3} & \frac{\partial f_2}{\partial x_3} \end{matrix} \right]_{3\times 2}$
直观上理解了之后，我们针对不同类型的 $f u n c t i o n$ ，不同类型的变元，给出严谨的布局说明。

3.1向量变元的实值标量函数

这里，表示为 $f(\textbf{x})$ ，且 $\textbf{x}=[x_1,x_2,\cdots,x_n]^T$

3.1.1行向量偏导形式

$D_{\textbf{x}}f(\textbf{x})=\frac{\partial f(\textbf{x})}{\partial \textbf{x}^T}=\left[ \begin{matrix} \frac{\partial f}{\partial x_1},\frac{\partial f}{\partial x_2},\cdots,\frac{\partial f}{\partial x_n} \end{matrix} \right]$

3.1.2梯度向量形式

又称列向量偏导形式、列偏导向量形式。
$\nabla_{\textbf{x}}f(\textbf{x})=\frac{\partial f(\textbf{x})}{\partial \textbf{x}}=\left[ \begin{matrix} \frac{\partial f}{\partial x_1},\frac{\partial f}{\partial x_2},\cdots,\frac{\partial f}{\partial x_n} \end{matrix} \right]^T$
这两种形式互为转置。

3.2矩阵变元的实值标量函数

定义为：
$f(\textbf{X})$
其中，
$\textbf{X}_{m\times n}=(x_{ij})_{i,j=1}^{m,n}$
介绍一个符号 $vec(\textbf{X})$ ，作用是将矩阵 $\textbf{X}$ 按列堆栈来向量化。

解释一下， $vec(\textbf{X})$ 就是把矩阵 $\textbf{X}$ 的第1列、第2列，知道第 $n$ 列取出来，然后按顺序组成一个列向量，即：
$vec(\textbf{X})=[x_{11},x_{21},\cdots,x_{m1},x_{12},x_{22},\cdots,x_{m2},\cdots,x_{1n},x_{2n},\cdots,x_{mn}]^T$

3.2.1行向量偏导形式

即先把矩阵变元 $\textbf{X}$ 按 $v ec$ 向量化，转换成向量变元，再对该向量变元：
$D_{vec\textbf{X}}f(\textbf{X})=\frac{\partial f(\textbf{X})}{\partial vec^T(\textbf{X})}=\left[ \begin{matrix} \frac{\partial f}{\partial x_{11}},\frac{\partial f}{\partial x_{21}},\cdots,\frac{\partial f}{\partial x_{m1}},\frac{\partial f}{\partial x_{12}},\frac{\partial f}{\partial x_{22}},\cdots,\frac{\partial f}{\partial x_{m2}},\cdots,\frac{\partial f}{\partial x_{1n}},\frac{\partial f}{\partial x_{2n}},\cdots,\frac{\partial f}{\partial x_{mn}} \end{matrix} \right]$

3.2.2Jacobian矩阵形式

即先把矩阵变元 $\textbf{X}$ 进行转置，再对转置后的每个位置的元素逐个求偏导，结果布局和转置布局一样。
$D_{\textbf{X}}f(\textbf{X})=\frac{\partial f(\textbf{X})}{\partial \textbf{X}_{m\times n}^T}=\left[ \begin{matrix} \frac{\partial f}{\partial x_{11}} & \frac{\partial f}{\partial x_{21}} & \cdots & \frac{\partial f}{\partial x_{m1}}\\ \frac{\partial f}{\partial x_{12}} & \frac{\partial f}{\partial x_{22}} & \cdots & \frac{\partial f}{\partial x_{m2}}\\ \vdots & \vdots & \vdots & \vdots\\ \frac{\partial f}{\partial x_{1n}} & \frac{\partial f}{\partial x_{2n}} & \cdots & \frac{\partial f}{\partial x_{mn}} \end{matrix} \right]_{n\times m}$

3.2.3梯度向量形式

即先把矩阵变 $\textbf{X}$ 按 $v ec$ 向量化，转换成向量变元，再对该变元进行计算：
$D_{vec\textbf{X}}f(\textbf{X})=\frac{\partial f(\textbf{X})}{\partial vec(\textbf{X})}=\left[ \begin{matrix} \frac{\partial f}{\partial x_{11}}，\frac{\partial f}{\partial x_{21}},\cdots,\frac{\partial f}{\partial x_{m1}},\frac{\partial f}{\partial x_{12}},\frac{\partial f}{\partial x_{22}},\cdots,\frac{\partial f}{\partial x_{m2}},\cdots,\frac{\partial f}{\partial x_{1n}},\frac{\partial f}{\partial x_{2n}},\cdots,\frac{\partial f}{\partial x_{mn}} \end{matrix} \right]^T$

3.2.4梯度矩阵形式

直接对原矩阵变元 $\textbf{X}$ 的每个位置的元素逐个求偏导，结果布局和原矩阵布局一样。
$D_{\textbf{X}}f(\textbf{X})=\frac{\partial f(\textbf{X})}{\partial \textbf{X}_{m\times n}^T}=\left[ \begin{matrix} \frac{\partial f}{\partial x_{11}} & \frac{\partial f}{\partial x_{12}} & \cdots & \frac{\partial f}{\partial x_{1n}}\\ \frac{\partial f}{\partial x_{21}} & \frac{\partial f}{\partial x_{22}} & \cdots & \frac{\partial f}{\partial x_{2n}}\\ \vdots & \vdots & \vdots & \vdots\\ \frac{\partial f}{\partial x_{m1}} & \frac{\partial f}{\partial x_{m2}} & \cdots & \frac{\partial f}{\partial x_{mn}} \end{matrix} \right]_{m\times n}$

3.3矩阵变元的实矩阵函数 $\textbf{F}(\textbf{X})$

其中， $\textbf{X}_{m\times n}=(x_{ij})_{i,j=1}^{m,n}$
$\textbf{F}_{p\times q}=(\textbf{f}_{ij})_{i,j=1}^{p,q}$

3.3.1Jacobian矩阵形式

即先把矩阵变元 $\textbf{X}$ 按vec向量化，转换成向量变元：
$vec(\textbf{X})=[x_{11},x_{21},\cdots,x_{m1},x_{12},x_{22},\cdots,x_{m2},\cdots,x_{1n},x_{2n},\cdots,x_{mn}]^T$
再把实矩阵函数 $\textbf{F}$ 按 $v ec$ 向量化，转换成实向量函数：
$vec(\textbf{F(X)})=\left[ \begin{matrix} f_{11}(\textbf{X}),f_{21}(\textbf{X}),\cdots,f_{p1}(\textbf{X}),f_{12}(\textbf{X}),f_{22}(\textbf{X}),\cdots,f_{p2}(\textbf{X}),\cdots,f_{1q}(\textbf{X}),f_{2q}(\textbf{X}),\cdots,f_{pq}(\textbf{X}) \end{matrix} \right]^T$
这样，我们就把一个矩阵变元的实矩阵函数 $\textbf{F(X)}$ ，转换成了向量变元的实向量函数 $\textbf{f(x)}$ 。接写出结果布局为 $pq\times mn$ 的矩阵：
$D_{\textbf{X}}\text{F(X)}=\frac{\partial vec_{pq\times 1}(\textbf{F(X)})}{\partial vec_{mn\times 1}^T\textbf{X}}=\left[ \begin{matrix} \frac{f_{11}}{\partial x_{11}} & \frac{f_{11}}{\partial x_{21}} & \cdots & \frac{f_{11}}{\partial x_{m1}} & \frac{f_{11}}{\partial x_{12}} & \frac{f_{11}}{\partial x_{22}} & \cdots & \frac{f_{11}}{\partial x_{m2}} & \cdots & \frac{f_{11}}{\partial x_{1n}} & \frac{f_{11}}{\partial x_{2n}} & \cdots & \frac{f_{11}}{\partial x_{mn}}\\ \frac{f_{21}}{\partial x_{11}} & \frac{f_{21}}{\partial x_{21}} & \cdots & \frac{f_{21}}{\partial x_{m1}} & \frac{f_{21}}{\partial x_{12}} & \frac{f_{21}}{\partial x_{22}} & \cdots & \frac{f_{21}}{\partial x_{m2}} & \cdots & \frac{f_{21}}{\partial x_{1n}} & \frac{f_{21}}{\partial x_{2n}} & \cdots & \frac{f_{21}}{\partial x_{mn}}\\ \vdots & \vdots & \vdots & \vdots & \vdots & \vdots & \vdots & \vdots & \vdots & \vdots & \vdots & \vdots & \vdots\\ \frac{f_{p1}}{\partial x_{11}} & \frac{f_{p1}}{\partial x_{21}} & \cdots & \frac{f_{p1}}{\partial x_{m1}} & \frac{f_{p1}}{\partial x_{12}} & \frac{f_{p1}}{\partial x_{22}} & \cdots & \frac{f_{p1}}{\partial x_{m2}} & \cdots & \frac{f_{p1}}{\partial x_{1n}} & \frac{f_{p1}}{\partial x_{2n}} & \cdots & \frac{f_{p1}}{\partial x_{mn}}\\ \frac{f_{12}}{\partial x_{11}} & \frac{f_{12}}{\partial x_{21}} & \cdots & \frac{f_{12}}{\partial x_{m1}} & \frac{f_{12}}{\partial x_{12}} & \frac{f_{12}}{\partial x_{22}} & \cdots & \frac{f_{12}}{\partial x_{m2}} & \cdots & \frac{f_{12}}{\partial x_{1n}} & \frac{f_{12}}{\partial x_{2n}} & \cdots & \frac{f_{12}}{\partial x_{mn}}\\ \frac{f_{22}}{\partial x_{11}} & \frac{f_{22}}{\partial x_{21}} & \cdots & \frac{f_{22}}{\partial x_{m1}} & \frac{f_{22}}{\partial x_{12}} & \frac{f_{22}}{\partial x_{22}} & \cdots & \frac{f_{22}}{\partial x_{m2}} & \cdots & \frac{f_{22}}{\partial x_{1n}} & \frac{f_{22}}{\partial x_{2n}} & \cdots & \frac{f_{22}}{\partial x_{mn}}\\ \vdots & \vdots & \vdots & \vdots & \vdots & \vdots & \vdots & \vdots & \vdots & \vdots & \vdots & \vdots & \vdots\\ \frac{f_{p2}}{\partial x_{11}} & \frac{f_{p2}}{\partial x_{21}} & \cdots & \frac{f_{p2}}{\partial x_{m1}} & \frac{f_{p2}}{\partial x_{12}} & \frac{f_{p2}}{\partial x_{22}} & \cdots & \frac{f_{p2}}{\partial x_{m2}} & \cdots & \frac{f_{p2}}{\partial x_{1n}} & \frac{f_{p2}}{\partial x_{2n}} & \cdots & \frac{f_{p2}}{\partial x_{mn}}\\ \vdots & \vdots & \vdots & \vdots & \vdots & \vdots & \vdots & \vdots & \vdots & \vdots & \vdots & \vdots & \vdots\\ \frac{f_{1q}}{\partial x_{11}} & \frac{f_{1q}}{\partial x_{21}} & \cdots & \frac{f_{1q}}{\partial x_{m1}} & \frac{f_{1q}}{\partial x_{12}} & \frac{f_{1q}}{\partial x_{22}} & \cdots & \frac{f_{1q}}{\partial x_{m2}} & \cdots & \frac{f_{1q}}{\partial x_{1n}} & \frac{f_{1q}}{\partial x_{2n}} & \cdots & \frac{f_{1q}}{\partial x_{mn}}\\ \frac{f_{2q}}{\partial x_{11}} & \frac{f_{2q}}{\partial x_{21}} & \cdots & \frac{f_{2q}}{\partial x_{m1}} & \frac{f_{2q}}{\partial x_{12}} & \frac{f_{2q}}{\partial x_{22}} & \cdots & \frac{f_{2q}}{\partial x_{m2}} & \cdots & \frac{f_{2q}}{\partial x_{1n}} & \frac{f_{2q}}{\partial x_{2n}} & \cdots & \frac{f_{2q}}{\partial x_{mn}}\\ \vdots & \vdots & \vdots & \vdots & \vdots & \vdots & \vdots & \vdots & \vdots & \vdots & \vdots & \vdots & \vdots\\ \frac{f_{pq}}{\partial x_{11}} & \frac{f_{pq}}{\partial x_{21}} & \cdots & \frac{f_{pq}}{\partial x_{m1}} & \frac{f_{pq}}{\partial x_{12}} & \frac{f_{pq}}{\partial x_{22}} & \cdots & \frac{f_{pq}}{\partial x_{m2}} & \cdots & \frac{f_{pq}}{\partial x_{1n}} & \frac{f_{pq}}{\partial x_{2n}} & \cdots & \frac{f_{pq}}{\partial x_{mn}} \end{matrix} \right]_{pq\times mn}$

3.3.2梯度矩阵形式

即先把矩阵变元 $\textbf{X}$ 按 $v ec$ 向量化，转换成向量变元：
$vec(\textbf{X})=[x_{11},x_{21},\cdots,x_{m1},x_{12},x_{22},\cdots,x_{m2},\cdots,x_{1n},x_{2n},\cdots,x_{mn}]^T$
再把实矩阵函数 $\textbf{F}$ 按 $v ec$ 向量化，转换成实向量函数：
$vec(\textbf{F(x)})=[f_{11}(\textbf{X}),f_{21}(\textbf{X}),\cdots,f_{p1}(\textbf{X}),f_{12}(\textbf{X}),f_{22}(\textbf{X}),\cdots,f_{p2}(\textbf{X}),\cdots,f_{1q}(\textbf{X}),f_{2q}(\textbf{X}),\cdots,f_{pq}(\textbf{X})]^T$
这样，我们就把一个矩阵变元的实矩阵函数转换成了向量变元的实向量函数 $\textbf{f(x)}$ 。写出结果布局为 $mn\times pq$ ：

在这里插入图片描述

四. 分子布局、分母布局的本质

看到这里，相信同学们对矩阵求导结果的布局有了很全面的了解了，无非就是分子的转置、向量化，分母的转置、向量化，它们的各种组合而已。

结合上述知识，我们总结：

1、分子布局的本质：分子是标量、列向量、矩阵向量化后的列向量；分母是标量、列向量转置后的行向量、矩阵的转置矩阵、矩阵向量化后的列向量转置后的行向量。

2、分母布局的本质：分子是标量、列向量转置后的行向量、矩阵向量化后的列向量转置后的行向量；分母是标量、列向量、矩阵自己、矩阵向量化后的列向量。

思考一下，其实我们可以再简洁一些：谁转置了，就是另一方的布局。分子转置了，就是分母布局；分母转置了，就是分子布局。