1. 矩阵求导法则

矩阵的求导分为：标量求导、向量求导、矩阵求导三个方面。

1.1 标量求导

矩阵和向量对标量求导，只需矩阵中的每个量都对标量进行求导，这个很好理解。
标量对矩阵的向量求导，也是同样的，等价于标量对矩阵的每个分量进行求导，并且保持维数不变。

举例。设 $y$ 为一个标量， $x^T=[x_1 x_2 \cdots x_n]$ 为一个行向量，则：
$\frac{\partial y}{\partial x^T}=[ \frac{\partial y}{\partial x_1} \cdots \frac{\partial y}{\partial x_n} ]$

1.2 向量求导

对于向量求导，我们可以将向量看做一个标量，先使用上面的标量求导法则，最后将向量形式化为标量进行。
举例，
设 $y^T=[y_1 \cdots y_n]$ 是一个行向量，
$x=\begin{bmatrix} x_1 \\ \vdots \\ x_m\end{bmatrix}$ 是一个列向量。
则
$\begin{aligned} \frac{\partial y^T}{\partial x}&=[\frac{\partial y_1}{\partial x} \cdots \frac{\partial y_n}{\partial x}] \\ &= \begin{bmatrix} \frac{\partial y_1}{\partial x_1} & \cdots & \frac{\partial y_n}{\partial x_1} \\ \vdots&\ddots&\vdots \\ \frac{\partial y_1}{\partial x_m} & \cdots & \frac{\partial y_n}{\partial x_m} \end{bmatrix} \end{aligned}$

1.3矩阵求导

与向量求导类似，先将矩阵当做一个标量，再使用标量的求导法则。
举例，
设 $Y=\begin{bmatrix} y_{11} & \cdots & y_{1m} \\ \vdots & \ddots & \vdots \\ y_{n1} & \cdots & y_{nm}\end{bmatrix}$ 是 $n*m$ 矩阵， $x=[x_1,\cdots,x_p]$ 是 $p$ 维列向量，则
$\frac{\partial Y}{\partial x}=[\frac{\partial Y}{\partial x_1}, \cdots, \frac{\partial Y}{\partial x_p}]$

最基本矩阵求导公式

文章目录

1. 矩阵求导法则

1.1 标量求导

1.2 向量求导

1.3矩阵求导

猜你喜欢