这篇文章主要介绍了矩阵的一些基本演算，导数，奇异值分解。这里只是作为粗略的复习，详细的推导还请参考线性代数有关的专业书籍。

一、矩阵演算

记是矩阵 A ∈ $\mathbb{R}^{m\times n}$ 第 i 行第 j 列的元素（ $A_{ij}$ ）= $A_{ij}$ .矩阵 $A$ 转置记作 $A^T$ .

转置运算： $A^T)_{ij} = A_{ji}$ ，那么有以下两个法则 $\begin {aligned}(A+B)^T&=A^T+B^T, \\\\ (AB)^T&=B^TA^T \end{aligned}$
如果 m = n,则称 A 是 n 阶方阵， $I_n$ 表示 n 阶单位阵，方阵 A 的逆矩阵记作 $A^{-1}$ 有运算： $\begin {aligned}A^{-1}A&=AA^{-1}=I, \\\\ (A^T)^{-1} &= (A^{-1})^T \end {aligned}$
对于 n 阶方阵 A ，它的迹是主对角线的元素之和，即 $tr(A)=\sum_{i=1}^nA_{ii}$ 有性质： $\begin {aligned}tr(A^T)\ &=\ tr(A),\\\\ tr(A+B)\ &=\ tr(A)+tr(B)\\\\tr(AB)\ &=\ tr(BA),\\\\tr(ABC)\ &=tr(BCA)=tr(CAB)\end {aligned}$
n 阶矩阵行列式定义： $det(A)=\sum_{\sigma\in S_n}par(\sigma)A_1\sigma_1A_2\sigma_2...A_n\sigma_n$
其中 $S_n$ 为所有 n 阶排列的集合，par( $\sigma$ ) 的值为 -1 或者 +1，取决于 $\sigma=\sigma_1,\sigma_2,...,\sigma_n$ 为奇排列还是偶排列，有性质： $\begin{aligned}det(cA)&=c^ndet(A),\\\\det(A^T)&=det(A),\\\\det(AB)&=det(A)det(B),\\\\det(A^{-1})&=det(A)^{-1},\\\\det(A^n)&=det(A)^n\end {aligned}$
矩阵 A 的二阶范数定义为： $||A||_F=(tr(A^TA))^{\frac{1}{2}}=(\sum_{i=1}^m\sum_{j=1}^nA_{ij}^2)^{\frac{1}{2}}$

二、导数

向量 a 相对于标量 x 的导数，以及 x 相对于 a 的导数 都是向量 ，其第 i 个分量分别为 $\begin{aligned}(\frac{\partial a}{\partial x})_i&=\frac{\partial a_i}{\partial x},\\\\(\frac{\partial x}{\partial a})_i&=\frac{\partial x}{\partial a_i}\end{aligned}$
类似的，矩阵 A 相对于标量 x 的导数，以及对于 A 的导数都是矩阵，其第 i 行，第 j 列上的元素分别为： $\begin{aligned}(\frac{\partial A}{\partial x})_{ij}=\frac{\partial A_{ij}}{\partial x},\\\\(\frac{\partial x}{\partial A_{ij}})=\frac{\partial x}{\partial A_{ij}}\end{aligned}$
对于这种求导法则，我们始终从内部去求导，从分量上去求导，最后合成整体
对于函数 $f (x)$ 这个就非常熟悉了，假定其对向量的元素可导，则 $f (x)$ 关于 $x$ 的一阶导数是一个向量，其第 i 个分量为： $(\triangledown f(x)\ )=\frac{\partial f(x)}{\partial x_i}$
$f (x)$ 关于 $x$ 的二阶导数称为海森矩阵的一个方正，其第 i 行第 j 列上的元素为： $(\triangledown^2 f(x)\ )_{ij}=\frac{\partial^2f(x)}{\partial x_i \partial x_j}$
向量和矩阵的导数满足乘法法则
$\begin{aligned}\frac{\partial x^Ta}{\partial x}&=\frac{\partial a^Tx}{\partial x}=a,\\\\\frac{\partial AB}{\partial x}&=\frac{\partial A}{\partial x}B+A\frac{\partial B}{\partial x}\end{aligned}$
注意这里拆开的时候，矩阵 A,B 的顺序不能改变，左乘依旧左乘，右乘依旧右乘。我们拆开的目的只有一个那就是方便计算。 在数学中，越往高处学习，概念表达式越抽象，这样做是为了方便我们表达，当我们要运用或者计算推导时，我们又会把这个抽象的概念详细化。利用其性质往低维展开(复杂到简单的过程)，数据量就会加大，希望大家可以明白这个道理。
由 $A^{-1}A=I$ 和含AB的式子，逆矩阵的导数可表示为：
$\frac{\partial A^{-1}}{\partial x} = -A^{-1}\frac{\partial A}{\partial x}A^{-1}$
提示 $\frac{\partial A^{-1}A}{\partial x}$ 进行变换，过程中 $\frac{\partial I}{\partial x} =0$ .
若求导的标量是矩阵 A 的元素，则有
$\begin {aligned} \frac{\partial\ tr(AB)}{\partial A_{ij}}&=B_{ij},\\\\ \frac{\partial \ tr(AB)}{\partial A}&=B^T. \end {aligned}$
进而
$\begin{aligned}\frac{\partial\ tr(A^TB)}{\partial A}&=B,\\\\\frac{\partial\ tr(A)}{\partial A}&=I,\\\\\frac{\partial\ tr(ABA^T)}{\partial A}&=A(B+B^T).\end{aligned}$
根据前面的范式有：
$\frac{\partial\ ||A||^2_F}{\partial A}=\frac{\partial\ tr(AA^T)}{\partial A}=2A$
链式法则，假设 $f$ 是 $g$ 和 $h$ 的复合， $f (x) = g (h (x))$ ,有：
$\frac{\partial f(x)}{\partial x}=\frac{\partial \ g(h(x))}{\partial x}\cdot\frac{\partial h(x)}{\partial x}$
如果，我们把 $A x - b$ 看做一个整体可以化简计算, W 通常是一个对称矩阵： $\begin{aligned}\frac{\partial\ (Ax-b)^TW(Ax-b)}{\partial x}&=\frac{\partial(Ax-b)\cdot2W(Ax-b)}{\partial x}\\\\&=2A^TW(Ax-b)\end{aligned}$

奇异值分解

任意实矩阵都可以分解为
$A=U\Sigma V^T$
其中 $U$ 满足 $U^TU=I$ 的 m 阶酉矩阵， $V$ 和 $U$ 同样性质； $\Sigma$ 是 m × n 的矩阵， $(\Sigma)_{ii}=\sigma_i$ 并且其他位置的元素都为 0 ， $\sigma_i$ 为非负实数且满足 $\sigma_1\geqslant\sigma_2\geqslant...\geqslant0$ .通常我们将奇异值降序排列，以确保 $\Sigma$ 的唯一性。
上式的分解叫做奇异值分解，其中 $U$ 的列向量 $u_i$ 称为 A 的左奇异向量，V 的列向量 $v_i$ 叫做 A 的右奇异向量， $\sigma_i$ 叫做奇异值，矩阵 A 的秩等于非零奇异值的个数。
奇异值分解用途很多，例如低秩矩阵近似问题，给定一个秩为 r 的矩阵 A,欲求其最优 k 秩近似矩阵 $\widetilde{A}$ , k ≤ r, 该问题可以形式化为：
$\underset{\widetilde A \in \mathbb{R}^{m\times n}}{min}\ ||A-\widetilde A||_F$
$rank(\widetilde A)=k$
奇异值分解提供了上述问题的解析解：对于矩阵 A 进行奇异值分解后，将矩阵 $\Sigma_k$ ,即仅保留最大的 k 个奇异值，保留越多，越接近真实值
$A_{k}=U_k\Sigma_kV^T_k$
这个就是最优解。
目前还有一点小问题：有资料的兔兔评论区分享一波

矩阵求导的细则？
奇异值是怎么分解的？

矩阵的基本演算

一、矩阵演算

二、导数

奇异值分解

猜你喜欢