(笔记—深度学习)：Chapter2-线性代数

1-标量、向量、矩阵、张量

标量（ $scalars$ ):是一个单独的数，用斜体小写字母表示， e.g. $x \in \mathbb R$
向量（ $vectors$ ):是一组数字，用粗体小写字母表示， e.g. $\mathbf x \in \mathbb R^n$
$x = [\begin{matrix} x_{1} \\ x_{2} \\ . \\ . \\ x_{n} \end{matrix}]$ $\mathbf x = \left[ \begin{array}{c} x_1\\ x_2\\ .\\ .\\ x_n \end{array} \right]$
有时需要索引向量的一组元素，例如对于 $\mathbf x \in \mathbb R^5$ ，令 $S=\{1,3,5 \}$ ,则 $\mathbf x_S = \{x_1,x_3,x_5\}, \mathbf x_{-S} = \{x_2,x_4\}$
矩阵( $matrix$ ): 是一个二维数数组，用大写粗体表示，e.g. $\mathbf X\in \mathbb R^{m×n}$
$X = [\begin{array}{cc} x_{1, 1} & x_{1, 2} & . . . & x_{1, n} \\ x_{2, 1} & . . . & . . . & x_{2, n} \\ . . . & . . . & . . . & . . . \\ x_{m, 1} & . . . & . . . & x_{m, n} \end{array}]$ $\mathbf X= \left[ \begin{array}{cc} x_{1,1} &x_{1,2} &...&x_{1,n} \\ x_{2,1}&...&...&x_{2,n} \\ ...&...&...&...& \\ x_{m,1}&...&...&x_{m,n} \end{array} \right]$
张量( $Tensors$ ):具有三个维度以上的数组，e.g 一个d维张量可以表示为 $\mathcal X \in \mathbb R^{n_1×n_2×...×n_d}$

2-基础运算

矩阵转置（transpose）：
$(A^{T})_{i, j} = A_{j, i}$ $(A^T)_{i,j} = A_{j,i}$
向量的转置：向量一般视为列向量，用行向量的形式表示为 $\mathbf x = [x_1,x_2, ... x_n]^T$
矩阵加法：

$C = A + B \to C_{i, j} = A_{i, j} + B_{i, j}$ $\mathbf {C=A+B} \ \ \to \ \ \ C_{i,j} = A_{i,j} + B_{i,j}$
根据broadcasting
$C = A + b \to C_{i, :} = A_{i, :} + b_{i}$ $\mathbf {C = A + b} \quad \to \quad C_{i, :} = A_{i, :} + b_i$
矩阵乘法( $matrix\ product$ )：

$C = A B \to C_{i, j} = \sum_{k} A_{i, k} B_{k, i}$ $\mathbf {C = AB} \quad \to \quad C_{i,j} = \sum_k A_{i,k}B_{k,i}$
$Hadamard \ product$ :
$\begin{array}{l} C = A ⊙ B \\ C = A * B \end{array}} C_{i, j} = A_{i, j} B_{i, j}$ $\left. \begin{array}{l} \mathbf {C = A \odot B}\\ \mathbf {C = A * B} \end{array} \right\} C_{i,j} = A_{i,j}B_{i,j}$
$kronecker \ product$ :
$A_{m \times n} \otimes B_{p \times q} = [\begin{matrix} a_{1, 1} B & a_{1, 2} B & . . . & a_{1, n} B \\ a_{2, 1} B & . . . & . . . & . . . \\ . . . & . . . & . . . & . . . \\ a_{m, 1} B & . . . & . . . & a_{m, n} B \end{matrix}]$ $\mathbf {A_{m\times n} \otimes B_{p\times q}} = \left[ \begin{array}{c} a_{1,1}\mathbf B & a_{1,2}\mathbf B&...&a_{1,n}\mathbf B \\ a_{2,1}\mathbf B & ...&...&... \\ ...&...&...&...& \\ a_{m,1}\mathbf B&...&...&a_{m,n}\mathbf B \end{array} \right]$

3-单位矩阵和逆矩阵

单位矩阵：
$I^{n} = {[\begin{array}{cc} 1 & 0 & 0 & . . . & 0 \\ 0 & 1 & 0 & . . . & 0 \\ 0 & 0 & 1 & . . . & 0 \\ . . . & . . . & . . . & . . . & 0 \\ 0 & . . . & . . . & . . . & 1 \end{array}]}_{n \times n}$ $I^n = \left[ \begin{array}{cc} 1&0&0&...&0 \\ 0&1&0&...&0 \\ 0&0&1&...&0 \\ ...&...&...&...&0 \\ 0&...&...&...&1\\ \end{array} \right]_{n\times n}$
逆矩阵：只有满秩的方阵才有逆矩阵
$A A^{- 1} = I^{n}$ $\mathbf{AA^{-1} = I^n}$
利用逆矩阵可以用来求解线性方程 $\mathbf{Ax= b \quad \to \quad x = A^{-1}b}$ ; 但是在实际应用中并不是经常使用这种方式，因为 $\mathbf A^{-1}$ 在计算中的表示的精度有限，相对而言可以利用b的值获取更精确的解。

4-范数

在机器学习中，通常使用范数( $norm$ )来衡量向量的大小. $L^p \ norm$ 的公式为：

| | x | |_{p} = (\sum_{i} | x_{i} |^{p})^{1 / p}

$||\mathbf x||_p =\Bigl(\sum_i|x_i|^p\Bigr)^{1/p}$
直观地看，范数是向量

x

$\mathbf x$ 到原点的距离；（

p = 1

$p=1$ 时，称为曼哈顿距离，

p = 2

$p=2$ 时，称为欧几里得距离。）。
严格来讲，范数可以是一切满足以下条件的函数

f

$f$ :

$f(\mathbf x)=0 \ \Rightarrow \mathbf x = 0$
$f(\mathbf {x+y}) \le f(\mathbf x)+f(\mathbf y)$
$\forall \alpha \in \mathbb R, f(\alpha\mathbf x) = |\alpha|f(\mathbf x)$

$L^2$ 范数又称为欧几里得范数，常表示为 $||\mathbf x||$ ,不过通常使用 $L^2$ 范数的平方，因为更容易进行导数运算。
$L^1$ 范数常用于当元素的零或非零比较重要时的情况
$L^0$ 范数用于计算非零元素的个数，但其实并不符合范数的限制条件（3）,通常使用 $L^1$ 范数作为替代来计算非零项
$Frobenius norm$ 用于衡量矩阵的大小，在和 $L^2 \ norm$ 的作用相似：

‖ A ‖_{F} = \sqrt{\sum_{i, j} A_{i, j}^{2}}

$\|\mathbf A\|_F = \sqrt{\sum_{i,j} A_{i,j}^2}$

5-特征分解

通过分解矩阵，可以展现一些在数组表示形式时不明显的函数属性。特征分解( $eigen-decomposition$ )是最常用的分解方式之一，可以将矩阵分解为一系列的特征值( $eigenvalue$ )和特征向量( $eigenvector$ )。

扫描二维码关注公众号，回复： 1586123 查看本文章

A v = λ v

$\mathbf{Av = \lambda v}$

v

$\mathbf v$ 即为方阵

A

$\mathbf A$ 的一个特征向量，

λ

$\lambda$ 则是对应于

v

$\mathbf v$ 的特征值。
假设

A

$\mathbf A$ 有n个线性独立的特征向量

{v_{1}, . . . v_{n}}

$\{\mathbf v_1,...\mathbf v_n\}$ ，相应的特征值

{λ_{1}, . . . λ_{n}}

$\{\lambda_1,...\lambda_n\}$ ,可将其组合成矩阵

V = [v_{1}, . . . v_{n}]

$\mathbf V = [\mathbf v_1,...\mathbf v_n]$ ,则

A

$\mathbf A$ 的特征分解为：

A = V d i a g (λ) V^{- 1}

$\mathbf A = \mathbf V diag(\lambda)\mathbf V^{-1}$ 并非每个矩阵都可以进行特征分解，不过每个实对称矩阵都可以得到实特征值和实特征向量：

A = Q Λ Q^{T}

$\mathbf A = \mathbf Q \Lambda\mathbf Q^T$ 其中：

Q

$\mathbf Q$ 是由特征向量组成的正交矩阵,

(Q^{T} = Q^{- 1})

$(\mathbf{Q^T = Q^{-1}})$ 对于标准正交的特征向量组，矩阵A就相当于在n维的特征空间各个方向进行了以特征值绝对值为幅度的缩放。

当且仅当矩阵含有为零特征值时，矩阵是奇异的（不满秩）
特征值全部为正数的矩阵为正定矩阵，特征值全部为非负数时为半正定矩阵，
半正定矩阵保证了: $\forall \mathbf { x, \quad x^TAx }>=0$
正定矩阵保证了: $\mathbf {x^TAx = 0} \Rightarrow \mathbf x = 0$

6-奇异值分解

奇异值分解（ $Singular \ Value \ Decomposition$ ）相对于特征分解具有更广泛的应用，可以对非方阵进行分解。可以应用于求矩阵的伪逆，和在神经网络中对权重矩阵进行SVD分解降秩，对网络进行压缩和加速。
SVD将矩阵分解为三个矩阵的乘积：

A_{m \times n} = U_{m \times m} \cdot D_{m \times n} \cdot V_{n \times n}^{T}

$\mathbf {A_{m\times n} =U_{m\times m} \cdot D_{m\times n} \cdot V^T_{n\times n}}$
其中：

U

$\mathbf U$ 的列向量被称为左奇异向量，

V

$\mathbf V$ 的列向量被称为右奇异向量，

D

$\mathbf D$ 对角线的元素是奇异值。
SVD可以利用特征分解来求解：

A

$\mathbf A$ 的左奇异向量等于

A A^{T}

$\mathbf {AA^T}$ 的特征向量，右奇异向量是

A^{T} A

$\mathbf {A^TA}$ 的特征向量，奇异值则是

A^{T} A

$\mathbf {A^TA}$ (同时也是

A A^{T}

$\mathbf {AA^T}$ )的特征值的平方根。

7-伪逆矩阵

对于线性方程： $\mathbf{Ax = y}$ ,我们希望可以利用 $\mathbf A$ 的左逆 $\mathbf B$ 来进行求解：

x = B y

$\mathbf {x = By}$ 然而当

A

$\mathbf A$ 的行数大于列数时，方程误解，当行数小于列数是，方程有多个解。一般而言，只有

A

$\mathbf A$ 是方阵时，才有可能得到唯一解。
伪逆的计算公式：

A^{†} = V D^{†} U

$\mathbf{A^\dagger = VD^\dagger U}$ 其中

U, V, D

$\mathbf{U,V,D}$ 是A的奇异值分解的结果，

D^{†}

$\mathbf{D^\dagger}$ 是

D

$\mathbf D$ 的非零元素去倒数之后转置得到的。

当A的行数大于列数时，伪逆求解线性方程得到的结果 $\mathbf{x=A^\dagger y}$ ，使得 $\mathbf{||Ax - y||_2}$ 最小
当A的列数大于行数时，得到的结果，是所有可行解之中范数 ${||\mathbf x||_2}$ 最小的那个。

8-迹运算

迹运算 $(Trace)$ 得到的是矩阵所有对角元素的和，这一运算可以使得很多表达式具有更简洁的表达方式：

T r (A) = \sum_{i} A_{i, i}

$Tr(A) = \sum_i A_{i,i}$
描述

F r o b e n i u s n o r m

$Frobenius \ norm$ :

| | A | |_{F} = \sqrt{T r (A A^{T})}

$||A||_F = \sqrt{Tr(AA^T)}$

9-行列式

只有方阵才会有行列式，矩阵的行列式等于特征值的乘积，行列式的绝对值可以用来衡量矩阵参与矩阵乘法后空间扩大或者缩小了多少。
行列式为零的矩阵是非奇异矩阵。