笔记：宾大《Algebra, Topology, Differential Calculus, and Optimization Theory For CS and ML》——第三章（已完结，总）

第三章向量空间，基，线性映射

3.1 线性组合、线性独立、秩

在 $n$ 维中，我们可以这样定义线性组合(linear combination)：
${ x_1u+x_2v+x_3w+...+x_nz }$
其中， $u$ , $v$ , $w$ … $z$ 均为 $n$ 维向量，即 $\R^{n\times1}$ ， $x_i (i = 1,2,3…,n)$ 均为在 $\R$ 上的变量（标量）。

基于上述定义，我们可以把下面的线性问题
$x_1u+x_2v+x_3w+...+x_nz = b$
等价于判定是否 $b$ 可以表示为 $u$ , $v$ , $w$ … $z$ 这组向量的线性组合。

考虑以下的情形，在 $n$ 维中，如果对于任何一组 $(x_1,x_2,x_3...x_n)\ne(0,0,0…0)$ 都不能满足
$x_1u+x_2v+x_3w+...+x_nz = 0_n$
那么，向量 $u$ , $v$ , $w$ … $z$ 即为**线性独立（linearly independent）**的。

其中 $0_n$ 表示 $n$ 维的零向量，例如 $n=3$ :
$0_3 = \left(0,0,0\right)^T$
不过我们通常将 $0_n$ 写为 $0$ ，原因在于，我们可以根据数据判断出此处的 $0$ 是向量还是标量。

实际上，在这组线性独立的向量 $u$ , $v$ , $w$ … $z$ 下，任意一个向量 $a \in \R^{n \times1}$ 都可以唯一地表示如下的线性组合
$a = x_1u+x_2v+x_3w+...+x_nz$
其唯一性证明如下：
$a = x_1u+x_2v+x_3w+...+x_nz = y_1u+y_2v+y_3w+...+y_nz$
由基本向量运算可知
$（y_1-x_1）u+(y_2-x_2)v+(y_3-x_3)w+...+(y_n-x_n)z=0，$
即
$y_1-x_1=y_2-x_2=y_3-x_3=0，$
通过线性独立性，有
$y_1=x_1， y_2=x_2， y_3= x_3$
所以，在线性独立的向量 $u$ , $v$ , $w$ … $z$ 下，任意一个向量 $a \in \R^{n \times1}$ 都可以唯一地表示如下的线性组合
$a = x_1u+x_2v+x_3w+...+x_nz$
现在我们可以根据定义来判断线性独立了，不过在定义中需要判断在 $n$ 维空间中，每一个 $(x_1,x_2,x_3...x_n)\ne(0,0,0…0)$ 的矩阵都不满足条件是不切实际的，所以我们需要使用其他方法来判断一组向量事都为线性独立的。

第一种方法，计算由 $(u,v,w…z)$ 组成的矩阵的行列式结果是否非零，即 $det(u,v,w,…z)\ne0$ 。如果非零，则 $(u,v,w…z)$ 为线性独立的。

第二种方法，计算由 $(u,v,w…z)$ 组成的矩阵的LU分解或QR分解或SVD。这种方法在面对于具有大量的变量的问题时，效果更好。

这里我们在 $n=3$ 的条件下举例说明。

不妨有
$A=（u \quad v \quad w）=\left( \begin{matrix} 1 & 2 & -1\\ 2 & 1 & 1\\ 1 & -1 & -2 \end{matrix} \right)\\ x = (x_1,x_2,x_3)^T\\ b = (3,3,0)^T$
所以线性组合 $x_1u+x_2v+x_3w$ 可以写为如下的矩阵形式
$Ax=x_1u+x_2v+x_3w = \left( \begin{matrix} 1 & 2 & -1\\ 2 & 1 & 1\\ 1 & -1 & -2 \end{matrix} \right)\left( \begin{matrix} x_1\\ x_2\\ x_3 \end{matrix} \right)=\left( \begin{matrix} 3\\ 3\\ 0 \end{matrix} \right) =b$
上述结果可以简写为
$Ax=b$
我们可以看到
$b = u+v\\ w=u-v$
所以上面的表达式可以化为
$（x_1+x_3）u+(x_2-x_3)v=b$
同时，解为
$x_1=1，x_2=1,x_3=0.$
又因为 $u$ 和 $v$ 是线性独立的，所以对于 $x_1+x_3$ 和 $x_2-x_3$ 唯一解为
$x_1+x_3 = 1\\ x_2-x_3 = 1,$
这就产生了基于参数 $x_3$ 的无限解，即
$x_1 = 1-x_3\\ x_2 = 1+x_3.$
综上所述，一个 $3\times3$ 的线性系统可能具有唯一的解、无解或有限解。解的数量，取决于线性独立性（和依赖性）或向量 $u,v,w,b$ 。这种情况可以推广到任何 $n\times n$ 维的系统，甚至任何 $n\times m$ 维的系统，即 $m$ 个变量中的 $n$ 个方程，这个在后面将详细讨论。

我们可以将上面的向量 $u,v,w,b$ 视为矩阵的子向量，即
$A=\left( \begin{matrix} a_{11} & a_{12} & a_{13}\\ a_{21} & a_{22} & a_{23}\\ a_{31} & a_{32} & a_{33} \end{matrix}\right)$
所以我们可以定义矩阵下的线性组合，对于任意的向量 $x=(x_1,x_2,x_3)$ ，我们可以将其线性组合定义为 $Ax$
$Ax = x_1A^1+x_2A^2+x_3A^3=\left( \begin{matrix} a_{11} & a_{12} & a_{13}\\ a_{21} & a_{22} & a_{23}\\ a_{31} & a_{32} & a_{33} \end{matrix}\right)$
也可以将其写为内积的形式：
$（a_{i1} \quad a_{i2} \quad a_{i3}）\cdot (x_1 \quad x_2 \quad x_3)^T = a_{i1}x_1+a_{i2}x_2+a_{i3}x_3$
note：两个向量 $x=(x_1,…,x_n)$ 和 $y=(y_1,…,y_n) \in \R^n$ 的内积通常写为 $x \cdot y$ 或 $<x,y>$ 。

下面我们继续在矩阵维度考虑线性方程组的解：

假设 $A$ 是一个 $n \times n$ 的矩阵， $b \in \R^n$ ，对于线性方程组
$Ax = b$
我们可以找到一个矩阵 $B \in \R ^ {n \times n}$ 有
$BA^i=e_i ,\quad i=1,..n$
$e_i = (0,…,0,1,0,…,0)$ 在第 $i$ 处为1，其他位置为0。以此类推，我们可以得到
$BA = I_n$
其中 $I_n$ 为单位矩阵
$I_n = \left ( \begin{matrix} 1 & 0 & \cdots & 0\\ 0 & 1 & \cdots & 0 \\ \vdots & \vdots & \ddots & \vdots \\ 0 & 0 & \cdots & 1 \end{matrix} \right )$
我们在 $Ax=b$ 两侧同时左乘矩阵 $B$
$B(Ax)=(BA)x=I_nx=x=Bb$
这里我们可以证明 $x = Bb$ 为 $Ax=b$ 的解，我们将 $x = Bb$ 带入
$A(Bb)=(AB)b=I_nb=b$
由于从 $BA = I_n$ 可以得到 $AB = I_n$ （可以自己证明），所以我们通常用 $A^{-1}$ （矩阵 $A$ 的逆）来代替矩阵 $B$ ，即
$AA^{-1}=A^{-1}A=I_n$
Note: 如果矩阵 $A$ 存在逆，那么我们称矩阵 $A$ 可逆矩阵或者非奇异矩阵(nonsingular) ，否则，我们称其为奇异矩阵。

综上，如果A是一个可逆的方阵，那么线性方程组 $AX=b$ 的解为 $x=A^{-1}b$ 。但是我们在真正使用的时候并不会直接计算 $A^{-1}$ ，因为计算花销太大了。我们通常使用的方法为高斯消除(Gaussian elimination) (第8章会讨论)以及有关矩阵 $A$ 的因式分解(QR分解以及SVD分解)。

为了引出SVD分解，我们首先提出正交矩阵的概念

对于矩阵 $Q \in \R^{n \times n}$ ，如果存在
$QQ^T = Q^TQ = I_n$
则称矩阵 $Q$ 为正交矩阵（orthogonal matrix）

在几何上，正交矩阵代表着保留长度的线性变换，即在线性代数中每一个矩阵 $A \in \R^{m \times n}$ 都可以写成
$A= V\Sigma U^T$
其中， $V$ 是一个 $m \times m$ 的正交矩阵， $U$ 是一个 $n \times n$ 的正交矩阵， $\Sigma$ 是 $m\times n$ 的矩阵，其所有的非零项都在对角线上，且为非负值，我们将其记做 $\sigma_1 \ge \sigma_2 \ge… \ge \sigma_p$ ，其中 $p = min(m,n)$ ，并将其定义为矩阵 $A$ 的奇异值，同时我们也将此因式分解称为矩阵 $A$ 的奇异值分解，即SVD（singular value decomposition）。

SVD可以用来求解大部分线性问题的精确解，不过面对于超定问题(overdetermined)时，即变量数大于方程数时，SVD方法不适用，即此线性系统无唯一确定解。

所以在此情况下，我们可以使用高精度的近似解来替代，即确定一个向量 $x$ 使其可以最小化误差 $Ax-b$ ，这在工程领域中也是允许的。

数学家Gauss和Legendre提出使用误差的欧几里范数的平方来评价误差，即 $\left\|Ax-b\right\|^2_2$ ，这样的好处是此误差可微，而且有且只有一个向量 $x^{+}$ 可以最小化此误差。

我们可以求得误差对应的解 $x^{+} = A^+b$ ，这里的 $A^+$ 为矩阵 $A$ 的伪逆(pseudo-inverse)，同理 $A^+= V\Sigma^+ U^T$ 中的 $\Sigma^+$ 为将 $\Sigma$ 中的每一个奇异值 $\sigma_i$ 变为逆 $\sigma_i^{-1}$ 。

除了上面介绍的使用欧几里范数的平方来评价误差，还可以在此基础上增加惩罚项 $K \left\|x\right\|^2_2$ ，即 $x$ 的 $l_2$ 范数（二范数），其中 $K>0$ ，然后再最小化 $\left\|Ax-b\right\|^2_2+K \left\|x\right\|^2_2$ ，我们称这种方法为岭回归(ridge regression)。同样的对于岭回归有且只有一个向量 $x^{+}$ 可以使其达到最小。

除了欧几里范数的平方以及岭回归，我们还可以使用 $K \left\|x\right\|_1$ 来替代 $K \left\|x\right\|^2_2$

，其中 $ \left|x\right|_1 = |x_1|+…+|x_n|$ ，即 $x$ 的 $l_1$ 范数（一范数）。使用一范数可以使问题的解变得更加稀疏，即最优解 $x$ 的很多项为0，通常其被称为lasso。

SVD除了可以求解线性系统的解以及超定问题的最优近似解之外，另外一个重要应用就是主成分分析，即PCA(principal component analysis)，这将在后面的章节详细讨论。

另外，我们可以在可视化/几何视角来看线性方程组的解这个问题，类似于intersection problem。我们举例说明：

对于下面的线性问题
$x_1+2x_2-x_3 = 1\\ 2x_1+x_2+x_3 = 2\\ x_1-2x_2-2x_3 = 3$
其解为 $\R^3$ 空间的一个子集，准确来说是一个 $\R^3$ 空间下的一个点。

对于第一个等式：
$x_1+2x_2-x_3 = 1$
实际上为一个 $\R^3$ 空间过 $(1,0,0),(0,1/2,0),(0,0,1)$ 三点的平面。

对于第二个等式：
$2x_1+x_2+x_3 = 2$
实际上为一个 $\R^3$ 空间过 $(1,0,0),(0,2,0),(0,0,2)$ 三点的平面。

对于第三个等式：
$x_1-2x_2-2x_3 = 3$
实际上为一个 $\R^3$ 空间过 $(3,0,0),(0,-3/2,0),(0,0,-3/2)$ 三点的平面。

我们分别画出这三个平面，如下图

在这里插入图片描述

我们在一个坐标系下画出上述三个平面，两两平面的交集为之直线，三个平面的交集为点，所以此线性方程组的解为三个平面的交点，可以求解得到解为 $(1.4,-0.4,-0.4)$ 。如下图

在这里插入图片描述

而对于下面这个线性方程组
$x_1+2x_2-x_3 = 1\\ 2x_1+x_2+x_3 = 2\\ x_1-x_2+2x_3 = 3$
使用相同的方法在同一坐标系中画出每一个等式对应的平面，可以发现其没有交点，即此线性方程组没有解，如下图

在这里插入图片描述

而对于下面这个线性方程组
$x_1+2x_2-x_3 = 3\\ 2x_1+x_2+x_3 = 3\\ x_1-x_2+2x_3 = 0$
使用相同的方法在同一坐标系中画出每一个等式对应的平面，可以发现他们所谓的交点为直线，即此线性方程组有无穷多解 $(1-x_3,1+x_3,x_3)$ ，如下图

在这里插入图片描述

在几何角度考虑求解线性等式时，我们的视角与代数角度不同，几何角度下，我们都是在行考虑问题，在代数角度下我们是以列的基础考虑此问题。

另外，线性代数还可以帮助我们进行有效的数据压缩，即用更小的空间来保存更多的数据。所谓的数据压缩的原理是，在我们的大多数应用中数据的特征间不是完全独立的，即 $rank(A) \ll min\{m,n\}$ ，其中 $n$ 表示 $n$ 维的数据，共有 $m$ 组数据，通常 $m \ge n$ 。所以我们数据压缩的核心就是将矩阵 $A \in \R^{m \times n}$ 分解为矩阵 $B \in \R^{m \times k}$ 和矩阵 $C \in \R^{k \times n}$ ，并保证 $k \ll min \{m,n\}$ 。

在上面我们也介绍过，直接对于原矩阵 $A$ ，进行因式分解的计算量是很大的，所以我们需要找到一个低阶（low-rank）的矩阵 $A’$ 来替代或近似原矩阵 $A$ 。这里我们使用矩阵范数 来计算矩阵 $A’$ ，即寻找一个低阶矩阵 $A’$ ，使其可以
$min\{\left\|A-A'\right\|^2 \}$
并且满足 $k \ll min\{m,n\}$ 。

note：矩阵范数是非负实数，其代表的意义与实数的绝对值 $|x| $类似，它可以使得矩阵在低阶标量的角度进行比较和计算。

一些低阶近似的好处如下：

表示矩阵 $A$ 所需的元素更少，即用 $k(m+n)$ 代替 $mn$ 。所以重建 $A$ 需要更少的存储空间和更少的运算过程。
在运算的过程会区别得到数据中的主要特征（有贡献的特征）和一般特征（无贡献的特征）。因此可能会发现“大多数”的有效数据会在某些特征间集中。在今后的PCA等降维方法会用到这种思想。

一组数据的低阶分解在工程中也有很多用处，例如在CS（computer science）、CV（computer vision）、统计学（statistics）以及机器学习（mechine learning）中。不过在实际应用中以上的方法仅仅可以得到一个比较好的初始解，还需要配合例如**随机化（randomization）**等操作来得到更满意的解决方案。

3.2 向量空间

在1900年初，向量空间（Vector Spaces）概念作为适用于线性对象的概念就已经被提出，这一节我们将讨论它。

Note：向量空间不仅仅是一个代数的内容，也可以使用几何来解释。

下面是向量空间的定义：

对于一个区域 $K$ (可以在其中进行加法和乘法的运算)，那么区域 $K$ 的向量空间（ $K$ -vector space）和集合 $E$ （满足vector addition： $E \times E \rarr E$ 以及scalar multiplication $K \times E \rarr E$ ）需要同时满足以下条件（缺一不可），其中对于所有的 $\alpha , \beta \in K$ 、 $u,v \in E$

$E$ 关于 $E \times E \rarr E$ 是一个abelian group，这里包括元素0（这里是广义的零，即向量 $0$ 或者标量 $0$ ）

note：(copy from baidu baike) abelian group也就是阿贝尔群，它由其自身的集合和二元运算构成。它除了满足一般的群（group）公理，即运算的结合律、有单位元、所有的元素都有逆元之外，还满足交换律公理。因为阿贝尔群的群运算满足交换律和结合律，群元素乘积的值与乘法运算时的次序无关。
$\alpha \cdot(u + v) = \alpha \cdot u + \alpha \cdot v$
$(\alpha + \beta) \cdot u = \alpha \cdot u + \beta \cdot u$
$(\alpha * \beta)\cdot u= \alpha \cdot (\beta \cdot u)$ ，其中 $*$ 在区域 $K$ 中进行运算
$1 \cdot u =u$

我们可以从第一个看出向量空间绝不会是空集，从第二个可以得到结论 $\alpha \cdot 0 = 0$ 和 $\alpha \cdot (-v) = -(\alpha \cdot v)$ ，从第三个我们可以得到 $0 \cdot v = 0$ 以及 $(-\alpha) \cdot v = -(\alpha \cdot v)$ 。

下面我们都在实数域 $\R$ 中讨论区域 $K$ 的向量空间

命题 3.1 对于任意的 $u \in E$ 、 $\lambda \in K$ ，如果 $\lambda \ne 0$ 且 $\lambda \cdot u =0$ ，那么有 $u=0$

看起来显而易见，下面是严谨的证明：

因为 $\lambda \ne 0$ ，所以必存在其逆 $\lambda ^{-1}$ ，对于等式 $\lambda \cdot u =0$ 有
$\lambda ^{-1} \cdot (\lambda \cdot u)=\lambda ^{-1} \cdot0 = 0$
根据上面向量空间的定义中的条件
$\lambda ^{-1} \cdot (\lambda \cdot u)=(\lambda ^{-1} \lambda) \cdot u = 1 \cdot u = u$
所以可以得到 $u=0$

接下来是有关向量空间的6个推理（其实很好理解，可以结合上面的定义直接推导得到）：

实数集 $\R$ 和复数集 $C$ 是实数集 $\R$ 上的向量空间。
$\R^n$ 和 $C^n$ 都是 $\R$ 上的向量空间，对于任意的 $\lambda \in \R$ 以及 $(x_1,...,x_n) \in \R^n$ 或 $(x_1,...,x_n) \in C^n$ 均有（除非 $\lambda \in C$ ）
$\lambda (x_1,...,x_n) = (\lambda x_1,...,\lambda x_n)$
实数域 $\R$ 上的多项式是 $\R$ 上的向量空间，同理复数域 $C$ 上存在实系数的多项式是 $C$ 上的向量空间，并且两者均在标量乘法中也满足。
在 $\R$ 上的矩阵 $M \in R^{m \times n}$ 也是 $\R$ 上的向量空间。
在复数集 $C$ ，区间 $(a,b)$ 内的函数 $f:(a,b) \rarr \R$ 是实数集 $\R$ 上的向量空间，对于标量乘法也有以下的公式：
$(\lambda f)(x)=\lambda f(x), \quad for \ all \ x \in (a,b)$
其中 $\lambda \in \R$ 且 $f:(a,b) \rarr \R$
定义 $X$ 为一个非空集合， $E$ 是一个向量空间。一系列的函数 $f:X \rarr E$ 可以生成一个向量空间，即给定任意两个函数 $f:X \rarr E$ 和 $g:X \rarr E$ ， $(f+g):X \rarr E$ 就可以定义为
$\lambda (f+g)(x) = \lambda f(x)+ \lambda g(x)$
其中 $\lambda \in \R$ 且 $x \in X$ 。

3.3 索引及求和符号 $\Sigma$

索引集(index set)的主要功能是唯一地、有顺序地标记每一个元素。

定义对于集合 $A$ ，他的索引集（ $I$ -indexed family）可以表示为函数 $a: I \rarr A$ , 即
$\{ (i,a(i)) | i \in I \}$
其中 $a(i) \in A$ 。我们可以将此视为一组关于原集合 $A$ 的数据对。

通常我们为了书写简单，进行以下的替代：

$a_i$ 替代 $a(i)$
$(a_i)_{i \in I}$ 替代 $\{ (i,a(i)) | i \in I \}$

例如，对于索引集 $I = \{r,g,b,y\}$ 和所有整数的集合 $A$ ，那么数据对可以表示为
$a = \{(r,2),(g,3),(b,2),(y,11)\}$
因为数字 “2” 出现了两次但是是不同的索引，所以在这个数据对中也表示着两个不同的元素。

如果我们使用的索引集是有序的，那么我们我们将上面 $a$ 的数据对 $(a_i)_{i \in I }$ 称为关于 $I$ 的序列（ $I$ -sequence）。

这里我们不应将索引集和多集（multiset）混淆。

Note：multiset 指在一某元素在一个集合中出现多次（大于等于两次）的集合。例如对于集合 $A=\{a,b,c,d\}$ ， $\{a,a,a,b,b,b,b,c,c,\}$ 就是一个multiset，每一个元素都可能出现多次，而且与顺序无关。单独从形式上来说，多集是一个函数 $s: A \rarr \N$ 或者等价于一组对 $\{(a,i)|a∈A\}$ 。因此，一个多集是来自 $\N$ 的按索引的元素族，而不是按索引的元素族，因为不同的元素可能具有相同的多重性。

总结起来可以这样说：一个索引集（index）是一个序列（sequence）的泛化，而一个多集（multiset）是一个集合（set）的泛化。

我们可以证明（过程较为复杂，可以对应原书的62页）， $\Sigma_{i \in I} a_i$ 的计算与计算它的顺序无关，即其同样满足结合律和交换律。（原文中是这么描述证明过程的，For those who want to see the gory(血淋淋的) details, here we go）。

定理对于任何一个非空集合 $A$ ，其满足在二元下的结合律和交换律，即满足运算 $+:A \times A \rarr A$ ；对于两个非空有限自然数序列 $I$ 和 $J$ (两者的顺序截然不同)，那么对于每一个序列 $(a_i)_{i \in I }$ 对应的集合 $A$ ，都可以得到：
$\sum_{\alpha \in I} a_\alpha = \sum_{\alpha \in J} a_\alpha$
举例来说就是对于一个集合 $A = \{2,-3, \sqrt 2\}$ ，不管使用以下任何一种的索引集，其 $\Sigma_{i \in I} a_i$ 的结果均相同。

如果 $I = \{1,2,3\}$ ， $a = \{(1,2),(2,-3),(3,\sqrt2)\}$ ，那么 $\Sigma_{i \in I} a_i = 2-3+ \sqrt2 = -1+ \sqrt2$ ;
如果 $I = \{2,5,7\}$ ， $a = \{(2,2),(5,-3),(7,\sqrt2)\}$ ，那么 $\Sigma_{i \in I} a_i = 2-3+ \sqrt2 = -1+ \sqrt2$ ;
如果 $I = \{r,g,b\}$ ， $a = \{(r,2),(g,-3),(b,\sqrt2)\}$ ，那么 $\Sigma_{i \in I} a_i = 2-3+ \sqrt2 = -1+ \sqrt2$ ;

这些看起来是显而易见的，不过在后面的部分公理证明中都是不可或缺的条件。

3.4 线性独立，子空间

表示向量空间的主要方法是使用一组基（base）的线性组合表示对应向量空间中的所有向量，即对于一个向量空间 $E$ ，其中的每一个向量 $v \in E$ 都可以写为以下形式：
$v = \lambda_1e_1+...+\lambda_ne_n$
其中 $\{e_1,..e_n\}$ 为一组基，其中的系数 $(\lambda_1,…,\lambda_n)$ 两两之间相互独立。

向量空间中所有的基都具有相同数量的元素（基数），我们将其称为空间的维度。

不过当向量为无穷维度的时候，对应的基（base）该如何定义呢，是使用有限的基定义还是无限的定义呢？如果我们在无穷的非零系数下定义线性组合，那么我们需要定义一些拓扑关系，例如通过范数（norm）、度量标准（metric）或者其他的机制。这种定义是可实现的，巴拿赫空间（Banach spaces）和希尔伯特空间（Hilbert spaces）的意义，但这需要大量的工作去证明。

另外一种避免极限的解决方案是，我们可以有无穷的向量，但是我们仅仅形成有限多的非零系数的线性组合。简单来说，可以通过引入有限支持的集合（families of finite support）来实现。其可以形成按某个固定的无限索引的标量簇，并且把这些标量簇当作是有限的。

Note：除非有其他的定义，我们不能假设索引集中的数据为有序的，在本章节中，除非有另外的说明，我们假设多有的标量簇都有有限支撑（finite support）。

定义假设向量空间 $E$ , 向量 $v \in E$ 是 $(u_i)_{i \in I}$ 下的线性组合当且仅当在 $K$ 中存在一个标量集 $(\lambda_i)_{i \in I}$ ，其可以表示为
$v = \sum_{i \in I} \lambda_iu_i$
当 $I = \emptyset$ 时，我们规定 $v=0$ 。我们定义 $(u_i)_{i \in I}$ 线性独立linearly independent 当且仅当对于每一个标量集 $(\lambda_i)_{i \in I}$ ，可以从
$\sum_{i \in I} \lambda_iu_i=0 \quad 得到结论对于所有的 i\in I,\quad \lambda_i=0$
同样的，我们定义 $(u_i)_{i \in I}$ 非线性独立linearly dependent 当且仅当对于某些标量集 $(\lambda_i)_{i \in I}$ ，可以从
$\sum_{i \in I} \lambda_iu_i=0 \quad 对于某些 i\in I,\quad \lambda_i \ne 0$
特殊地，当 $I = \emptyset$ 时，我们规定 $\empty$ 是线性独立的。

Note：定义向量簇（families of vector）而不是向量集（sets of vector）的线性相关的原因之一是我们的定义允许向量的多次出现。这是因为一个矩阵可能包含相同的列，我们可以说这些列是线性相关的。集合线性相关的定义不允许我们这样做。

当 $I$ 是非空时，如果 $(u_i)_{i \in I}$ 线性独立同时对于所有的 $i \in I$ ，都存在 $u_i \ne 0$ 。否则，当存在某些 $i \in I$ 使得 $u_i=0$ ，我们可以通过任意的非零 $\lambda_i$ 以及 $\lambda_k=0（i\ne k）$ 来得到一个非平凡线性依赖 $\Sigma_{i \in I} \lambda_iu_i=0$ 。当 $|I| \ge 2$ ，必须对于所有的 $i,j(i \ne j)$ 有 $u_i \ne u_j$ 条件，因为否则就可以通过选择 $\lambda_i = \lambda $ 以及 $\lambda_j = -\lambda（\lambda \ne0）$ 还有让对于所有的 $k \in I (k \ne i,j)\quad\lambda_k = 0$ ，来得到一个非平凡线性依赖。

因此，线性无关的定义意味着一个非平凡的线性无关簇实际上是一个集合。这解释了为什么某些作者选择定义向量集合的线性无关。这种方法的问题在于线性相关（即线性无关的逻辑否定）只能定义为向量的集合。然而，正如我们之前指出的，定义线性依赖关系对于允许同一向量多次出现的集合来说是可行的。

下面是几个有关线性独立的实例：

任何两个在向量空间 $K$ 中不同的标量 $\lambda,\mu \ne 0$ 是线性相关的
在空间 $\R^3$ 中，向量 $(1,0,0),(0,1,0),(0,0,1)$ 是线性独立的，见下图
在空间 $\R^4$ 中，向量 $(1,1,1,1),(0,1,1,1),(0,0,1,1),(0,0,0,1)$ 是线性独立的
在空间 $\R^2$ 中，向量 $u=(1,1),v=(0,1),w=(2,3)$ 是线性相关的，因为
$w=2u+v$

Note：当 $I$ 有限时，我们规定集合 $I = \{1,2,…,n\}$ ，同时我们也将 $(u_i)_{i \in I}$ 记作 $(u_1,…,u_n)$

下面我们给出向量空间的子空间 subspace的定义：

给定一个向量空间 $E$ 时，它的子集 $F$ 是一个线性子空间（或是子空间）当且仅当 $F$ 是非空的且对于所有的 $u,v \in F \quad \lambda ,\mu \in K$ 存在 $\quad \lambda u+\mu v \in F$ 。

我们可以从子空间的定义中可以得到以下的结论：

向量空间 $E$ 的子空间 $F$ 也是一个向量空间，即对于向量空间的限制 $F \times F \rarr F$ 以及 $K \times F \rarr F$ 均满足。
每一个子空间都包含零向量，因为对于任何向量 $u \in F$ 且我们令 $\lambda = \mu =0$ ，那么 $\lambda u+\mu u =0u+0u=0$ 。我们通常将子空间 $\{0\}$ 写为（0）或者0。
一个向量空间的任意簇(甚至无限簇)的子空间的交集还是子空间。
对于任何的非空有限索引集 $I$ ，如果 $(u_i)_{i \in I}$ 中所有的 $u_i \in F$ 并且 $(\lambda_i)_{i \in I}$ 都为标量，那么 $\Sigma_{i \in I} \lambda_iu_i \in F$ 。

下面是一些实例：

在 $\R^2$ 空间中，一组向量的集合 $u=(x,y)$ 例如

$x+y=0$

是 $\R^2$ 的子空间。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ZINU0WEe-1591237845923)(/Users/macos/Library/Application%20Support/typora-user-images/image-20200604094438942.png)]

在 $\R^3$ 空间中，一组向量的集合 $u=(x,y,z)$ 例如

$x+y+z=0$

是 $\R^3$ 的子空间。
在这里插入图片描述

对于任何的 $n \ge 0$ ，对于最高次数为 $n$ 的多项式集合 $f(X) \in \R[X]$ 是 $\R[X]$ 的子空间。
上三角矩阵的集合是大小为 $n \times n$ 矩阵空间的一个子空间。
对于任意给定的向量空间 $E$ ，如果 $S$ 是 $E$ 的任意非空子集，则 $E$ 的最小的子集 $<S>$ (Span( $S$ )) ，可以确定为 $S$ 中元素的所有（有限）线性组合构成的集合。

当然，线性组合时的系数也需要有额外的约束，下面是三个很重要的限制 (通常，我们假设我们的索引集是有限的):

仿射组合（affine combination）：对于线性组合 $\Sigma_{i \in I} \lambda_iu_i$ ，需存在
$\sum_{i \in I} \lambda_i = 1$

即我们可以将每一个线性组合都堪称一个仿射组合。

正(圆锥)集合（positive（conic） combinations）：对于线性组合 $\Sigma_{i \in I} \lambda_iu_i$ ，需存在

$\lambda_i \ge 0 \quad 对于所有的 i\in I$

即在凸优化（convex optimization）中所有向量簇的正组合是锥（cones）。

凸组合（convex combinations）：对于线性组合 $\Sigma_{i \in I} \lambda_iu_i$ ，如果存在上面两个条件，即

$\sum_{i \in I} \lambda_i = 1 \quad\quad\lambda_i \ge 0 \quad 对于所有的 i\in I$

那么对于任意有限的向量簇，这些向量的所有凸组合的集合是一个凸多面体。凸多面体在凸优化中起着非常重要的作用。

Note：在无限索引集中，我们也可以如上的定义线性组合的相关概念。

定义对于任何的向量空间 $K$ ，如果对于所有的 $i \in I-J$ ，即某些 $I$ 中的有限子集 $J$ ，一个标量的集合 $(\lambda_i)_{i \in I}$ 是有限支撑的（finite support）

所以一般情况下，有限集合中的结论都可以应用于有限支撑（finite support）中（拥有索引集的集合中）。

3.5 向量空间的基（bases）

在上一节中我们可以了解到，在一个向量空间 $E$ 中，任何一个其内的线性组合以及零向量的子空间都可以视为向量空间 $E$ 的子空间，所以我们可以使用这些线性组合来表示整个向量空间 $E$ ，但是这样会产生较大的冗余，而如何使用较少的、有效的向量表达整个向量空间就是一个亟待解决的问题。这里我们定义向量空间的基（base）这一定义。

定义对于一个向量空间 $E$ 以及它的子集 $V$ ，带有索引的集合 $(v_i)_{i \in I}$ 对应于空间 $V$ 、向量 $v_i \in V$ 以及 $V$ 的线性组合等。对于每一个 $v \in V$ ，这里有一些标量的带索引的集合 $(\lambda_i)_{i\in I} \in K$ ，存在
$v= \sum_{i\in I}\lambda_i v_i$
如果集合 $(v_i)_{i \in I}$ 是线性独立的，那么我们称其为向量空间 $V$ 下的一组基（basis）。同时如果 $E$ 的子集 $V$ 可以使用有限的 $(v_i)_{i \in I}$ 生成，那么我们称向量空间 $V$ 是可有限生成的（finitely generated）。

例子：

在 $\R^3$ 中，向量 $(1,0,0),(0,1,0),(0,0,1)$ 就是此空间下的一组基。
在 $\R^4$ 中，向量 $(1,1,1,1),(1,1,-1,-1),(1,-1,0,0),(0,0,1,-1)$ 是此空间下的一组基，我们称之为 Haar basis （哈尔基），在小波理论中，Haar basis及其推广到 $2^n$ 的维数是至关重要的。
在最高次幂为 $n$ 的多项式 $\R[X]$ 的子空间内，是 $1,X,X^2,…,X^n$ 它的基。
Bernstein polynomial（伯恩斯坦多项式）是定义空间内的一组基，其表达形式为 $\left ( \begin{matrix} n\\k \end{matrix} \right )(1-X)^{n-k}X^k$ ，其中 $k=0,…,n$ ，这个多项式在样条曲线（spline curves）理论中起着重要作用。

当然，每一个向量空间都有基，这也是线性代数的基石。下面我们从一个重要的引理开始，它形式化了逐步构建基的机制。

引理对于给定向量空间的线性无关集 $(u_i)_{i \in I}$ ，如果 $v \in E$ 不是 $(u_i)_{i \in I}$ 的线性组合，那么可以通过将 $v$ 添加到 $(u_i)_{i \in I}$ 中可以得到一组线性独立集合，即 $(u_i)_{i \in I} \cap_k (v)$ ( $k \notin I$ )。

定理对于任何的有限集合 $S = (u_i)_{i \in I}$ 生成的向量空间 $E$ 以及任意的线性独立的子集 $L = (u_i)_{j \in J}$ (这里 $J \subseteq I$ ) ，那么对于 $E$ 的基 $B$ 存在 $L \subseteq B \subseteq S$ 。

当然，上面这个定理同样适用于非有限生成的向量空间，在这种情况下，要首先保证存在一个足够大的线性无关集合 $B$ ，也让其满足条件 $L \subseteq B \subseteq S$ 。这个足够大的线性无关集合可以找到，在Zorn’s lemma中有证明方法。

基的定义同样可以使用极大线性无关组和极小生成组来定义。

定义我们令 $(v_i)_{i \in I}$ 是向量空间 $E$ 中的一个向量组，当 $(v_i)_{i \in I}$ 是线性独立时，我们说 $(v_i)_{i \in I}$ 是向量空间 $E$ 的一个极大线性无关组（maximal linearly independent family）。如果对于任意的向量 $w \in E$ ，向量组 $(v_i)_{i \in I} \cap_k (w)$ 是线性相关的。如果对于每一个索引 $p \in I$ 集合 $(v_i)_{i \in I-\{p\}}$ 由去除不属于 $E$ 的向量集 $(v_i)_{i \in I}$ 组成，那么我们说 $(v_i)_{i \in I}$ 是向量空间 $E$ 中的极小生成集（minimal generating family）。

命题对于向量空间 $E$ ，对于每一个在 $E$ 中的集合 $B = (v_i)_{i \in I}$ ，一下的性质是等价的：

$B$ 是 $E$ 的一组基
$B$ 是 $E$ 的极大线性无关组（maximal linearly independent family）
$B$ 是 $E$ 的极小生成组（minimal generating family）

另外地，线性代数的关键结果是，对于向量空间 $E$ 的任意两个基 $(u_i)_{i \in I}$ 和 $(v_j)_{j \in J}$ ，索引集 $I$ 和 $J$ 有相同的基数。特别地，如果 $E$ 有一个有限的 $n$ 次的基，每一个 $E$ 的基都有 $n$ 个元素，每一个整数 $n$ 都是称为向量空间 $E$ 的维度（dimension）。

命题替换引理 给定一个向量空间 $E$ ，令 $(u_1,…u_m)$ 为 $E$ 内的任意有限的线性无关集，并令 $(v_1,…,v_n)$ 为任意的有限簇，并且使每一个 $u_i$ 都是 $(v_1,…,v_n)$ 的线性组合。在这里，我们必须有 $n \ge m$ ，而且使用 $(u_1,…,u_m)$ 替代 $v_j$ ，在重新命名了这些索引 $v_js$ 后，向量集 $(u_1,…u_m,v_{m+1},…,v_n)$ 和 $(v_1,…v_n)$ 可以生成相同的 $E$ 的子空间。

下面是一些说明替换引理的例子：

对于一个序列 $(u_1,u_2,u_3)$ 和 $(v_1,v_2,v_3,v_4,v_5)$ ，其中 $(u_1,u_2,u_3)$ 是一个线性独立集，并 $u_is$ 可以用 $v_js$ 代替为下列形式：
$u_1=v_4+v_5\\ u_2 = v_3+v_4-v_5\\ u_3 = v_1+v_2+v_3$
从第一个等式有
$v_4 = u_1-v_5$
将上式带入第二个等式有
$u_2= v_3+v_4-v_5=v_3+u_1-v_5-v_5=u_1+v_3-2v_5$
从上面的表达式我们可以得到
$v_3= -u_1+u_2+2v_5$
所以有
$u_3= v_1+v_2+v_3=v_1+v_2-u_1+u_2+2v_5$
所以最后我们有
$v_1=u_1-u_2+u_3-v_2-2v_5\\ v_3= -u_1+u_2+2v_5\\ v_4 = u_1-v_5$
从上面这个例子可以看出， $(u_1,u_2,u_3,v_2,v_5)$ 拥有和 $(v_1,v_2,v_3,v_4,v_5)$ 相同的子空间。即向量 $(v_1,v_3,v_4)$ 可以被 $(u_1,u_2,u_3)$ 所替代，剩下的两个向量为 $(v_2,v_5)$ ，我们可以将其重新命名为 $(v_4,v_5)$ 。

为了完整性，下面给出一个对于替换定理更加正式的定义（声明）：

替换定理2： 对于一个向量空间 $E$ ，令 $(u_i)_{i \in I}$ 为 $E$ 的任意的有限的线性独立集，其中 $|I| = m$ ，同时令 $(v_j)_{j \in J}$ 是一个有限集，并且每一个 $u_i$ 都是 $(v_j)_{j \in J}$ 的线性组合，其中 $|J| = n$ 。那么存在一个集合 $L$ 以及一个映射关系 $\rho:L \rarr J$ （一个重新标记函数），存在 $L \cap I= \emptyset$ ， $|L|=n-m$ ，那么集合 $(u_i)_{i \in I} \cup (v_{\rho(l)})_{l \in L}$ 和集合 $(v_j)_{j \in J}$ 可以生成相同的 $E$ 的子空间，当然 $n \ge m$ 。

实际上，当向量空间是用有限的向量生成时，上面的命题就包含了上面的定理，如果我们将两者结合起来，我们可以得到下面的基本定理（普适的）

定理令 $E$ 为有限向量生成的向量空间。对于任意的生成 $E$ 的集合 $(u_i)_{i \in I}$ 都包括了一个子集 $(u_j)_{j \in J}$ ，其就是向量空间 $E$ 的基。对于任何线性独立的集合 $(u_i)_{i \in I}$ 可以扩展为 $(u_j)_{j \in J}$ （ $I \subseteq J$ ）。更进一步，对于每两个向量空间 $E$ 的基 $(u_i)_{i \in I}$ 和 $(u_j)_{j \in J}$ ，对于每一个固定的整数 $n \ge0$ ,我们都有 $|I| = |J| = n$ 。

上面的定理同样也适用于非有限向量生成的向量空间。

定义当一个向量空间不是由有限的向量所能生成的，我们说它是无限维的。有限生成的向量空间的维（dimension）是其所有基的共同维数，用 $dim(E)$ 表示。

显然的，如果 $K$ 可以看作为一个向量空间，且每一个满足 $a \in K$ 以及 $a \ne 0$ 集 $(a)$ 都可以看为一组基。那么其维度为1。

注意： $dim(\{0\}) = 0$ 。

定义如果 $E$ 是一个维度 $n \ge 1$ 的向量空间，对于 $E$ 的任意子集 $U$ ，如果存在 $dim(U) =1$ ，那么称 $U$ 为线(line) ；同样，如果 $dim(U) =2$ ，那么称 $U$ 为平面(plane) ；如果 $dim(U) =n-1$ ，那么 $U$ 为超平面(hyperplane) ；特别地，如果 $dim(U) =k$ ，那么我们将 $U$ 称为 k-plane 。

如果 $(u_i)_{i \in I}$ 为向量空间 $E$ 的一组基，对于任意的向量 $v \in E$ ，由于向量集 $(u_i)_{i \in I}$ 可以构成向量空间 $E$ 中的任何一个向量，这样可以用一组标量组 $(\lambda_i)_{i \in I}$ 表示向量 $v$ ，即
$v=\sum_{i \in I} \lambda_iu_i$
注意对于确定的基和确定的向量，标量组 $(\lambda_i)_{i \in I}$ 是唯一的。所以我们可以直接得到下面这个结论：

对于给定的向量空间 $E$ , $(u_i)_{i \in I}$ 是 $E$ 中的一个向量集，令向量 $v \in E$ 并假设 $v=\sum_{i \in I} \lambda_iu_i$ 。当且仅当 $(u_i)_{i \in I}$ 线性独立时，使得 $v=\sum_{i \in I} \lambda_iu_i$ 满足的标量组 $(\lambda_i)_{i \in I}$ 是唯一的。

定义如果 $(u_i)_{i \in I}$ 是向量空间 $E$ 的一组基，对于任意的向量 $v \in E$ ，如果 $(x_i)_{i\in I}$ 唯一的标量组，使得
$v = \sum_{i \in I} x_iu_i$
每一个 $x_i$ 被叫做基于基 $(u_i)_{i \in I}$ 的索引 $i$ 的分量（component）或坐标（coordinate）。

定义给定的一个空间 $K$ 和一些非空子集 $I$ ，令 $K^{(I)}$ 为包含有标量集 $(\lambda_i)_{i \in I}$ 定义下有限支撑的笛卡尔积（cartesian product） $K^I$ 的子集，在此我们可以定义加法和乘法如下：
$（\lambda_i)_{i \in I} + (\mu_i)_{i \in I }=（\lambda_i+\mu_i)_{i \in I}$

$\lambda \cdot(\mu_i)_{i \in I} = (\lambda\mu_i)_{i \in I}$

Note：当 $I$ 是一个有限集合， $K^{(I)} = K^I$ ，但是当 $I$ 为无限的集合时。实际上， $dim(K^{(I)})=|I|$ ，但是 $dim(K^I)$ 是严格大于当 $I$ 为有限时的维数的。

3.6 矩阵

下面，我们将精确地定义矩阵并介绍一些关于矩阵的运算。矩阵构成了一个向量空间，它具有结合律，但非交换律的乘法运算。

定义3.12 如果 $K=\R$ 或者 $K =C$ ，一个在 $K$ 上的 $m \times n$ 的矩阵maxtrix 是由 $K$ 上的标量簇 $(a_{ij})_{1 \le i \le m,1 \le j \le n}$ 组成的，其可以表达为如下形式：
$\left ( \begin{matrix} a_{11} & a_{12} & \cdots & a_{1n}\\ a_{21} & a_{22} & \cdots & a_{2n} \\ \vdots & \vdots & \ddots & \vdots \\ a_{m1} & a_{m2} & \cdots & a_{mn} \end{matrix} \right )$
特别地，如果 $m=1$ ，那么其为行向量（row vector），可以表达为：
$（a_{11}...a_{1n}）$
如果 $n=1$ ，那么其为列向量（column vector），可以表达为：
$\left ( \begin{matrix} a_{11}\\ a_{21} \\ \vdots \\ a_{m1} \end{matrix} \right )$
对于以上两种特殊情况，我们通常省略常量索引 $1$ (对于行是第一个索引，对于列是第二个索引)。整个的 $m \times n$ 矩阵，我们简记为 $M_{m,n}(K)$ 或者 $M_{m,n}$ 。特殊地，我们将 $n \times n$ 的矩阵称为维度为 $n$ 的方阵 (square matrix od dimension $n$ )，我们将其表示为 $M_n(K)$ 或者 $M_n$ 。

下面我们定义更多矩阵的运算：

定义3.13

对于两个 $m \times n$ 的矩阵 $A = (a_{ij})$ 和 $B =(b_{ij})$ ，我们定义他们的加法（sum）如下，即 $A+B = C=(c_{ij})$
$\left ( \begin{matrix} a_{11} & a_{12} & \cdots & a_{1n}\\ a_{21} & a_{22} & \cdots & a_{2n} \\ \vdots & \vdots & \ddots & \vdots \\ a_{m1} & a_{m2} & \cdots & a_{mn} \end{matrix} \right )+\left ( \begin{matrix} b_{11} & b_{12} & \cdots & b_{1n}\\ b_{21} & b_{22} & \cdots & b_{2n} \\ \vdots & \vdots & \ddots & \vdots \\ b_{m1} & b_{m2} & \cdots & b_{mn} \end{matrix} \right )=\left ( \begin{matrix} a_{11}+b_{11} & a_{12}+b_{12} & \cdots & a_{1n}+b_{1n}\\ a_{21}+b_{21} & a_{22}+b_{22} & \cdots & a_{2n}+b_{2n} \\ \vdots & \vdots & \ddots & \vdots \\ a_{m1}+b_{m1} & a_{m2}+b_{m2} & \cdots & a_{mn}+b_{mn} \end{matrix} \right )$
对于任意的矩阵 $A=(a_{ij})$ 和给定的标量 $\lambda \in K$ ，我们定义矩阵的标量乘法 $\lambda A$ 如下，即 $c_{ij} = \lambda a_{ij}$ :
$\lambda\left ( \begin{matrix} a_{11} & a_{12} & \cdots & a_{1n}\\ a_{21} & a_{22} & \cdots & a_{2n} \\ \vdots & \vdots & \ddots & \vdots \\ a_{m1} & a_{m2} & \cdots & a_{mn} \end{matrix} \right )=\left ( \begin{matrix} \lambda a_{11} & \lambda a_{12} & \cdots & \lambda a_{1n}\\ \lambda a_{21} & \lambda a_{22} & \cdots & \lambda a_{2n} \\ \vdots & \vdots & \ddots & \vdots \\ \lambda a_{m1} & \lambda a_{m2} & \cdots &\lambda a_{mn} \end{matrix} \right )$
对于 $m \times n$ 的矩阵 $A=(a_{ik})$ 以及 $n \times p$ 的矩阵 $B = (b_{kj})$ ，我们定义矩阵的乘法（product）如下，即 $AB=C_{m \times p}=(c_{ij})$ ：
$c_{ij} = \sum_{k=1}^n a_{ik}b_{kj}$
写成矩阵形式如下：
$\left ( \begin{matrix} a_{11} & a_{12} & \cdots & a_{1n}\\ a_{21} & a_{22} & \cdots & a_{2n} \\ \vdots & \vdots & \ddots & \vdots \\ a_{m1} & a_{m2} & \cdots & a_{mn} \end{matrix} \right )\left ( \begin{matrix} b_{11} & b_{12} & \cdots & b_{1n}\\ b_{21} & b_{22} & \cdots & b_{2n} \\ \vdots & \vdots & \ddots & \vdots \\ b_{m1} & b_{m2} & \cdots & b_{mn} \end{matrix} \right )=\left ( \begin{matrix} c_{11} & c_{12} & \cdots & c_{1n}\\ c_{21} & c_{22} & \cdots & c_{2n} \\ \vdots & \vdots & \ddots & \vdots \\ c_{m1} & c_{m2} & \cdots & c_{mn} \end{matrix} \right )$
Note：对于矩阵乘积 $AB$ ，可以表达为 $A$ 矩阵第 $i$ 列对应的行矩阵与 $B$ 矩阵第 $j$ 列对应的列矩阵的乘积，即：
$（a_{i1},...,a_{in})\left( \begin{matrix} b_{1j}\\ \vdots\\ b_{nj} \end{matrix} \right) = \sum^n_{k=1} a_{ik}b_{kj}$
定义3.14 对于对角线上为1，其他地方为0的方阵 $I_n$ 称其为单位矩阵（identity matrix），即
$I_n =\left ( \begin{matrix} 1 & 0 & \cdots & 0\\ 0 & 1 & \cdots & 0 \\ \vdots & \vdots & \ddots & \vdots \\ 0 & 0 & \cdots & 1 \end{matrix} \right )$
定义3.15 对于 $m \times n$ 的矩阵 $A =(a_{ij})$ ，其转置（transpose） $A^T=(a^T_{ji})$ 是一个 $n \times m$ 的矩阵，且对于所有的 $1 \le i \le m , 1 \le j \le n$ ，都有 $a^T_{ji} = a_{ij}$ 。我们有时也将其写为 $A^t$ 或者 $^tA$ 。例如 $5 \times 6$ 的矩阵 $A$ :
$A= \left ( \begin{matrix} 1&2&3&4&5&6\\ 7&1&2&3&4&5\\ 8&7&1&2&3&4\\ 9&8&7&1&2&3\\ 10&9&8&7&1&2 \end{matrix} \right )$
那么其转置的矩阵为 $A^T$ ，为 $6 \times 5$ 的矩阵：
$A^T =\left ( \begin{matrix} 1&7&8&9&10\\ 2&1&7&8&9\\ 3&2&1&7&8\\ 4&3&2&1&7\\ 5&4&3&2&1\\ 6&5&4&3&2 \end{matrix} \right )$
对于 $m \times n$ 的矩阵 $A=(a_{ik})$ 以及 $n \times p$ 的矩阵 $B = (b_{kj})$ ，如果我们将 $A$ 的列表示为 $A^1,…A^n$ 并把 $B$ 的行表示为 $B_1…,B_n$ ，那么矩阵的乘法可以表示为：
$AB=A^1B_1 +...+A^nB_n$
对于每一个 $n$ 维的方阵 $A$ ，必定有 $AI_n = I_nA=A$ 。

定义3.16 对于任何 $n$ 维的方阵 $A$ ，如果存在一个矩阵 $B$ ，使得 $AB=BA=I_n$ ，那么这个矩阵 $B$ 是唯一的，且我们将其称为矩阵 $A$ 的逆（inverse），也可以表示为 $A^{-1}$ 。可逆矩阵又被称为非退化矩阵、非奇异矩阵（nonsingular matrix），不可逆矩阵又被称为退化矩阵、奇异矩阵（singular matrix）。

定义3.17 对于一个 $m \times n$ 的矩阵 $E_{ij}=(e_{hk})$ ，其中 $e_{ij}=1,e_{hk}=0$ ( $h \ne i$ 或 $k \ne j$ )，换句话说， $(i,j)$ 项等于1，其他项都是0 。下面是 $E_{ij}$ 的表达，其中 $m=2,n=3$ ：
$E_{11}=\left ( \begin{matrix} 1&0&0\\ 0&0&0 \end{matrix} \right ), E_{12}=\left ( \begin{matrix} 0&1&0\\ 0&0&0 \end{matrix} \right ), E_{13}=\left ( \begin{matrix} 0&0&1\\ 0&0&0 \end{matrix} \right )\\ E_{21}=\left ( \begin{matrix} 0&0&0\\ 1&0&0 \end{matrix} \right ), E_{22}=\left ( \begin{matrix} 0&0&0\\ 0&1&0 \end{matrix} \right ), E_{23}=\left ( \begin{matrix} 0&0&0\\ 0&0&1 \end{matrix} \right )$
每一个矩阵 $A=(a_{ij}) \in M_{m,n}(K)$ 都可以被表示为唯一的
$A=\sum_{i=1}^m\sum_{j=1}^na_{ij}E_{ij}$
所以联系3.5节，对于向量集 $(E_{ij})_{1 \le i\le m,1 \le j \le n}$ ，其为向量空间 $M_{m,n}(K)$ 的一组基，其维数为 $mn$ 。

性质3.13

（1）对于矩阵 $A\in M_{m,n}(K)，B \in M_{n,p}(K),C\in M_{p,q}(K)$ ，都有
$（AB）C =A(BC)$
即矩阵乘法的结合律（association）

（2）对于矩阵 $A,B\in M_{m,n}(K)$ 和 $C,D\in M_{n,p}(K)$ ，以及所有的 $\lambda \in K$ ，都有
$（A+B）C=AC+BC$

$A(C+D)=AC+AD$

$(\lambda A) C=\lambda(AC)$

$A(\lambda C) = \lambda (AC)$

即矩阵乘法是双线性的，即 $M_{m,n}(K) \times M_{n,p}(K) \rarr M_{m,p}(K)$ 。

实例：

对于这两个 $2\times 2$ 的矩阵 $A，B$ ：
$A=\left ( \begin{matrix} 1&0\\ 0&0 \end{matrix} \right ),B=\left ( \begin{matrix} 0&0\\ 1&0 \end{matrix} \right )$
对于 $AB$
$AB=\left ( \begin{matrix} 1&0\\ 0&0 \end{matrix} \right )\left ( \begin{matrix} 0&0\\ 1&0 \end{matrix} \right ) = \left ( \begin{matrix} 0&0\\ 0&0 \end{matrix} \right )$
对于 $BA$
$BA=\left ( \begin{matrix} 0&0\\ 1&0 \end{matrix} \right )\left ( \begin{matrix} 1&0\\ 0&0 \end{matrix} \right ) = \left ( \begin{matrix} 0&0\\ 1&0 \end{matrix} \right )$
从上面可以看出 $AB \ne BA$ ，且 $AB=0$ 时， $A,B$ 不一定为零矩阵。

3.7 线性映射

下面我们希望可以将一个向量空间转换为另一个向量空间。保持向量空间结构的两个向量空间之间的函数称为向量空间的同态（homomorphism）或线性映射（linear map）。线性映射形式化了函数线性的概念

定义3.18 对于两个向量空间 $E$ 和 $F$ ，一个在 $E$ 和 $F$ 间的线性映射（linear map）可以表示为函数 $f:E \rarr F$ ，并且其满足以下两个条件：

对于所有的 $x,y\in E$
$f(x+y) =f(x)+f(y)$

$f(\lambda x)=\lambda f(x)$

对于上面的第一个恒等式令 $x=y=0$ ，我们可以得到 $f(0)=0$ 。

线性映射的基本性质是将线性组合变换为线性组合。对于 $E$ 中任意的有限向量簇 $(u_i) _{i \in I}$ ，对于标量集 $(\lambda_i)_{i \in I}$ ，我们有
$f(\sum_{i \in I}\lambda_iu_i)=\sum_{i \in I} \lambda_i f(u_i)$
下面是一些线性映射的例子：

对于映射 $f:\R^2 \rarr \R^2$ 定义如下

$x^\prime = x-y\\ y^\prime = x+y$

其是一个线性映射，它是由一个旋转组成，由半径放大 $\sqrt[2]{2}$ 倍，并旋转 $\pi /4$ 组成。

对于向量空间 $E$ ，恒等映射是一个线性映射，即 $id:E \rarr E$ ，对于所有的 $u \in E$ 存在

$id(u)=u$

映射 $D:\R[X] \rarr \R[X]$ 定义如下：

$D(f(X)) = f^\prime(X)$

其为线性映射，其中的 $f^\prime(X)$ 是多项式 $f(X)$ 的导数。

映射 $\Phi:C([a,b]) \rarr\R$ 定义如下：

$\Phi(f)=\int_a^bf(t)dx$

其中 $C([a,b])$ 是定义在区间 $[a,b]$ 上的连续函数集，是一个线性映射。

函数 $<-,->:C([a,b])\times C([a,b]) \rarr \R$ 定义如下：

$<f,g>=\int^b_af(t)g(t)dt$

对于变量 $f,g$ 来说都是线性映射。本质上来说，其为内积（inner product），其满足以下两个性质：

$<f,g>=<g,f>$
当 $<f,f>=0$ 时，当且仅当 $f=0$

定义3.19 对于一个线性映射 $f:E \rarr F$ ，我们定义它的象（image）为 $Im f= f(E)$ ，即
$Im f=\{y \in F|(\exist x \in E)(y=f(x))\}$
它的核 Kernel（或零空间 nullspace）定义为 $Ker f=f^{-1}(0)$ ，即
$Ker f=\{x \in E|f(x)=0\}$
对于上面介绍的导数映射 $D:\R[X] \rarr \R[X]$ 有不变的多项式核，所以 $Ker D=\R$ 。如果我们考虑二阶导数 $D\circ D:\R[X] \rarr \R[X]$ ，那么对于 $D \circ D$ 的核包含了所有的次数小于等于1的多项式。对于象 $D:\R[X] \rarr \R[X]$ 实际上就是它本身，因为对于每一个多项式 $P(X) =a_0X^n+…+a_{n-1}X+a_n$ 都是多项式 $Q(X)$ 的导数：
$Q(X) = a_0 \frac{X^{n+1}}{n+1} +...+a_{n-1}\frac{X^2}{2}+a_nX$
另一方面，如果我们考虑对次数小于 $n$ 的多项式向量空间 $\R[X]_n$ 的约束 $D$ ，则多项式的核仍然存在且为 $\R$ ，而多项式的图像 $\R[X]_{n-1}$ ，多项式的向量空间小于等于 $n-1$ 。

命题3.14 对于给定的一个线性映射 $f:E \rarr F$ ，我们定义 $Im f$ 为 $F$ 的子空间且 $Ker f$ 是 $E$ 的子空间。线性映射 $f:E \rarr F$ 是单射injective，即一对一的映射，当且仅当 $Ker f =(0)$ ，其中的 $(0)$ 是平凡子空间 $\{0\}$ 。

定义3.20 对于一个线性映射 $f:E\rarr F$ ， $f$ 的秩 $rank(f)$ 是 $Im f$ 的维度。

所以向量空间中的基的一个基本性质就是允许将线性映射定义为唯一的同态扩展。

命题 3.15 对于两个向量空间 $E$ 和 $F$ ，对于任意的 $E$ 的基 $(u_i)_{i \in I}$ 以及对于 $F$ 中其他的向量簇 $(v_i)_{i \in I}$ ，这里必有一个唯一的线性映射 $f:E\rarr F$ 例如 $f(u_i)=v_i$ 。另外，当且仅当 $(v_i)_{i \in I}$ 线性独立时， $f$ 是单射。当且仅当 $(v_i)_{i \in I}$ 可生成 $F$ 时， $f$ 是满射的（surjective）。

下面的图示可以阐述上面的命题，其中 $E=\R^3$ 、 $V=\R^2$ :

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-OkRF1FcF-1591863755119)(/Users/macos/Library/Application%20Support/typora-user-images/image-20200611151619739.png)]

对于 $u_1=(1,0,0),u_2=(0,1,0),u_3=(0,0,1)$ 和 $v_1=(1,1),v_2=(-1,1),v_3=(1,0)$ ，我们定义唯一的线性映射为 $f:\R^3 \rarr \R^2$ ， $f(u_1)=v_1,f(u_2)=v_2,f(u_3)=v_3$ 。这个映射不是单射而是满射因为 $f(u_1-u_2) = f(u_1)-f(u_2)=(1,1)-(-1,1)=(2,0)=2f(u_3)=f(2u_3)$ 。

命题3.16 对于任意的集合 $I$ ，对于向量空间 $F$ ，对于函数 $f:I \rarr F$ ，有唯一的线性映射 $\overline{f}:K^{(I)} \rarr F$ ，即
$f=\overline{f} \circ \iota$
如图示：
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-TAo1ceTi-1591863755123)(/Users/macos/Library/Application%20Support/typora-user-images/image-20200611153958739.png)]

证明：

如果存在一个线性映射 $\overline{f}:K^{(I)} \rarr F$ ，因为有 $f=\overline{f} \circ \iota$ ，所以对任意的 $i \in I$ 有
$f(i) = \overline{f} ( \iota(i)) = \overline{f}(e_i)$
但对于 $K^{(I)}$ 的基 $(e_i)_{i \in I}$ 和 $F$ 中的向量簇 $(f(i))_{i \in I}$ 。由命题3.15，这里一定有唯一的线性映射 $\overline{f}:K^{(I)} \rarr F$ 例如 $\overline{f}=f(i)$ ，这也同时证明了线性映射 $f=\overline{f} \circ \iota$ 的存在性和唯一性。

命题3.17 对于两个向量空间 $E$ 和 $F$ (非平凡的向量空间) ，对于 $E$ 中的任意向量簇 $(u_i)_{i \in I}$ 有以下的性质：

当且仅当对于每一个 $F$ 中向量簇 $(v_i)_{i \in I}$ 都有至多一个的线性映射 $f:E \rarr F$ 例如 $f(u_i)=v_i$ 时，向量簇 $(u_i)_{i \in I}$ 可以生成向量空间 $E$ 。
当前仅当对于每一个 $F$ 中向量簇 $(v_i)_{i \in I}$ 都有一些线性映射 $f:E \rarr F$ 例如 $f(u_i)=v_i$ 时，向量簇 $(u_i)_{i \in I}$ 时线性独立的。

另外线性空间也具有传递性，即有给定的三个向量空间 $E,F,G$ ，存在线性映射 $f:E \rarr F$ 以及 $g:F \rarr G$ ，则必有 $f,g$ 的组合 $g \circ f:E \rarr G$ 存在，且其为线性映射。

定义3.21 一个线性映射 $f:E \rarr F$ 是同构的(isomorphism)，当且仅当存在一个线性映射 $g:F\rarr E$ ，其中
$g \circ f = id_E \quad and \quad f \circ g = if_F$
映射 $g$ 在上面的定义中是唯一的，这是因为如果 $g \ h$ 都满足 $g \circ f=id_E$ , $f \circ g=id_F$ , $h \circ f=id_E$ , $f \circ h=id_F$ ，那么
$g=g \circ id_F =g \circ (f \circ h) = (g \circ f) \circ h = id_E \circ h=h$
满足定义3.21的映射 $g$ 被叫做 $f$ 的逆（inverse），通常被写为 $f^{-1}$ 。

命题3.18 令 $E$ 为一个维数 $n \ge 1$ 向量空间，并令 $f:E \rarr E$ 为任意的线性映射。

如果 $f$ 存在一个左逆 $g$ ，即当 $g$ 是一个线性映射，例如 $g \circ f = id$ ，那么 $f$ 是同构的，且 $f^{-1}=g$ 。
如果 $f$ 存在一个右逆 $h$ ，即当 $h$ 是一个线性映射，例如 $f \circ h = id$ ，那么 $f$ 是同构的，且 $f^{-1}=h$ 。

定义3.22 两个向量空间 $E、F$ 之间的所有线性映射的集合可以被表示为 $Hom(E,F)$ 或者 $L(E;F)$ (标记 $L(E;F)$ 通常保留为连续线性映射的集合，其中是赋范向量空间)。当我们希望更精确地在向量空间 $E,F$ 中指向空间 $K$ , 我们就将其写为 $Hom_K(E,F)$ 。

定义3.23 当 $E=F$ 时，线性映射 $f:E \rarr E$ 也可以被称为自同态（endomorphism）前面我们所定义的空间 $Hom(E,E)$ 也可以被称为 $End(E)$ 。

定义3.24 双线性映射（Bijective linear maps） $f:E \rarr E$ 也称为自同构（automorphism），自同构 $E$ 所构成的组合我们称为一般线性组（general linear group），表示为 $GL(E)$ 或 $Aut(E)$ 。尤其地，当 $E =\R^n$ ，可以表示为 $GL(n,\R)$ 或 $GL(n)$ 。

3.8 商空间（Quotient Spaces）

我们令 $E$ 为向量空间，并令 $M$ 为其任意一个子空间。在子空间 $M$ 上我们定义一个关系 $\equiv_M$ ，其定义如下：

对于任意的 $u,v \in E$ ，有
$u \equiv_M v$
当且仅当 $u-v \in M$ 。

基于上面的关系，我们有一下的性质：

命题3.19 对于给定的向量空间 $E$ ，并令 $M$ 为其任意一个子空间，关系 $\equiv_M$ 具有下面两个同余性质的等价关系。

如果有 $u_1 \equiv_M v_1$ 和 $u_2 \equiv_M v_2$ ，那么 $u_1 +u_2\equiv_M v_1+v_2$ ；
如果 $u \equiv_M v$ ，那么 $\lambda u \equiv_M \lambda v$ ；

由子集的加法和标量的乘法可以证明上面的结论，同时也就表明我们可以在上面集合所定义的关系中定义加法和标量乘法。

定义3.25 对于给定的向量空间 $E$ ，并令 $M$ 为其任意一个子空间，我们在集合 $E/M$ 的关系 $\equiv_M$ 下定义加法和标量乘法操作：对于两个等价类 $[u],[v] \in E/M$ ，我们有
$[u]+[v]=[u+v]\\ \lambda[u]=[\lambda u]$
在上面的命题3.19中，我们的上述操作并不依赖于等价类 $[u],[v] \in E/M$ ，同时我们也可以证明 $E/M$ 是一个向量空间，函数 $\pi:E \rarr E/F$ 我们将其定义为对于每一个 $u \in E$ 都有 $\pi(u) =[u]$ ，即一个满射的线性映射，我们称为 $E$ 向 $E/F$ 空间的一个自然投影 (natural projection)。向量空间 $E/M$ 也被称为在子空间 $M$ 中的 $E$ 的商空间（Quotient Space）

对于一个线性映射 $f:E \rarr F$ ，我们定义 $Ker f$ 为 $E$ 的子空间。所以根据上面的知识， $Imf$ 和商空间 $E/Kerf$ 同构。

3.9 线性形式和对偶空间

定义3.26 对于一个给定的向量空间 $E$ ，线性映射 $E \rarr K$ 对应的向量空间 $Hom(E,K)$ 被称为 $E$ 的对偶空间（dual space），可以表示为 $E^*$ ，同时在 $E^*$ 中的线性映射被称为线性形式（linear forms）或者余向量（covectors）。 $E^*$ 对应的对偶空间 $E^{**}$ 被称为 $E$ 的二次对偶（bidual）。

我们也可以将线性形式 $f:E \rarr K$ 用星号表示，即 $u^*,x^*$ 等。

如果 $E$ 是一个 $n$ 维的向量空间，且其基为 $(u_1,..,u_n)$ ，对于任意的线性形式 $f^* \in E^*$ ，对于任意的线性组合 $x=x_1u_1+…+x_nu_n \in E$ ，我们有
$f^*(x)=f^*(u_1)x_1+...+f^*(u_n)x_n=\lambda_1x_1+...+\lambda_nx_n$
因此，关于基 $(u_1,…u_n)$ 线性组合 $f^*$ 可以用行向量表示
$（\lambda_1...\lambda_n）$
所以我们有
$f^*(x)=（\lambda_1...\lambda_n）\left( \begin{matrix} x_1\\ \vdots \\ x_n \end{matrix} \right)$
我们可以将线性组合 $f^*$ 视为线性等式，我们可以用一个列向量表达系数，即
$c=\left( \begin{matrix} c_1\\ \vdots \\ c_n \end{matrix} \right)$
所以我们可以将上面的线性组合 $f^*$ 表达为
$f^*(x)=c^Tx$
这种表达方式也就是我们在机器学习中常见的表达方式，下面是例子：

例子1 对于任意的可微函数 $f:\R^n \rarr \R$ ，对于任意的 $x \in \R^n$ ，其对应的在 $x$ 处的导数（derivation） $df_x$ 可以用上面的线性形式表示，即对于所有的 $u=(u_1,…u_n)$ ：
$df_x（u）=(\frac{\partial f}{\partial x_1}(x)...\frac{\partial f}{\partial x_n}(x))\left( \begin{matrix} u_1\\ \vdots \\ u_n \end{matrix} \right)= \sum_{i=1}^n\frac{\partial f}{\partial x_i}(x)u_i$
所以给出一个向量空间 $E$ 和其任意的基 $(u_i)_{i \in I}$ ，我们都可以联系到每一个 $u_i$ 对应的线性形式。并且这些 $u_i^*$ 有一些性质。

例子2 在 $C([0,1])$ 这个向量空间中定义一个连续的函数 $f:[0,1] \rarr \R$ ，其对应的映射 $L:C([0,1]) \rarr \R$ 定义如下：对于任意的 $f \in C[0,1]$
$L(f)=\int^1_0{f(x)}{\rm d}x$
其为一个线性形式，由于其为连续的，所以其也就是积分的形式。

例子3 考虑一个实数矩阵 $n \times n$ 对应的向量空间 $M_n(\R)$ ，设一个函数为 $tr:M_n(\R) \rarr \R$ ，具体的定义为
$tr(A) = a_{11}+a_{22}+...+a_{nn}$
这个表达被称为矩阵 $A$ 的迹（trace），其也是一个线性形式。为了更清楚的表示其线性形式，我们将其写为
$s(A) = \sum_{i,j=1}^na{ij}$
其中 $A=(a_{ij})$ 。

定义3.27 对于一个线性空间 $E$ 和其对应的基 $(u_i)_{i \in I}$ ，对于每一个 $i \in I$ 都有唯一的线性形式 $u_i^*$ ，其形式为：
$u_i^*(u_j)=\left\{\begin{array}{cc} 1, & if\ i = j\\ 0, & if\ i \ne j \end{array}\right.$
这种线性形式 $u_i^*$ 被称为关于索引 $i$ 的坐标形式（coordinate form），可以写为基 $(u_i)_{i \in I}$ 。

Note：对于一个索引集 $I$ ，我们通常定义其为“Kronecker symbo”，即 $\delta_{ij}$
$\delta_{ij}=\left\{\begin{array}{cc} 1, & if\ i = j\\ 0, & if\ i \ne j \end{array}\right.$
即 $u_i^*$ 是在坐标系中的第 $i$ 个坐标对应的线性函数。

定理3.20 （对偶基的存在性定理）令 $E$ 为一个 $n$ 维的向量空间，那么有以下的性质：对于每一个 $E$ 的基 $(u_1,…,u_n)$ ，坐标形式的 $E^*$ 的基 $(u_1^*,…,u_N^*)$ 被称为 $(u_1,…,u_n)$ 的对偶基。

特别地，我们也可以看出对于一个有限维度的向量空间，其对偶空间 $E^*$ 拥有和原向量空间 $E$ 相同的维度。

3.10 第三章知识和定义的总结

下面是一些第三章的关键概念和结论：

向量空间的概念
向量的集合、簇
向量的线性组合；线性独立和线性相关
线性子空间
生成空间，有限生成子空间；子空间的基
任意线性独立的向量集合都可以扩展成一个基
置换引理
当且仅当一个向量集是在空间中最大的线性独立的向量集而且最小的生成集合，那么他就是空间的一组基
任意的两个可生成有限线性空间的基有相同的维度
超平面
每个向量在一组基上都有唯一的表示(根据它的坐标)
矩阵
列向量、行向量
矩阵计算：加法、标量乘法、矩阵乘法
线性映射的概念
$m \times n$ 的在区域 $K$ 上的矩阵对应的向量空间 $M_{m,n}(K)$ ， $n \times n$ 的在区域 $K$ 上的矩阵对应的空间 $M_{n}(K)$
线性映射的象 $Im f$
线性映射的核 $Ker f$
线性映射的秩 $rank(f)$
线性映射的象和核都是子空间，一个线性映射是单射，当且仅当其核为平凡空间(0)
商空间
线性映射 $Hom_K(E,F)$ 的向量空间
线性映射关于基的唯一同态扩展性质
线性形式以及对偶空间
坐标形式
在有限维中的对偶基的存在性