协方差矩阵的含义

原文链接：https://www.cnblogs.com/bingjianing/p/9117330.html

在数据建模时，经常会用到多元高斯分布模型，下面就这个模型的公式并结合它的几何意义，来做一个直观上的讲解。

1，标准高斯函数

高斯函数标准型：

$f (x) = \frac{1}{\sqrt{2 π}} e^{- \frac{x^{2}}{2}}$

这个函数描述了变量 x 的一种分布特性，变量x的分布有如下特点：

Ⅰ，均值 = 0

Ⅱ，方差为1

Ⅲ，概率密度和为1

2，一元高斯函数一般形式

一元高斯函数一般形式：

$f (x) = \frac{1}{\sqrt{2 π} σ} e^{- \frac{(x - μ)^{2}}{2 σ^{2}}}$

我们可以令：

$z = \frac{x - μ}{σ}$

称这个过程为标准化，不难理解， $z \sim N (0, 1)$

，从z -> x的过程如下：

Ⅰ，将 x 向右移动 μ 个单位

Ⅱ，将密度函数伸展 σ 倍

而标准化(x -> z)所做的事情就是上述步骤的逆向

唯一不太好理解的是前面 $\frac{1}{\sqrt{2 π} σ}$

中的σ，为什么这里多了一个 σ，不是 2σ 或其他？

当然，这里可以拿着概率密度函数的性质，使用微积分进行积分，为了保证最终的积分等于1，这里必须是 σ

这里我想说一下自己的直观感受：

实线代表的函数是标准高斯函数：

$f (x) = \frac{1}{\sqrt{2 π}} e^{- \frac{x^{2}}{2 \times 2^{2}}}$

虚线代表的是标准高斯函数在 x 轴方向2倍延展，效果如下：

A(x = 1) -> D(x = 2)

E(x = 1.5) -> F(x = 3)

G(x = 2) -> H(x = 4)

横向拓宽了，纵向还是保持不变，可以想象，最后的函数积分肯定不等于1

采用极限的思想，将 x 轴切分成无穷个细小的片段，每个片段可以与函数围城一个区域，因为我的切分足够小，这个区域的面积可以近似采用公式：面积 = 底 × 高求得：

从 AQRS -> DTUV，底乘以2倍，高维持不变，所以，要保持变化前后面积不变，函数的高度应该变为原来的 1/2

所以高斯函数在 x 轴方向做2倍延展的同时，纵向应该压缩为原来的一半，才能重新形成新的高斯分布函数

扩展到一般情形，x 轴方向做 σ 倍延拓的同时， y 轴应该压缩 σ 倍（乘以 1/σ）

3, 独立多元正态分布

先假设n个变量 $x = {[\begin{matrix} x_{1}, x_{2}, \dots, x_{n} \end{matrix}]}^{T}$

互不相关，且服从正态分布（维度不相关多元正态分布），各个维度的均值 $E (x) = {[\begin{matrix} μ_{1}, μ_{2}, \dots, μ_{n} \end{matrix}]}^{T}$

根据联合概率密度公式：

$f (x) = p (x_{1}, x_{2} . . . . x_{n}) = p (x_{1}) p (x_{2}) . . . . p (x_{n}) = \frac{1}{(\sqrt{2 π})^{n} σ_{1} σ_{2} \dots σ_{n}} e^{- \frac{(x_{1} - μ_{1})^{2}}{2 σ_{1}^{2}} - \frac{(x_{2} - μ_{2})^{2}}{2 σ_{2}^{2}} \dots - \frac{(x_{n} - μ_{n})^{2}}{2 σ_{n}^{2}}}$

令 $z^{2} = \frac{(x_{1} - μ_{1})^{2}}{σ_{1}^{2}} + \frac{(x_{2} - μ_{2})^{2}}{σ_{2}^{2}} \dots + \frac{(x_{n} - μ_{n})^{2}}{σ_{n}^{2}}$

$E (x) = {[\begin{matrix} μ_{1}, μ_{2}, \dots, μ_{n} \end{matrix}]}^{T}$

这样多元正态分布又可以写成一元那种漂亮的形式了(注意一元与多元的差别)：

$f (z) = \frac{1}{(\sqrt{2 π})^{n} σ_{z}} e^{- \frac{z^{2}}{2}}$

因为多元正态分布有着很强的几何思想，单纯从代数的角度看待z很难看出z的概率分布规律，这里需要转换成矩阵形式：

$z^{2} = z^{T} z = [\begin{matrix} x_{1} - μ_{1}, x_{2} - μ_{2}, \dots, x_{n} - μ_{n} \end{matrix}] [\begin{matrix} \frac{1}{σ_{1}^{2}} & 0 & \dots & 0 \\ 0 & \frac{1}{σ_{2}^{2}} & \dots & 0 \\ ⋮ & \dots & \dots & ⋮ \\ 0 & 0 & \dots & \frac{1}{σ_{n}^{2}} \end{matrix}] {[\begin{matrix} x_{1} - μ_{1}, x_{2} - μ_{2}, \dots, x_{n} - μ_{n} \end{matrix}]}^{T}$

等式比较长，让我们要做一下变量替换：

$x - μ_{x} = {[\begin{matrix} x_{1} - μ_{1}, x_{2} - μ_{2}, \dots, x_{n} - μ_{n} \end{matrix}]}^{T}$

定义一个符号

$\sum_{}^{} = [\begin{matrix} σ_{1}^{2} & 0 & \dots & 0 \\ 0 & σ_{2}^{2} & \dots & 0 \\ ⋮ & \dots & \dots & ⋮ \\ 0 & 0 & \dots & σ_{n}^{2} \end{matrix}]$

$\sum_{}^{}$

$E (x) = {[\begin{matrix} μ_{1}, μ_{2}, \dots, μ_{n} \end{matrix}]}^{T}$

的协方差

因为现在变量之间是相互独立的，所以只有对角线上 (i = j)存在元素，其他地方都等于0，且 $x_{i}$

与它本身的协方差就等于方差

$\sum_{}^{}$

是一个对角阵，根据对角矩阵的性质，它的逆矩阵：

$((\sum_{}^{})^{- 1} = [\begin{matrix} \frac{1}{σ_{1}^{2}} & 0 & \dots & 0 \\ 0 & \frac{1}{σ_{2}^{2}} & \dots & 0 \\ ⋮ & \dots & \dots & ⋮ \\ 0 & 0 & \dots & \frac{1}{σ_{n}^{2}} \end{matrix}]$

对角矩阵的行列式 = 对角元素的乘积

$σ_{z} = {| \sum_{}^{} |}^{\frac{1}{2}} = σ_{1} σ_{2} . . . . . σ_{n}$

替换变量之后，等式可以简化为：

$z^{T} z = (x - μ_{x})^{T} \sum_{}^{- 1} (x - μ_{x})$

代入以z为自变量的标准高斯分布函数中：

$f (z) = \frac{1}{(\sqrt{2 π})^{n} σ_{z}} e^{- \frac{z^{2}}{2}} = \frac{1}{(\sqrt{2 π})^{n} {| \sum_{}^{} |}^{\frac{1}{2}}} e^{- \frac{(x - μ_{x})^{T} (\sum_{})^{- 1} (x - μ_{x})}{2}}$

注意前面的系数变化：从非标准正态分布->标准正态分布需要将概率密度函数的高度压缩 $| \sum_{}^{} |^{\frac{1}{2}}$

$E (x) = {[\begin{matrix} μ_{1}, μ_{2}, \dots, μ_{n} \end{matrix}]}^{T}$

倍

维度不相关正太分布函数图像类似这样（以二元分布函数为例）：

4, 相关多元正态分布

前面也说了，我们讨论多元正态分布的前提是多元变量之间是相互独立的，实际上，有很多应用场合，变量与变量之间是有关联的。以二元正态分布为例：

向输入平面作投影后的平面图：

以现在的坐标系来看，X1，X2是相关的，但是如果我们换一个角度，它们就是互不相关的了：

上述过程被称为去相关性，更专业一点叫做归化

假设新坐标系 $x_{1}^{'} = {[\begin{matrix} u_{x 1}^{0}, u_{x 1}^{1} \end{matrix}]}^{T}$

$E (x) = {[\begin{matrix} μ_{1}, μ_{2}, \dots, μ_{n} \end{matrix}]}^{T}$

投影到新坐标系上的结果为：

$[\begin{matrix} x_{1}^{'} \\ x_{2}^{'} \end{matrix}] = [\begin{matrix} u_{x 1}^{0}, u_{x 1}^{1} \\ u_{x 2}^{0}, u_{x 2}^{1} \end{matrix}] [\begin{matrix} x_{1} \\ x_{2} \end{matrix}]$

为了简单起见，定义矩阵：

$U = [\begin{matrix} u_{x 1}^{0}, u_{x 2}^{0} \\ u_{x 1}^{1}, u_{x 2}^{1} \end{matrix}]$

U的列空间由新坐标向量组成，坐标映射之后：

$X^{'} = U^{T} X$

现在我们的自变量X’是相互独立的了，满足维度不相关高斯分布模型，现在我们想套用公式：

$f (z) = \frac{1}{(\sqrt{2 π})^{n} σ_{z}} e^{- \frac{z^{2}}{2}} = \frac{1}{(\sqrt{2 π})^{n} {| \sum_{}^{} |}^{\frac{1}{2}}} e^{- \frac{(x - μ_{x})^{T} (\sum_{})^{- 1} (x - μ_{x})}{2}}$

$x - > x^{'}$

$E (x) = {[\begin{matrix} μ_{1}, μ_{2}, \dots, μ_{n} \end{matrix}]}^{T}$

应该是X’的协方差，我们已知X，已知映射矩阵，如何求解X’的协方差？

从定义出发：

$μ_{x^{'}} = E [U^{T} X] = U^{T} E [x] = U^{T} μ_{x}$

$E (x) = {[\begin{matrix} μ_{1}, μ_{2}, \dots, μ_{n} \end{matrix}]}^{T}$

映射之后的协方差：

$\begin{aligned} σ (X^{'}) & = E [(X^{'} - μ_{X^{'}}) (X^{'} - μ_{X^{'}})^{T}] \\ = E [(X^{'} - μ_{X^{'}}) (X^{' T} - μ_{X^{'}}^{T})] \\ = E [X^{'} X^{' T} - μ_{X^{'}} X^{' T} - X^{'} μ_{X^{'}}^{T} + μ_{X^{'}} μ_{X^{'}}^{T}] \\ = E [U^{T} X X^{T} U - E [U^{T} X] X^{T} U - U^{T} X E [U^{T} X]^{T} + E [U^{T} X] E [U^{T} X]^{T}] \\ = U^{T} E [X X^{T} - E (X) X^{T} - X E [X]^{T} + E [X] E [X]^{T}] U \\ = U^{T} σ (X) U \end{aligned}$

坐标映射前后的协方差矩阵满足关系：

$(\sum_{}^{})_{x^{'}} = U^{T} (\sum_{}^{})_{x} U$

$E (x) = {[\begin{matrix} μ_{1}, μ_{2}, \dots, μ_{n} \end{matrix}]}^{T}$

再进一步观察，U的列向量是单位向量，而且是相互正交的，U是正交矩阵， $U^{T} = U^{- 1}$

$(\sum_{}^{})_{x^{'}} = U^{- 1} (\sum_{}^{})_{x} U$

也就是说 $(\sum_{}^{})_{x^{'}}$

$E (x) = {[\begin{matrix} μ_{1}, μ_{2}, \dots, μ_{n} \end{matrix}]}^{T}$

的相似矩阵，相似矩阵的行列式相等

$| (\sum_{}^{})_{x^{'}} | = | (\sum_{}^{})_{x} |$

$E (x) = {[\begin{matrix} μ_{1}, μ_{2}, \dots, μ_{n} \end{matrix}]}^{T}$

并且还有一个重要结论：

$(\sum_{}^{})_{x^{'}}^{- 1} = (U^{T} (\sum_{}^{})_{x} U)^{- 1} = (U^{- 1} (\sum_{}^{})_{x} U)^{- 1} = U^{- 1} (\sum_{}^{})_{x}^{- 1} U = U^{T} (\sum_{}^{})_{x}^{- 1} U$

$E (x) = {[\begin{matrix} μ_{1}, μ_{2}, \dots, μ_{n} \end{matrix}]}^{T}$

有了上述1、2、3、4四个结论，我们就可以放心套用标准化公式了：

$\begin{aligned} f (z) & = \frac{1}{(\sqrt{2 π})^{n} σ_{z}} e^{- \frac{z^{2}}{2}} \\ = \frac{1}{(\sqrt{2 π})^{n} {| (\sum_{}^{})_{x}^{'} |}^{\frac{1}{2}}} e^{- \frac{(x^{'} - μ_{x^{'}})^{T} (\sum_{})_{x^{'}}^{- 1} (x^{'} - μ_{x^{'}})}{2}} \\ = \frac{1}{(\sqrt{2 π})^{n} {| (\sum_{}^{})_{x} |}^{\frac{1}{2}}} e^{- \frac{(U^{T} x - U^{T} μ_{x})^{T} U^{T} (\sum_{})_{x}^{- 1} U (U^{T} x - U^{T} μ_{x})}{2}} \\ = \frac{1}{(\sqrt{2 π})^{n} {| (\sum_{}^{})_{x} |}^{\frac{1}{2}}} e^{- \frac{(x - μ_{x})^{T} (\sum_{})_{x}^{- 1} (x - μ_{x})}{2}} \end{aligned}$

总结一下我们做了什么。

Ⅰ，我们先定义了新的坐标系，通过矩阵 $U^{T}$

将元素映射到新的坐标系，目的是去相关性

Ⅱ，在新的坐标下，我们定义了新的期望、协方差、协方差的逆，他们都可以通过 $U$

$E (x) = {[\begin{matrix} μ_{1}, μ_{2}, \dots, μ_{n} \end{matrix}]}^{T}$

计算出来，当然我们不用计算

Ⅲ, 套用标准公式，将新的期望、协方差的逆、协方差的行列式代入，发现最后的结果与 $U$

$E (x) = {[\begin{matrix} μ_{1}, μ_{2}, \dots, μ_{n} \end{matrix}]}^{T}$

无关

为什么会这样？我的理解是这样：

前提条件：概率模型已经构建

假设空白平面上有一点A，这个点A是客观存在的，一旦A指定了，那么它的概率大小P(A)就已经确定了

现在我们添加了一个坐标系，添加坐标系的好处只是使得P(A)可以被量化 $P (A) = f (u 1, u 2)$

同理，使用其他坐标系，可以得到其他坐标系下的另外一种量化 $P (A) = f (v 1, v 2)$

不管使用哪个坐标系，A点的概率始终是不变的，所以 $f (u 1, u 2) = f (v 1, v 2)$

（感觉这有点像哲学问题哈）。

5, 实例分析

$\sum_{}^{} = [\begin{matrix} 1 & 0.8 \\ 0.8 & 1 \end{matrix}]$

这个图形与参数是如何对应的？

可以把那条假象的坐标轴线画出来，转换前后，坐标原点不变，很明显，这是一个旋转变换，假设坐标轴旋转的角度为θ，新的坐标向量矩阵将变为：

$U = [\begin{matrix} c o s θ & - s i n θ \\ s i n θ & c o s θ \end{matrix}]$

U的列空间组成了新坐标的坐标系

$U^{T} = [\begin{matrix} c o s θ & s i n θ \\ - s i n θ & c o s θ \end{matrix}]$

新坐标系下变量是不相关的，协方差矩阵为对角阵：

$(\sum_{}^{})_{n e w} = U^{T} \sum U = [\begin{matrix} c o s θ & s i n θ \\ - s i n θ & c o s θ \end{matrix}] [\begin{matrix} 1 & 0.8 \\ 0.8 & 1 \end{matrix}] [\begin{matrix} c o s θ & - s i n θ \\ s i n θ & c o s θ \end{matrix}] = [\begin{matrix} σ_{1}^{2} & 0 \\ 0 & σ_{2}^{2} \end{matrix}]$

计算可得： $θ = \frac{π}{4}$

代入计算新的协方差为：

$(\sum_{}^{})_{n e w} = [\begin{matrix} 1.8 & 0 \\ 0 & 0.2 \end{matrix}]$

得出的结论：新的坐标系是原坐标系经过 $θ = \frac{π}{4}$

$E (x) = {[\begin{matrix} μ_{1}, μ_{2}, \dots, μ_{n} \end{matrix}]}^{T}$

方向的方差为0.2，分布比较窄，整体表现为扁平。

同理，不难得出：

$\sum_{}^{} = [\begin{matrix} 1 & - 0.5 \\ - 0.5 & 1 \end{matrix}] \sum_{}^{} = [\begin{matrix} 1 & - 0.8 \\ - 0.8 & 1 \end{matrix}] \sum_{}^{} = [\begin{matrix} 3 & 0.8 \\ 0.8 & 1 \end{matrix}]$

--------------------------------------------------------------------------------------------------------------------------------------------------------------------------

协方差矩阵的含义

猜你喜欢