L4-数字特征：期望、方差、协方差、相关系数等

数字特征是指能够刻画随机变量某些方面的性质特征的量。

（1）期望（mean）

期望也就是均值，是概率加权下的“平均值”，反映的是随机变量平均取值大小。
连续型： $E(X)=\int_{-\infty}^{\infty} xf(x)\, dx$ 离散型： $E(X) = \sum_{i} x_ip_i$ 期望的性质：假设C为一个常数，X和Y维两个随机变量，则

$E(C)=C$
$E(CX)=CE(X)$
$E(X+Y)=E(X)+E(Y)$
$X$ 和 $Y$ 相互独立 ⇔ $E(X+Y)=E(X)+E(Y)$

（2）方差（Variance）

方差衡量随机变量或一组数据离散程度的度量，用来度量随机变量和其期望均值之间的偏离程度。
连续型： $D(X) = \int_{a}^{b} (x-\mu)^2 f(x)\, dx$ 离散型： $D(X) = \sum_{i=1}^{n} (x_i-\mu)^2p_i$ 根据期望的定义，
$D(X)=E((X-E(X))^2 )=E(X^2 )-(E(X))^2$

假设C为一个常数，X和Y是两个随机变量，那么方差有以下性质：

$D(C)=0$
$D(CX)=C^2 D(X)$
$D(C+X)=D(X)$

常见分布的期望与方差

在这里插入图片描述

（3）标准差（Standard Deviation）

$\sigma = \sqrt{(D(X))}$

（4）协方差（Covariance）

协方差用于衡量两个变量的总体误差；当两个变量相同时，协方差就是方差。

$\begin{aligned}Cov(X,Y) & = E\{(X-E(X))(Y-E(Y))\} \\ & = E[XY-XE(Y)-YE(X)+E(X)E(Y)] \\ & = E(XY)-E(X)E(Y) \end{aligned}$

协方差是两个随机变量具有相同方向变化趋势的度量：

若 $Cov(X,Y)>0$ ，则 $X$ 和 $Y$ 变化趋势相同；
若 $Cov(X,Y)>0$ ，则 $X$ 和 $Y$ 变化趋势相反；
若 $Cov(X,Y)=0$ ，则 $X$ 和 $Y$ 不相关。

假设 $C$ 为一个常数， $X$ 和 $Y$ 是两个随机变量，那么方差有以下性质：

$Cov(X,Y)=Cov(Y,X)$
$Cov(aX,bY)=abCov(X,Y)$
$Cov(X_1+X_2,Y)=Cov(X_1,Y)+Cov(X_2,Y)$

根据方差定义， $D(X±Y)=D(X)+D(Y)±2Cov(X,Y)$

扫描二维码关注公众号，回复： 11346598 查看本文章

如果X和Y相互独立，则 $Cov(X,Y)=0$ ，此时 $D(X±Y)=D(X)+D(Y)$ 。
如果 $Cov(X,Y)=0$ ，则 $X$ 和 $Y$ 不相关（不能推出不独立）。

协方差矩阵

$n$ 个随机向量 $\{X_1,X_2,X_3,…,X_n\}$ ，任意两个元素 $x_i$ 和 $x_j$ 都可以得到一个协方差，从而形成一个 $n*n$ 的矩阵，该矩阵称为协方差矩阵，协方差矩阵为对称矩阵。

$C = \begin{bmatrix}c_{11} & c_{12}& ... & c_{1n}\\ c_{11} & c_{12}& ... & c_{1n} \\ \vdots & \vdots& \ddots & \vdots \\ c_{n1} & c_{n2}& ... & c_{nn}\end{bmatrix}$

$c_{ij}=E\{[X_i-E(X_i )][X_j-E(X_j )]\}=Cov(X_i,X_j)$

（5）Pearson相关系数

$\rho (X,Y)= \frac{Cov(X,Y)}{(\sigma_X \sigma_Y )}$
$-1 \leq \rho(X,Y) \leq 1$

$\rho(X,Y)>0$ ，则 $X$ 和 $Y$ 正相关；
$\rho(X,Y)=0$ ，则 $X$ 和 $Y$ 相互独立，并且不存在相关性；
$\rho(X,Y)<0$ ，则 $X$ 和 $Y$ 负相关。

（6）原点矩与中心矩

假设 $X$ 和 $Y$ 是随机变量，若 $E(X^k ),k=1,2,…$ 存在，则称它为 $X$ 的 $k$ 阶原点矩，简称 $k$ 阶矩。

若 $E{[X-E(X)]^k },k=1,2,…$ 存在，则称它为 $X$ 的 $k$ 阶中心矩。
若 $E{[X-c]^k },k=1,2,…$ 存在，则称它为 $X$ 关于点 $c$ 的 $k$ 阶矩。
若 $E{X^k Y^p },k、p=1,2,…$ 存在，则称它为 $X$ 和 $Y$ 的 $k+p$ 阶混合原点矩。
若 $E{[X-E(X)]^k [Y-E(Y)]^p },k、p=1,2,…$ 存在，则称它为 $X$ 和 $Y$ 的 $k+p$ 阶混合中心矩。

$E(X)$ 是 $X$ 的一阶原点矩； $D(X)$ 是 $X$ 的二阶中心矩； $Cov(X,Y)$ 是 $X$ 和 $Y$ 的二阶混合中心矩。

（7）峰度（peakedness; kurtosis）

峰度又称峰态系数。表示了概率密度分布曲线在平均值处峰值高低的特征数，反映了峰部的尖度。
$kurtosis= \frac {\sum_{i=1}^N(x-\bar{x})^4}{(N-1)\sigma^4}$
$\sigma$ 为方差。

（8）偏度（skewness）

偏度描述分布偏离对称性程度的特征数，当分布左右对称时，偏度系数为0；当偏度系数大于0时，即重尾在右侧时，该分布为右偏；当偏度系数小于0时，即重尾在左侧时，该分布为左偏。
$skewness=\frac {\sum_{i=1}^N(x-\bar{x})^3}{(N-1)\sigma^3}$
$\sigma$ 为方差。