All of Statistics 第三章

统计学(三)期望(Expectation)

本章内容:

  • 3.1 随机变量的期望
  • 3.2 期望的性质
  • 3.3 方差(Variance)和协方差(Covariance)
  • 3.4 几个重要随机变量的期望和方差
  • 3.5 条件期望
  • 3.6 矩生成函数(Moment Generating Function)

关键名词,存在部分词不达意的情况,因此将关键名词整理如下

1. 期望:Expectation

2. 方差:Variance

3. 协方差:Covariance

4. 均值:Mean

5. 一阶矩:First Moment

6. 分部积分:Integration by parts

7. 无意识统计学家法则:Law of the unconscious statistician

8. 矩:Moment

9. 标准差:standard deviation

10. 样本均值: sample mean

11. 样本方差:sample variance

12. 相关性:correlation

13. 条件期望:Conditional Expectation

14. 期望迭代定理:The Rule of Iterated Expectations

15. 条件方差:Conditional Variance

16. 层次模型:hierarchical model

17. 矩生成函数:Moment Generating Function

18. 拉普拉斯变换:Laplace transform

3.1 随机变量的期望 

随机变量X的均值(mean),期望(expectation)就是是X的平均数

3.1 定义

随机变量X的期望值(expected value),或者均值(mean),或者一阶矩(first moment)定义如下:

\mathbb{E}(X)=\int x dF(x)=\left\{\begin{matrix} \sum_xxf(x) & if \ X\ is \ discrete\\ \int xf(x)dx& if \ X \ is \ continuous \end{matrix}\right.

其中,假定求和(或者积分)符合定义.我们使用下面的式子表示X的期望值:

\mathbb{E}(X)=\mathbb{E}X=\int xdF(x)=\mu=\mu_X

 期望是对分布的一种单值概括.将\mathbb{E}(X)视为许多独立同步分布的X1,X2,...Xn的平均值\sum_{i=1}^nX_i/n.事实上,将\mathbb{E}\approx \sum_{i=1}^nX_i/n不仅仅是一种启发,而且还是一种被称为大数定律的定理.它将在第五章中介绍.

符号\int x dF(x)需要做一些说明.我们使用它仅仅是作为一种方便的统一的符号,这样我们就不必为离散随机变量写成\sum_x xf(x),为连续随机变量写成\int xf(x)dx.但是你应该知道,这个符号在实际的分析课程中,有精确的含义.

为了保证\mathbb{E}(X)符合定义,如果\int |x|dF_X(x) < \infty,我们就说\mathbb{E}(X)存在.否则我们就说期望不存在.

3.2 例子

X \sim Bernoulli(p),那么\mathbb{E}(X)=\sum_{x=0}^1xf(x)=(0 \times (1-p))+(1 \times p) = p

3.3 例子

抛硬币,两次.设X是正面朝上的次数.那么

\mathbb{E}(X)=\int xdF_X(x) = \sum_x xf_X(x)=(0 \times f(0))+(1 \times f(1)) +(1 \times f(2))=(0 \times (1/4))+(1 \times (1/2))+(2 \times (1/4)) =1

3.4 例子

X \sim Unifrom(-1,3),那么,

\mathbb{E}(X)=\int xdF_X(x)=\int xf_X(x)dx =\frac{1}{4}\int_{-1}^3xdx=1

3.5 例子

回顾一下,如果一个随机变量服从柯西分布,那么它就有如下的密度函数:

f_X(x)=\left \{ \pi(1+x^2) \right \}^{-1}

使用分部积分法(integration by parts)(令u=x,v=\tan^{-1}x),得

\int |x|dF(x)=\frac{2}{\pi}\int_0^\infty\frac{xdx}{1+x^2}=[xtan^{-1}x]_0^\infty-\int_0^\infty\tan^{-1}xdx=\infty

因此均值不存在.如果你多次模拟柯西分布并取平均值,你会发现平均值永远不会稳定下来.这是因为柯西分布具有厚尾(thick tails)特性,因此极端观测值很常见。

从现在开始,每当我们讨论期望值时,我们会默认它们是存在的。

Y=r(X),那么怎么计算\mathbb{E}(Y)呢?一种方法是找到f_Y(y)然后通过\mathbb{E}(Y)=\int yf_Y(y)dy.但还有更容易得方法.

3.6 定理

无意识统计学家法则(Law of the unconscious statistician).设Y=r(X),那么

\mathbb{E}(Y) = \mathbb{E}(r(X))=\int r(x)dF_X(x)

这个结果是符合直觉的.考虑我们玩一个游戏的情况,在游戏中你随机抽取X,然后我支付给你Y=r(X).你的平均收入是r(X)乘以X=x的概率,在x上面求和(或者积分).这里有一个特例,设A是一个事件.并且令r(x)=I_A(x),如果x \in A,I_A(x)=1x \notin A,I_A(x) = 0,那么:

E(I_A(x))=\int I_A(x)f_X(x)dx=\int_Af_X(x)dx=\mathbb{P}(X\in A)

换句话说,概率是期望的一种特例.

3.7 例子

X \sim Unif(0,1),Y=r(X)=e^X,那么\mathbb{E}(Y)=\int_0^1e^xf(x)dx=\int_0^1e^xdx=e-1.

或者,你可以求出f_Y(y),在1 < y < e的情况下,它为f_Y(y)=1/y.那么

\mathbb{E}(Y)=\int_1^eyf(y)dy=e-1

3.8 例子 

拿一根单位长度的棍子,随机折断它。设 Y 为较长部分的长度.那么Y的均值是多少?如果X是这断的点那么X \sim Unif(0,1).此时Y=r(X)=max\left \{ X,1-X \right \}.因此,当0 < x < 1/2r(x)=1-x.当1/2 \leq x <1时,r(x)=x.所以:

\mathbb{E}(Y)=\int r(x)dF(x)=\int _0^{1/2}(1-x)dx+\int_{1/2}^1xdx=\frac{3}{4}

多变量函数用同样的方法处理.如Z=r(X,Y)那么:

\mathbb{E}(Z)=\mathbb{E}(r(X,Y))=\int\int r(x,y)dF(x,y) 

3.9 例子 

设(X,Y)在单位正方形上,服从联合均匀分布.再设Z=r(X,Y)=X^2+Y^2,那么:

\mathbb{E}(Z)=\int\int r(x,y)dF(x,y)=\int_0^1\int_0^1(x^2+y^2)dxdy\\\\=\int_0^1x^2dx+\int_0^1y^2dy=\frac{2}{3}

X的第k阶矩(moment) 被定义为:\mathbb{E}(X^k),其中,满足\mathbb{E}(|X|^k) < \infty

3.10 定理

如果第k阶矩存在,那么当j<k时,第j阶矩也存在

证明:

\mathbb{E}(|X|^j)=\int_{-\infty}^\infty|x|f_X(x)dx\\\\=\int_{|x|\leq1}|x|^jf_X(x)dx+\int_{|x| > 1}|x|^jf_X(x)dx\\\\ \leq \int_{|x|\leq1}f_X(x)dx+\int_{|x| > 1}|x|^kf_X(x)dx\\\\ \leq 1+\mathbb{E}(|X|^k) < \infty

第k阶中心矩被定义为:\mathbb{E}((X-\mu)^k)

3.2 期望的性质

3.11 定理

如果X1,...Xn是随机变量,并且a1,...an是常数,那么

\mathbb{E}(\underset{i}{\sum a_iX_i})=\underset{i}{\sum}a_i \mathbb{E}(X_i)

3.12 例子

设X服从X\sim Binomial(n,p),那么X的均值是多少,我们可以尝试用定义来求,如下:

\mathbb{E}(X)=\int x dF_X(x)=\sum xf(x)=\sum x\binom{n}{x}p^x(1-p)^{n-x}

上式子求和是比较难的.我们注意到X=\sum_{i=0}^n X_i.其中X_i可以表示为第i次抛硬币.当为正面时Xi=1,当为反面时Xi=0.那么\mathbb{E}(X_i)=p\times 1+(1-p)\times 0=p.因此:

\mathbb{E}(X)=\mathbb{E}(\sum X_i)=\sum \mathbb{E}(X_i)=np

3.13 定理

设X1,...Xn是独立随机变量,那么:

\mathbb{E}(\overset{n}{\underset{i=1}\prod }X_i)=\underset{i}\prod\mathbb{E}(X_i)

注意:上面的求和规则,不要求随机变量独立.但是乘积规则则需要随机变量独立

3.3 方差和协方差(Variance and Covariance)

方差衡量了分布的"分布(spread)"程度.(译者注:双引号的"分布"程度,也即分布的集中还是扩散).

3.14 定理

设X是均值为μ的随机变量X.X的方差被定义如下,记作:\sigma^2 or \sigma_X^2 or \mathbb{V}(X) or \mathbb{V}X:

\sigma^2=\mathbb{E}(X-\mu)^2=\int (x-\mu)^2dF(x)

如果这个期望存在,那么标准差(standard deviation)为sd(X)=\sqrt{\mathbb{V}(X)},记作\sigma or \sigma_X

3.15 定理

如果方差存在且满足定义,那么它具有如下的性质:

1. \mathbb{V}(X)=\mathbb{E}(X^2)-\mu^2

2. 如果a和b是常数,那么\mathbb{V}(aX+b)=a^2\mathbb{E}(X)

3. 如果X1..Xn是独立的,且a1,...,an是常数,那么

\mathbb{V}(\overset{n}{\underset{i=1}{\sum}}a_iX_i)=\overset{n}{\underset{i=1}{\sum}}a_i^2\mathbb{V}(X_i)

3.16 例子

设X服从二项分布X \sim Binomial(n,p).我们记X=\sum_iX_i,其中,当正面朝上时,Xi=1,否则Xi=0.且Xi都是独立随机变量.同时,\mathbb{P}(X_i=1)=p,\mathbb{P}(X_i=0)=1-p.可得

\mathbb{E}(X_i)=p\times 1+(1-p)\times 0=p

现在

\mathbb{E}(X_i^2)=p\times 1^2+(1-p)\times 0^2=p

因此:\mathbb{V}(X_i)=\mathbb{E}(X_i^2)-p^2=p-p^2=p(1-p).最后\mathbb{V}(X)=\mathbb{V}(\sum_iX_i)=\sum_i\mathbb{V}(X_i)=\sum_ip(1-p)=np(1-p)

注意:如果p=0,或p=1,那么\mathbb{V}(X)=0

如果X1..Xn是随机变量,那么我们可以定义样本均值(sample mean)为:

\bar{X_n}=\frac{1}{n}\overset{n}{\underset{i=1}{\sum}}X_i

样本方差(sample variance)定义为:

S_n^2=\frac{1}{n-1}\overset{n}{\underset{i=1}{\sum}}(X_i - \bar{X_n})^2

3.17 定理

设X1,...Xn是独立同分布的随机变量,且\mu=\mathbb{E}(X_i),\sigma^2=\mathbb{V}(X_i).那么

\mathbb{E}(\bar{X}_n)=\mu,\mathbb{V}(\bar{X}_n)=\frac{\sigma^2}{n},\mathbb{E}(S_n^2)=\sigma^2

如果X和Y是随机变量,那么X和Y之间的协方差和相关性衡量了X和Y之间的线性关系有多强。

3.18 定义

设X和Y是均值为\mu_X,\mu_Y,标准差为\sigma_X,\sigma_Y的随机变量.X,Y之间的协方差定义如下:

Cov(X,Y)=\mathbb{E}((X-\mu_X)(Y-\mu_Y))

相关性(correlation)被定义如下:

\rho =\rho_{X,Y}=\frac{Cov(X,Y)}{\sigma_X\sigma_Y}

3.19 定理

协方差满足:

Cov(X,Y)=\mathbb{E}(XY)-\mathbb{E}(X)\mathbb{E}(Y)

相关性满足:

-1 \leq \rho(X,Y) \leq 1

如果a,b是常数,Y=aX+b,那么当a>0时,\rho (X,Y) = 1;当a<0时\rho (X,Y) = -1

如果X和Y是独立的,那么Cov(X,Y)=\rho = 0.一般情况下,逆命题并不成立.

3.20 定理

\mathbb{V}(X+Y)=\mathbb{V}(X)+\mathbb{V}(Y)+2Cov(X,Y);\mathbb{V}(X-Y)=\mathbb{V}(X)+\mathbb{V}(Y)-2Cov(X,Y),更一般的情况下,对于多个随机变量X1..Xn有:

\mathbb{V}(\sum_ia_iX_i)=\sum_ia_i^2\mathbb{V}(X_i)+2\sum\sum_{i<j}a_ia_jCov(X_i,Y_j)

3.4 几个重要随机变量的期望和方差

下表收录了几个重要随机变量的期望:

前面我们已经推导了二项分布的期望和方差,其他分布的计算,请见课后习题

在上面表格中的最后两项是多元模型,它涉及向量X,格式如下:

X=\begin{pmatrix} X_1\\ \vdots \\ X_n\end{pmatrix}

随机向量X的均值定义如下:

\mu=\begin{pmatrix} \mu_1\\ \vdots \\ \mu_n \end{pmatrix}=\begin{pmatrix} \mathbb{E}(X_i)\\ \vdots \\ \mathbb{E}(X_n) \end{pmatrix}

方差协方差矩阵Σ被定义如下:

\mathbb{V}(X)=\begin{pmatrix} \mathbb{V}(X_1) & Cov(X_1,X_2) & \dots & Cov(X_1,X_k)\\ Cov(X_2,X_1)& \mathbb{V}(X_2) & \dots & Cov(X_2,X_k)\\ \vdots & \vdots & \vdots & \vdots \\ Cov(X_k,X_1) & Cov(X_k,X_2) & \dots & \mathbb{V}(X_k) \end{pmatrix}

X服从X \sim Multinomial(n,p),那么\mathbb{E}(X)=np=n(p_1,...p_k).

\mathbb{V}(X)=\begin{pmatrix} np_1(1-p_1) & -np_1p_2 & \dots & -np_1p_k\\ -np_2p_1 & np_2(1-p_2) & \dots & -np_2p_k\\ \vdots & \vdots & \vdots & \vdots\\ -np_kp_1 & -np_kp_2 & \dots & np_k(1-p_k) \end{pmatrix}

要理解这一点,需要注意向量任何元素的边缘分布满足二项分布X_i \sim Binomial(n,p_i).因此\mathbb{E}(X_i)=np_i,\mathbb{V}(X_i)=np_i(1-p_i),也应注意X_i+X_j \sim Binomial(n,p_i+p_j),所以\mathbb{V}(X_i+X_j)=n(p_i+p_j)(1-[p_i+p_j])换句话说使用和的方差公式可得\mathbb{V}(X_i+X_j)=\mathbb{V}(X_i)+\mathbb{V}(Y_i)+2Cov(X_i,X_j)=np_i(1-p_i)+np_j(1-p_j)+2Cov(X_i,X_j)

将上式与\mathbb{V}(X_i+X_j)=n(p_i+p_j)(1-[p_i+p_j])相等,求得Cov(X_i,X_j)=-np_ip_j.

最后,这有一个引理,可以用于求出多元随机向量的线性组合的均值和方差,这在某些情况下非常有用。

3.21 引理

如果a是一个向量,X是一个均值为μ,方差为Σ的随机向量.那么\mathbb{E}(a^TX)=a^T\mu,\mathbb{V}(a^TX)=a^T\Sigma a,如果A是一个矩阵,那么\mathbb{E}(AX)=A\mu,\mathbb{V}(AX)=A\Sigma A^T

3.5 条件期望(Conditional Expectation)

假定X,Y是随机变量,当Y=y时,X的均值是多少?答案就是我们按照之前的方法计算X的均值,但在期望的定义中,我们将f_X(x)的替代项更换为f_{X|Y}(X|Y)

3.22 定理

在给定Y=y的情况下,X的条件期望被定义为:

\mathbb{E}(X|Y=y)=\left\{\begin{matrix} \sum x f_{X|Y}(x|y) & ,discrete \ case\\ \int x f_{X|Y}(x|y)dx &,continuous \ case \end{matrix}\right.

如果r(x,y)是x和y的函数,那么

\mathbb{E}(r(X,Y)|Y=y)=\left\{\begin{matrix} \sum r(x,y)f_{X|Y}(x|y) & ,discrete \ case\\ \int r(x,y)f_{X|Y}(x|y)dx &,continuous \ case \end{matrix}\right.

警告:此处有一个细微点需要注意.虽然\mathbb{E}(X)是一个数值,但是\mathbb{E}(X|Y=y)是一个关于y的函数.在得到y值之前,我们并不知道\mathbb{E}(X|Y=y)的值,因此他是一个随机变量,记作\mathbb{E}(X|Y).换句话说\mathbb{E}(X|Y)是一个随机变量,它的值为\mathbb{E}(X|Y=y).同样地,\mathbb{E}(r(X,Y)|Y)也是一个随机变量,它的值为\mathbb{E}(r(X,Y)|Y=y).这是一个非常容易让人困惑的点,因此来看一个例子

3.23 例子

假定X服从均匀分布X\sim Unif(0,1).在X=x之后,Y|X=x \sim Unif(x,1).直观上,我们期望为\mathbb{E}(Y|X=x)=(1+x)/2,事实上,f_{Y|X}(y|x)=1/(1-x),x < y < 1.并且

\mathbb{E}(Y|X=x)=\int_x^1 yf_{Y|X}(y|x)dy=\frac{1}{1-x}\int _x^1 y dy= \frac{1+x}{2}

因此,\mathbb{E}(Y|X)=(1+X)/2.注意\mathbb{E}(Y|X)=(1+X)/2是一个随机变量,他的值为X=x时的值\mathbb{E}(Y|X=x)=(1+x)/2

3.24 定理(期望迭代定理(The Rule of Iterated Expectations))

对于随机变量X和Y来说,假定期望存在,那么我们就有:

\mathbb{E}[\mathbb{E}(Y|X)]=\mathbb{E}(Y),\mathbb{E}[\mathbb{E}(X|Y)]=\mathbb{E}(X)

更一般的情况下:

\mathbb{E}[\mathbb{E}(r(X,Y)|X)]=\mathbb{E}(r(X,Y))

证明:

我们使用条件期望和f(x,y)=f(x)f(y|x)证明第一个等式.

\mathbb{E}[\mathbb{E}(Y|X)]=\int \mathbb{E}(Y|X) f_X(x)dx = \int \int y f(y|x)dy f(x)dx =\int \int yf(y|x)f(x)dx dy= \int \int yf(x,y)dxdy = \mathbb{E}(Y)

3.25 例子

思考3.23 例子.怎么计算E(Y)?一个方法是找到联合密度函数f(x,y)然后计算\mathbb{E}(y)=\int\int y f(x,y)dx dy.另一个更简单的方法只需要两步.首先已经知道了\mathbb{E}(Y|X)=(1+X)/2,因此

\mathbb{E}(Y)=\mathbb{E}\mathbb{E}(Y|X)=\mathbb{E}(\frac{1+X}{2})=\frac{1+\mathbb{E}(X)}{2}=\frac{1+(1/2)}{2}=3/4

3.26 定义

条件方差(conditional variance)被定义如下:

\mathbb{V}(Y|X=x)=\int(y-\mu(x))^2 f(y|x) dy

其中,\mu(x)=E(Y|X=x)

3.27 定理

对于随机变量X和Y来讲:

\mathbb{V}(Y)=\mathbb{E}\mathbb{V}(Y|X)+\mathbb{V}\mathbb{E}(Y|X)

3.28 例子

从US中随机抽取一个县,然后再从这个县中随机抽取n个人.设X是这些人中患某种疾病的数量.如果用Q表示该县患有疾病的人口比例,那么Q也是一个随机变量,因为它因县而异。给定Q=q的情况下,我们有X \sim Binomial(n,p).因此\mathbb{E}(X|Q=q)=nq.\mathbb{V}(X|Q=q)=nq(1-q).假定随机变量Q服从均匀分布Uniform(0,1).像这样分阶段构建的分布被称为层次模型(hierarchical model),可以写成:

Q \sim Unifrom(0,1)

X|Q=q \sim Binomial(n,q)

现在\mathbb{E}(X)=\mathbb{E}\mathbb{E}(X|Q)=\mathbb{E}(nQ)=n\mathbb{E}(Q) = n/2.让我们计算X的方差.

现在\mathbb{V}(X)=\mathbb{E}\mathbb{V}(X|Q)+\mathbb{V}\mathbb{E}(X|Q),让我们来计算这两项

首先,\mathbb{E}\mathbb{V}(X|Q)=\mathbb{E}(nQ(1-Q))=n\mathbb{E}(Q(1-Q))=n\int q(1-q)f(q)dq = n\int _0^1 q(1-q)dq = n/6

接下来,\mathbb{V}\mathbb{E}(X|Q)=\mathbb{V}(nQ)=n^2\mathbb{V}(Q)=n^2\int (q-(1/2))^2dq=n^2/12

因此\mathbb{V}(X) =(n/6)+(n^2/12)

3.6 矩生成函数(Moment Generating Function) 

现在,我们将定义矩生成函数,它用于求矩、求随机变量和(sums of random variables)的分布,也用于某些定理的证明中

3.29 定义

矩生成函数(Moment Generating Function)MGF或者拉普拉斯变换(Laplace transform)定义如下:

\psi _X(t) = \mathbb{E}(e^{tx})=\int e^{tx}dF(x)

其中t在实数范围内变化

在下面的内容中,我们假定MGF在t=0附近的开区间内都有定义.

当MGF满足定义时,可以证明:可以交换微分和"取期望值"的操作。这得出

\psi '(0)=[\frac{d}{dt}\mathbb{E}(e^{tx})]=\mathbb{E}[\frac{d}{dt}e^{tx}]=\mathbb{E}(Xe^{tx})_{t=0}=\mathbb{E}(X)

通过进行k次导数运算,我们可以得出\psi ^{(k)}(0)=\mathbb{E}(X^k).这为我们提供了计算分布的矩的方法

3.30 例子

设X服从指数分布X \sim Exp(1),对于任何的t<1得:

\psi_X(t)=\mathbb{E}e^{tx}=\int_0^\infty e^{tx}e^{-x}dx=\int _0^\infty e^{(t-1)x}dx=\frac{1}{1-t}

如果t \geq 1,积分会发散.因此当t < 1 时,\psi _X(t) = 1/(1-t),现在\psi'(0)=1\ \ \psi''(0)=2,

因此,\mathbb{E}(X)=1,\mathbb{V}(X)=\mathbb{E}(X^2)-\mu^2=2-1=1

3.31 引理

MGF的性质有:

1. 如果Y=aX+b,那么\psi_Y(t)=e^{bt}\psi_X(at)

2. 如果X1,...Xn是独立的,且Y=\sum_iX_i,那么\psi_Y(t)=\prod _i\psi_i(t),其中\psi_i是Xi的MGF

3.32 例子

设X服从二项分布X \sim Binomial(n,p).我们知道X=\sum_{i=1}^nX_i,其中\mathbb{P}(X_i=1)=p,\mathbb{P}(X_i=0)=1-p.现在\psi_i(t)=\mathbb{E}e^{X_it}=(p\times e^t)+((1-p))=pe^t+q,其中q=1-p.

因此,\psi_X(t)=\prod _i\psi_i(t)=(pe^t+q)^n

回忆前面的内容,如果X和Y有相同的分布函数,那么我们就记作X \overset{d}{=} Y

3.33 定理

设X和Y是随机变量,如果在0点附近的开区间,对于所有的t,都有\psi_X(t)=\psi_Y(t),那么X \overset{d}{=} Y

3.34 例子

设X1服从二项分布X_1\sim Binomial(n_1,p),X2服从二项分布X_2\sim Binomial(n_2,p),且两个独立 .令Y=X1+X2,那么得:

\psi_Y(t) =\psi_1(t)\psi_2(t)=(pe^t+q)^{n_1}(pe^t+q)^{n_2}=(pe^t+q)^{n_1+n_2}

我们可以将这个认为二项分布Binomial(n1 + n2, p) 的矩生成函数。因为矩生成函数表征了分布(即,不存在另一个具有相同矩生成函数的随机变量).我们得出结论Y服从二项分布Y \sim Binomial(n_1+n_2,p)

3.35 例子

设Y1服从泊松分布Y_1 \sim Poisson(\lambda_1),Y2服从泊松分布Y_2 \sim Poisson(\lambda_2)且两者独立.Y=Y1+Y2的矩生成函数为:\psi_Y(t)=\psi_{Y_1}(t)\psi_{Y_2}(t)=e^{\lambda_1(e^t-1)}e^{\lambda_2(e^t-1)}=e^{(\lambda_1+\lambda_2)(e^t-1)},他也是Poisson(\lambda_1+\lambda_2)的矩生成函数.因此,我们已经证明了两个独立的泊松随机变量的和具有泊松分布

本章完

未翻译:附录,课后作业

猜你喜欢

转载自blog.csdn.net/xiaowanbiao123/article/details/132926972
今日推荐