All of Statistics 第三章

统计学（三）期望(Expectation)

本章内容:

3.1 随机变量的期望
3.2 期望的性质
3.3 方差(Variance)和协方差(Covariance)
3.4 几个重要随机变量的期望和方差
3.5 条件期望
3.6 矩生成函数(Moment Generating Function)

关键名词,存在部分词不达意的情况,因此将关键名词整理如下

1. 期望:Expectation

2. 方差:Variance

3. 协方差:Covariance

4. 均值:Mean

5. 一阶矩:First Moment

6. 分部积分:Integration by parts

7. 无意识统计学家法则:Law of the unconscious statistician

8. 矩:Moment

9. 标准差:standard deviation

10. 样本均值: sample mean

11. 样本方差:sample variance

12. 相关性:correlation

13. 条件期望:Conditional Expectation

14. 期望迭代定理:The Rule of Iterated Expectations

15. 条件方差:Conditional Variance

16. 层次模型:hierarchical model

17. 矩生成函数:Moment Generating Function

18. 拉普拉斯变换:Laplace transform

3.1 随机变量的期望

随机变量X的均值(mean),期望(expectation)就是是X的平均数

3.1 定义

随机变量X的期望值(expected value),或者均值(mean),或者一阶矩(first moment)定义如下:

$\mathbb{E}(X)=\int x dF(x)=\left\{\begin{matrix} \sum_xxf(x) & if \ X\ is \ discrete\\ \int xf(x)dx& if \ X \ is \ continuous \end{matrix}\right.$

其中,假定求和(或者积分)符合定义.我们使用下面的式子表示X的期望值:

$\mathbb{E}(X)=\mathbb{E}X=\int xdF(x)=\mu=\mu_X$

期望是对分布的一种单值概括.将 $\mathbb{E}(X)$ 视为许多独立同步分布的X1,X2,...Xn的平均值 $\sum_{i=1}^nX_i/n$ .事实上,将 $\mathbb{E}\approx \sum_{i=1}^nX_i/n$ 不仅仅是一种启发,而且还是一种被称为大数定律的定理.它将在第五章中介绍.

符号 $\int x dF(x)$ 需要做一些说明.我们使用它仅仅是作为一种方便的统一的符号,这样我们就不必为离散随机变量写成 $\sum_x xf(x)$ ,为连续随机变量写成 $\int xf(x)dx$ .但是你应该知道,这个符号在实际的分析课程中,有精确的含义.

为了保证 $\mathbb{E}(X)$ 符合定义,如果 $\int |x|dF_X(x) < \infty$ ,我们就说 $\mathbb{E}(X)$ 存在.否则我们就说期望不存在.

3.2 例子

设 $X \sim Bernoulli(p)$ ,那么 $\mathbb{E}(X)=\sum_{x=0}^1xf(x)=(0 \times (1-p))+(1 \times p) = p$

3.3 例子

抛硬币,两次.设X是正面朝上的次数.那么

$\mathbb{E}(X)=\int xdF_X(x) = \sum_x xf_X(x)=(0 \times f(0))+(1 \times f(1)) +(1 \times f(2))=(0 \times (1/4))+(1 \times (1/2))+(2 \times (1/4)) =1$

3.4 例子

设 $X \sim Unifrom(-1,3)$ ,那么,

$\mathbb{E}(X)=\int xdF_X(x)=\int xf_X(x)dx =\frac{1}{4}\int_{-1}^3xdx=1$

3.5 例子

回顾一下,如果一个随机变量服从柯西分布,那么它就有如下的密度函数:

$f_X(x)=\left \{ \pi(1+x^2) \right \}^{-1}$

使用分部积分法(integration by parts)(令 $u=x,v=\tan^{-1}x$ ),得

$\int |x|dF(x)=\frac{2}{\pi}\int_0^\infty\frac{xdx}{1+x^2}=[xtan^{-1}x]_0^\infty-\int_0^\infty\tan^{-1}xdx=\infty$

因此均值不存在.如果你多次模拟柯西分布并取平均值，你会发现平均值永远不会稳定下来.这是因为柯西分布具有厚尾(thick tails)特性，因此极端观测值很常见。

从现在开始，每当我们讨论期望值时，我们会默认它们是存在的。

设 $Y=r(X)$ ,那么怎么计算 $\mathbb{E}(Y)$ 呢?一种方法是找到 $f_Y(y)$ 然后通过 $\mathbb{E}(Y)=\int yf_Y(y)dy$ .但还有更容易得方法.

3.6 定理

无意识统计学家法则(Law of the unconscious statistician).设 $Y=r(X)$ ,那么

$\mathbb{E}(Y) = \mathbb{E}(r(X))=\int r(x)dF_X(x)$

这个结果是符合直觉的.考虑我们玩一个游戏的情况,在游戏中你随机抽取X,然后我支付给你Y=r(X).你的平均收入是r(X)乘以X=x的概率,在x上面求和(或者积分).这里有一个特例,设A是一个事件.并且令 $r(x)=I_A(x)$ ,如果 $x \in A$ , $I_A(x)=1$ 且 $x \notin A$ , $I_A(x) = 0$ ,那么:

$E(I_A(x))=\int I_A(x)f_X(x)dx=\int_Af_X(x)dx=\mathbb{P}(X\in A)$

换句话说,概率是期望的一种特例.

3.7 例子

设 $X \sim Unif(0,1)$ , $Y=r(X)=e^X$ ,那么 $\mathbb{E}(Y)=\int_0^1e^xf(x)dx=\int_0^1e^xdx=e-1$ .

或者,你可以求出 $f_Y(y)$ ,在 $1 < y < e$ 的情况下,它为 $f_Y(y)=1/y$ .那么

$\mathbb{E}(Y)=\int_1^eyf(y)dy=e-1$

3.8 例子

拿一根单位长度的棍子，随机折断它。设 Y 为较长部分的长度.那么Y的均值是多少?如果X是这断的点那么 $X \sim Unif(0,1)$ .此时 $Y=r(X)=max\left \{ X,1-X \right \}$ .因此,当 $0 < x < 1/2$ 时 $r(x)=1-x$ .当 $1/2 \leq x <1$ 时, $r(x)=x$ .所以:

$\mathbb{E}(Y)=\int r(x)dF(x)=\int _0^{1/2}(1-x)dx+\int_{1/2}^1xdx=\frac{3}{4}$

多变量函数用同样的方法处理.如 $Z=r(X,Y)$ 那么:

$\mathbb{E}(Z)=\mathbb{E}(r(X,Y))=\int\int r(x,y)dF(x,y)$

3.9 例子

设(X,Y)在单位正方形上,服从联合均匀分布.再设 $Z=r(X,Y)=X^2+Y^2$ ,那么:

$\mathbb{E}(Z)=\int\int r(x,y)dF(x,y)=\int_0^1\int_0^1(x^2+y^2)dxdy\\\\=\int_0^1x^2dx+\int_0^1y^2dy=\frac{2}{3}$

X的第k阶矩(moment) 被定义为: $\mathbb{E}(X^k)$ ,其中,满足 $\mathbb{E}(|X|^k) < \infty$

3.10 定理

如果第k阶矩存在,那么当j<k时,第j阶矩也存在

证明:

$\mathbb{E}(|X|^j)=\int_{-\infty}^\infty|x|f_X(x)dx\\\\=\int_{|x|\leq1}|x|^jf_X(x)dx+\int_{|x| > 1}|x|^jf_X(x)dx\\\\ \leq \int_{|x|\leq1}f_X(x)dx+\int_{|x| > 1}|x|^kf_X(x)dx\\\\ \leq 1+\mathbb{E}(|X|^k) < \infty$

第k阶中心矩被定义为: $\mathbb{E}((X-\mu)^k)$

3.2 期望的性质

3.11 定理

如果X1,...Xn是随机变量,并且a1,...an是常数,那么

$\mathbb{E}(\underset{i}{\sum a_iX_i})=\underset{i}{\sum}a_i \mathbb{E}(X_i)$

3.12 例子

设X服从 $X\sim Binomial(n,p)$ ,那么X的均值是多少,我们可以尝试用定义来求,如下:

$\mathbb{E}(X)=\int x dF_X(x)=\sum xf(x)=\sum x\binom{n}{x}p^x(1-p)^{n-x}$

上式子求和是比较难的.我们注意到 $X=\sum_{i=0}^n X_i$ .其中X_i可以表示为第i次抛硬币.当为正面时Xi=1,当为反面时Xi=0.那么 $\mathbb{E}(X_i)=p\times 1+(1-p)\times 0=p$ .因此:

$\mathbb{E}(X)=\mathbb{E}(\sum X_i)=\sum \mathbb{E}(X_i)=np$

3.13 定理

设X1,...Xn是独立随机变量,那么:

$\mathbb{E}(\overset{n}{\underset{i=1}\prod }X_i)=\underset{i}\prod\mathbb{E}(X_i)$

注意:上面的求和规则,不要求随机变量独立.但是乘积规则则需要随机变量独立

3.3 方差和协方差(Variance and Covariance)

方差衡量了分布的"分布(spread)"程度.(译者注:双引号的"分布"程度,也即分布的集中还是扩散).

3.14 定理

设X是均值为μ的随机变量X.X的方差被定义如下,记作: $\sigma^2 or \sigma_X^2 or \mathbb{V}(X) or \mathbb{V}X$ :

$\sigma^2=\mathbb{E}(X-\mu)^2=\int (x-\mu)^2dF(x)$

如果这个期望存在,那么标准差(standard deviation)为 $sd(X)=\sqrt{\mathbb{V}(X)}$ ,记作 $\sigma or \sigma_X$

3.15 定理

如果方差存在且满足定义,那么它具有如下的性质:

1. $\mathbb{V}(X)=\mathbb{E}(X^2)-\mu^2$

2. 如果a和b是常数,那么 $\mathbb{V}(aX+b)=a^2\mathbb{E}(X)$

3. 如果X1..Xn是独立的,且a1,...,an是常数,那么

$\mathbb{V}(\overset{n}{\underset{i=1}{\sum}}a_iX_i)=\overset{n}{\underset{i=1}{\sum}}a_i^2\mathbb{V}(X_i)$

3.16 例子

设X服从二项分布 $X \sim Binomial(n,p)$ .我们记 $X=\sum_iX_i$ ,其中,当正面朝上时,Xi=1,否则Xi=0.且Xi都是独立随机变量.同时, $\mathbb{P}(X_i=1)=p$ , $\mathbb{P}(X_i=0)=1-p$ .可得

$\mathbb{E}(X_i)=p\times 1+(1-p)\times 0=p$

现在

$\mathbb{E}(X_i^2)=p\times 1^2+(1-p)\times 0^2=p$

因此: $\mathbb{V}(X_i)=\mathbb{E}(X_i^2)-p^2=p-p^2=p(1-p)$ .最后 $\mathbb{V}(X)=\mathbb{V}(\sum_iX_i)=\sum_i\mathbb{V}(X_i)=\sum_ip(1-p)=np(1-p)$

注意:如果p=0,或p=1,那么 $\mathbb{V}(X)=0$

如果X1..Xn是随机变量,那么我们可以定义样本均值(sample mean)为:

$\bar{X_n}=\frac{1}{n}\overset{n}{\underset{i=1}{\sum}}X_i$

样本方差(sample variance)定义为:

$S_n^2=\frac{1}{n-1}\overset{n}{\underset{i=1}{\sum}}(X_i - \bar{X_n})^2$

3.17 定理

设X1,...Xn是独立同分布的随机变量,且 $\mu=\mathbb{E}(X_i)$ , $\sigma^2=\mathbb{V}(X_i)$ .那么

$\mathbb{E}(\bar{X}_n)=\mu$ , $\mathbb{V}(\bar{X}_n)=\frac{\sigma^2}{n}$ , $\mathbb{E}(S_n^2)=\sigma^2$

如果X和Y是随机变量，那么X和Y之间的协方差和相关性衡量了X和Y之间的线性关系有多强。

3.18 定义

设X和Y是均值为 $\mu_X,\mu_Y$ ,标准差为 $\sigma_X,\sigma_Y$ 的随机变量.X,Y之间的协方差定义如下:

$Cov(X,Y)=\mathbb{E}((X-\mu_X)(Y-\mu_Y))$

相关性(correlation)被定义如下:

$\rho =\rho_{X,Y}=\frac{Cov(X,Y)}{\sigma_X\sigma_Y}$

3.19 定理

协方差满足:

$Cov(X,Y)=\mathbb{E}(XY)-\mathbb{E}(X)\mathbb{E}(Y)$

相关性满足:

$-1 \leq \rho(X,Y) \leq 1$

如果a,b是常数, $Y=aX+b$ ,那么当a>0时, $\rho (X,Y) = 1$ ;当a<0时 $\rho (X,Y) = -1$

如果X和Y是独立的,那么 $Cov(X,Y)=\rho = 0$ .一般情况下,逆命题并不成立.

3.20 定理

$\mathbb{V}(X+Y)=\mathbb{V}(X)+\mathbb{V}(Y)+2Cov(X,Y)$ ; $\mathbb{V}(X-Y)=\mathbb{V}(X)+\mathbb{V}(Y)-2Cov(X,Y)$ ,更一般的情况下,对于多个随机变量X1..Xn有:

$\mathbb{V}(\sum_ia_iX_i)=\sum_ia_i^2\mathbb{V}(X_i)+2\sum\sum_{i<j}a_ia_jCov(X_i,Y_j)$

3.4 几个重要随机变量的期望和方差

下表收录了几个重要随机变量的期望:

前面我们已经推导了二项分布的期望和方差,其他分布的计算,请见课后习题

在上面表格中的最后两项是多元模型,它涉及向量X,格式如下:

$X=\begin{pmatrix} X_1\\ \vdots \\ X_n\end{pmatrix}$

随机向量X的均值定义如下:

$\mu=\begin{pmatrix} \mu_1\\ \vdots \\ \mu_n \end{pmatrix}=\begin{pmatrix} \mathbb{E}(X_i)\\ \vdots \\ \mathbb{E}(X_n) \end{pmatrix}$

方差协方差矩阵Σ被定义如下:

$\mathbb{V}(X)=\begin{pmatrix} \mathbb{V}(X_1) & Cov(X_1,X_2) & \dots & Cov(X_1,X_k)\\ Cov(X_2,X_1)& \mathbb{V}(X_2) & \dots & Cov(X_2,X_k)\\ \vdots & \vdots & \vdots & \vdots \\ Cov(X_k,X_1) & Cov(X_k,X_2) & \dots & \mathbb{V}(X_k) \end{pmatrix}$

X服从 $X \sim Multinomial(n,p)$ ,那么 $\mathbb{E}(X)=np=n(p_1,...p_k)$ .

$\mathbb{V}(X)=\begin{pmatrix} np_1(1-p_1) & -np_1p_2 & \dots & -np_1p_k\\ -np_2p_1 & np_2(1-p_2) & \dots & -np_2p_k\\ \vdots & \vdots & \vdots & \vdots\\ -np_kp_1 & -np_kp_2 & \dots & np_k(1-p_k) \end{pmatrix}$

要理解这一点,需要注意向量任何元素的边缘分布满足二项分布 $X_i \sim Binomial(n,p_i)$ .因此 $\mathbb{E}(X_i)=np_i$ , $\mathbb{V}(X_i)=np_i(1-p_i)$ ,也应注意 $X_i+X_j \sim Binomial(n,p_i+p_j)$ ,所以 $\mathbb{V}(X_i+X_j)=n(p_i+p_j)(1-[p_i+p_j])$ 换句话说使用和的方差公式可得 $\mathbb{V}(X_i+X_j)=\mathbb{V}(X_i)+\mathbb{V}(Y_i)+2Cov(X_i,X_j)=np_i(1-p_i)+np_j(1-p_j)+2Cov(X_i,X_j)$

将上式与 $\mathbb{V}(X_i+X_j)=n(p_i+p_j)(1-[p_i+p_j])$ 相等,求得 $Cov(X_i,X_j)=-np_ip_j$ .

最后，这有一个引理，可以用于求出多元随机向量的线性组合的均值和方差，这在某些情况下非常有用。

3.21 引理

如果a是一个向量,X是一个均值为μ,方差为Σ的随机向量.那么 $\mathbb{E}(a^TX)=a^T\mu$ , $\mathbb{V}(a^TX)=a^T\Sigma a$ ,如果A是一个矩阵,那么 $\mathbb{E}(AX)=A\mu$ , $\mathbb{V}(AX)=A\Sigma A^T$

3.5 条件期望(Conditional Expectation)

假定X,Y是随机变量,当Y=y时,X的均值是多少?答案就是我们按照之前的方法计算X的均值，但在期望的定义中，我们将 $f_X(x)$ 的替代项更换为 $f_{X|Y}(X|Y)$ 。

3.22 定理

在给定Y=y的情况下,X的条件期望被定义为:

$\mathbb{E}(X|Y=y)=\left\{\begin{matrix} \sum x f_{X|Y}(x|y) & ,discrete \ case\\ \int x f_{X|Y}(x|y)dx &,continuous \ case \end{matrix}\right.$

如果r(x,y)是x和y的函数,那么

$\mathbb{E}(r(X,Y)|Y=y)=\left\{\begin{matrix} \sum r(x,y)f_{X|Y}(x|y) & ,discrete \ case\\ \int r(x,y)f_{X|Y}(x|y)dx &,continuous \ case \end{matrix}\right.$

警告:此处有一个细微点需要注意.虽然 $\mathbb{E}(X)$ 是一个数值,但是 $\mathbb{E}(X|Y=y)$ 是一个关于y的函数.在得到y值之前,我们并不知道 $\mathbb{E}(X|Y=y)$ 的值,因此他是一个随机变量,记作 $\mathbb{E}(X|Y)$ .换句话说 $\mathbb{E}(X|Y)$ 是一个随机变量,它的值为 $\mathbb{E}(X|Y=y)$ .同样地, $\mathbb{E}(r(X,Y)|Y)$ 也是一个随机变量,它的值为 $\mathbb{E}(r(X,Y)|Y=y)$ .这是一个非常容易让人困惑的点,因此来看一个例子

3.23 例子

假定X服从均匀分布 $X\sim Unif(0,1)$ .在X=x之后, $Y|X=x \sim Unif(x,1)$ .直观上,我们期望为 $\mathbb{E}(Y|X=x)=(1+x)/2$ ,事实上, $f_{Y|X}(y|x)=1/(1-x),x < y < 1$ .并且

$\mathbb{E}(Y|X=x)=\int_x^1 yf_{Y|X}(y|x)dy=\frac{1}{1-x}\int _x^1 y dy= \frac{1+x}{2}$

因此, $\mathbb{E}(Y|X)=(1+X)/2$ .注意 $\mathbb{E}(Y|X)=(1+X)/2$ 是一个随机变量,他的值为X=x时的值 $\mathbb{E}(Y|X=x)=(1+x)/2$

3.24 定理(期望迭代定理(The Rule of Iterated Expectations))

对于随机变量X和Y来说,假定期望存在,那么我们就有:

$\mathbb{E}[\mathbb{E}(Y|X)]=\mathbb{E}(Y)$ , $\mathbb{E}[\mathbb{E}(X|Y)]=\mathbb{E}(X)$

更一般的情况下:

$\mathbb{E}[\mathbb{E}(r(X,Y)|X)]=\mathbb{E}(r(X,Y))$

证明:

我们使用条件期望和 $f(x,y)=f(x)f(y|x)$ 证明第一个等式.

$\mathbb{E}[\mathbb{E}(Y|X)]=\int \mathbb{E}(Y|X) f_X(x)dx = \int \int y f(y|x)dy f(x)dx =\int \int yf(y|x)f(x)dx dy= \int \int yf(x,y)dxdy = \mathbb{E}(Y)$

3.25 例子

思考3.23 例子.怎么计算E(Y)?一个方法是找到联合密度函数f(x,y)然后计算 $\mathbb{E}(y)=\int\int y f(x,y)dx dy$ .另一个更简单的方法只需要两步.首先已经知道了 $\mathbb{E}(Y|X)=(1+X)/2$ ,因此

$\mathbb{E}(Y)=\mathbb{E}\mathbb{E}(Y|X)=\mathbb{E}(\frac{1+X}{2})=\frac{1+\mathbb{E}(X)}{2}=\frac{1+(1/2)}{2}=3/4$

3.26 定义

条件方差(conditional variance)被定义如下:

$\mathbb{V}(Y|X=x)=\int(y-\mu(x))^2 f(y|x) dy$

其中, $\mu(x)=E(Y|X=x)$

3.27 定理

对于随机变量X和Y来讲:

$\mathbb{V}(Y)=\mathbb{E}\mathbb{V}(Y|X)+\mathbb{V}\mathbb{E}(Y|X)$

3.28 例子

从US中随机抽取一个县,然后再从这个县中随机抽取n个人.设X是这些人中患某种疾病的数量.如果用Q表示该县患有疾病的人口比例，那么Q也是一个随机变量，因为它因县而异。给定Q=q的情况下,我们有 $X \sim Binomial(n,p)$ .因此 $\mathbb{E}(X|Q=q)=nq$ . $\mathbb{V}(X|Q=q)=nq(1-q)$ .假定随机变量Q服从均匀分布Uniform(0,1).像这样分阶段构建的分布被称为层次模型(hierarchical model)，可以写成：

$Q \sim Unifrom(0,1)$

$X|Q=q \sim Binomial(n,q)$

现在 $\mathbb{E}(X)=\mathbb{E}\mathbb{E}(X|Q)=\mathbb{E}(nQ)=n\mathbb{E}(Q) = n/2$ .让我们计算X的方差.

现在 $\mathbb{V}(X)=\mathbb{E}\mathbb{V}(X|Q)+\mathbb{V}\mathbb{E}(X|Q)$ ,让我们来计算这两项

首先, $\mathbb{E}\mathbb{V}(X|Q)=\mathbb{E}(nQ(1-Q))=n\mathbb{E}(Q(1-Q))=n\int q(1-q)f(q)dq = n\int _0^1 q(1-q)dq = n/6$

接下来, $\mathbb{V}\mathbb{E}(X|Q)=\mathbb{V}(nQ)=n^2\mathbb{V}(Q)=n^2\int (q-(1/2))^2dq=n^2/12$

因此 $\mathbb{V}(X) =(n/6)+(n^2/12)$

3.6 矩生成函数(Moment Generating Function)

现在，我们将定义矩生成函数，它用于求矩、求随机变量和(sums of random variables)的分布，也用于某些定理的证明中

3.29 定义

矩生成函数(Moment Generating Function)MGF或者拉普拉斯变换(Laplace transform)定义如下:

$\psi _X(t) = \mathbb{E}(e^{tx})=\int e^{tx}dF(x)$

其中t在实数范围内变化

在下面的内容中,我们假定MGF在t=0附近的开区间内都有定义.

当MGF满足定义时,可以证明:可以交换微分和"取期望值"的操作。这得出

$\psi '(0)=[\frac{d}{dt}\mathbb{E}(e^{tx})]=\mathbb{E}[\frac{d}{dt}e^{tx}]=\mathbb{E}(Xe^{tx})_{t=0}=\mathbb{E}(X)$

通过进行k次导数运算,我们可以得出 $\psi ^{(k)}(0)=\mathbb{E}(X^k)$ .这为我们提供了计算分布的矩的方法

3.30 例子

设X服从指数分布 $X \sim Exp(1)$ ,对于任何的t<1得:

$\psi_X(t)=\mathbb{E}e^{tx}=\int_0^\infty e^{tx}e^{-x}dx=\int _0^\infty e^{(t-1)x}dx=\frac{1}{1-t}$

如果 $t \geq 1$ ，积分会发散.因此当t < 1 时, $\psi _X(t) = 1/(1-t)$ ,现在 $\psi'(0)=1\ \ \psi''(0)=2$ ,

因此, $\mathbb{E}(X)=1$ , $\mathbb{V}(X)=\mathbb{E}(X^2)-\mu^2=2-1=1$

3.31 引理

MGF的性质有:

1. 如果Y=aX+b,那么 $\psi_Y(t)=e^{bt}\psi_X(at)$

2. 如果X1,...Xn是独立的,且 $Y=\sum_iX_i$ ,那么 $\psi_Y(t)=\prod _i\psi_i(t)$ ,其中 $\psi_i$ 是Xi的MGF

3.32 例子

设X服从二项分布 $X \sim Binomial(n,p)$ .我们知道 $X=\sum_{i=1}^nX_i$ ,其中 $\mathbb{P}(X_i=1)=p,\mathbb{P}(X_i=0)=1-p$ .现在 $\psi_i(t)=\mathbb{E}e^{X_it}=(p\times e^t)+((1-p))=pe^t+q$ ,其中q=1-p.

因此, $\psi_X(t)=\prod _i\psi_i(t)=(pe^t+q)^n$

回忆前面的内容,如果X和Y有相同的分布函数,那么我们就记作 $X \overset{d}{=} Y$

3.33 定理

设X和Y是随机变量,如果在0点附近的开区间,对于所有的t,都有 $\psi_X(t)=\psi_Y(t)$ ,那么 $X \overset{d}{=} Y$

3.34 例子

设X1服从二项分布 $X_1\sim Binomial(n_1,p)$ ,X2服从二项分布 $X_2\sim Binomial(n_2,p)$ ,且两个独立 .令Y=X1+X2,那么得:

$\psi_Y(t) =\psi_1(t)\psi_2(t)=(pe^t+q)^{n_1}(pe^t+q)^{n_2}=(pe^t+q)^{n_1+n_2}$

我们可以将这个认为二项分布Binomial(n1 + n2, p) 的矩生成函数。因为矩生成函数表征了分布(即，不存在另一个具有相同矩生成函数的随机变量).我们得出结论Y服从二项分布 $Y \sim Binomial(n_1+n_2,p)$

3.35 例子

设Y1服从泊松分布 $Y_1 \sim Poisson(\lambda_1)$ ,Y2服从泊松分布 $Y_2 \sim Poisson(\lambda_2)$ 且两者独立.Y=Y1+Y2的矩生成函数为: $\psi_Y(t)=\psi_{Y_1}(t)\psi_{Y_2}(t)=e^{\lambda_1(e^t-1)}e^{\lambda_2(e^t-1)}=e^{(\lambda_1+\lambda_2)(e^t-1)}$ ,他也是 $Poisson(\lambda_1+\lambda_2)$ 的矩生成函数.因此，我们已经证明了两个独立的泊松随机变量的和具有泊松分布

本章完

未翻译:附录,课后作业