1 基本概念
在概率与统计中,如果我们有一个包含多个随机变量的随机变量集合,再基于该集合生成一个新的随机变量,则该随机变量的分布称为混合分布(mixture distribution)。具体来说,首先,根据给定概率从集合中随机选取一个随机变量,然后再实现(realize)该随机变量的值。集合中的随机变量可以是随机实数,也可以是随机向量(每个向量的维数相同),在这种情况下,混合分布是多变量分布。
如果集合中的随机变量是连续的,则生成的随机变量也将是连续的,其概率密度函数有时被称为混合密度(mixture density)。累积分布函数(以及概率密度函数,如果存在的话)可以表示为其它分布函数和密度函数的凸组合(即加权和,非负权重总和为1)。单分布(individual distribution)被组合在一起形成混合分布,我们称这些单分布为混合分量(mixture component),与每个分量对应的概率(或权重)称为混合权重。混合分布中分量的个数通常是有限的,尽管在某些情况下分量个数可能无穷大。
需要区分两种情况。第一种情况,某个随机变量的分布函数或密度是分量集合(例如,混合分布)之和;第二种情况,一个随机变量的值是两个或者更多基本随机变量的和,这时用卷积运算给出分布。举例来说,两个均值不等的联合正态分布随机变量之和,仍然满足正态分布。然而,用两个具有不同均值的正态分布产生的混合密度,只要两个均值距离足够远,则分布会具有两个峰值,表明这个分布与正态分布有根本不同。
下面我们就来具体看下这个例子。我们考虑随机变量集合中有两个正态分布的随机变量,这两个正态分布的方差相等,但均值不等。现在从该集合中等概率(50%)地选取一个随机变量,得到结果变量。与单个正态分布相比,总体分布将呈现较低的峰度–单个正态分布的均值落在总体分布的肩膀上。如果两个峰值离得足够远,例如标准偏差的两倍以上即
∣μ1−μ2∣>2σ,就形成双峰分布;否则就只是具有宽峰。结果变量的变化也较两个原始随机变量的变化更剧烈(由于从不同均值扩展而来),因此与偏差固定为
σ的正态分布相比,呈现出过度分散性。然而,如果与偏差等于整体分布偏差的正态分布相比,则结果变量的分布不会表现出过度分散性。换句话说,过度分散性是由于两个均值带来的。
反之,如果两个随机变量的均值相等,则结果变量的分布将呈现大的峰度,即具有比单个正态分布更为陡峭的峰值和更严重的拖尾(也即肩膀更浅)。
2 基本性质
-
有限可数混合
给定概率密度函数集合
p1(x),…,pn(x),或者相应的累计分布函数
P1(x),…,Pn(x),以及权重
w1,…,wn,这里
wi≤0且
∑wi=1,可得密度函数
p(x)=i=1∑nwipi(x),或分布函数
F(x)=i=1∑nwiPi(x),这里二者均为凸组合。
-
凸性
概率密度函数的组合不一定是概率密度,因为它可能为负或者积分结果不为零。然而,概率密度函数的凸组合保持了这两个特性(非负以及积分等于1),因此混合密度本身就是概率密度函数。
-
矩
设
X1,X2,…,Xn表示
n个分量分布的随机变量,
X表示混合分布的随机变量。因此,对于函数
H(⋅),如果
E[H(Xi)]存在,并且假定分量分布
pi(x)存在,则有
E[H(X)]=∫−∞∞H(x)i=1∑nwipi(x)dx=i=1∑nwi∫−∞∞pi(x)H(x)=i=1∑nwiE[H(Xi)].不难发现,
j阶原点矩是分量
j阶矩的加权平均。进一步,关于
H(x)=(x−μ)j的均值(即
j阶中心距)为二项式展开
E[(X−μ)j]=i=1∑nwiE[(Xi−μi+μi−μ)j]=i=1∑nwik=0∑j(kj)(μi−μ)j−kE[(Xi−μi)k]其中
μi表示第
i个分量的均值。
考虑权重为
wi,均值为
μi,方差为
σi的一维分布的混合分布,其均值和方差为
E[X]=μ=i=1∑nwiμi,E[(X−μ)2]=σ2=i=1∑nwi[(μi−μ)2+σi2]=i=1∑nwi(μi2+σi2)−μ2.这些关系突出了混合分布有可能具有非平凡高阶矩(如偏斜和峰度(肥尾)以及多模态)的潜力,即使分量本身没有此类特征。