标签: 机器学习
概率分布
这章主要介绍一些常用的分布模型。
对于变量x的N次观测形成独立同分布的向量
参数方法
由最基本的概率模型可以给出函数表达式,而其中的参数则由样本数据训练出来。
二项式分布
自变量只能取0或1
- 伯努利分布
Bern(x|μ)=μx(1−μ)1−x μ 后,x的概率密度如上。解决了投掷一次硬币的问题。由经典概率论中求最大似然的方法可知μML=1N∑xn - 二项分布
Bin(m|N,μ)=CmNμm(1−μ)N−m m=1N∑xn ,可以通过样本空间来推出上面公式,并由期望的加法操作得到m的期望E[m]=Nμ 。
但在小数据时,这些由经典概率论得到的参数容易过拟合。例如只投了三次硬币且恰好都为正,那么之后每次投正的概率是1。然而这和常理不符。因此需要贝叶斯的方法来重新解决这个问题。 - Beta分布2
Beta(μ|a,b)=Γ(a+b)Γ(a)Γ(b)μa−1(1−μ)b−1 μx(1−μ)1−x 的,再有先验是正比于μa−1(1−μ)b−1 的,那么由于共轭性,后验正比于μm+a−1(1−μ)l+b−1 ,而前面的归一化参数则可以通过积分确定。其中l=N−m 。
由于一开始可以初始化参数a,b,可以减少过拟合的发生。数据集越大,参数方差越小,参数也越来越确定。前一个实验的后验会作为后一个实验的先验,逐步提高准确性。并且这种顺序方法只依赖于数据的独立性,不必存储数据,只需要流水线地处理数据修正参数即可。
在平均意义上,频率学同样可以解释参数的方差为什么越来越小varθ[θ]=ED[varθ[θ|D]]+varθ[Eθ[θ|D]]≥ED[varθ[θ|D]]
多项式分布
变量取值可以有K个但每次只能取一个,则可以用K维向量来表示,取第k个结果则将对应第k维标1,其余标0。满足
同样可以得到似然
扩展到多次实验,则假设
给定超参数
给定参数
则后验为
连续变量高斯分布
- 单变量
单变量x的高斯分布,即正态分布为
(x|μ,σ2)=1(2πσ2)12exp{−12σ2(x−μ)2}
中心极限定理 设从均值为
μ 、方差为σ2 (有限)的任意一个总体中抽取样本量为n的样本;当n充分大时,样本均值的抽样分布近似服从μ 、方差为σ2n 的正态分布。
因此正态分布具有广泛的应用。 - 多变量
D维多变量x⃗ 的高斯分布为
(x⃗ |μ⃗ ,Σ)=1(2π)D21|Σ|12exp{−12(x⃗ −μ⃗ )TΣ−1(x⃗ −μ⃗ )} Σ 为协方差矩阵3,它的每个元素是各个向量元素之间的协方差。要证明积分和为1,需要用到许多矩阵的性质,尤其是特征向量这方面的内容。通过对Σ 列出特征方程解出特征向量,定义了一个新的旋转、平移的坐标系y⃗ =U(x⃗ −μ⃗ )
p(y⃗ )=p(x⃗ )||=ΠDj=11(2πλj)12exp{−y2j2λj} 是从x到y坐标系的Jacobian矩阵,可以看作是多元函数的导数Jij=∂xi∂yj=Uji dx=|x→y|dy ,λ 则是当初列特征方程解出的特征值,且为了之后可以正确归一化,这里要求特征值均大于0,使得Σ 正定。求一阶、二阶矩时,主要利用了换元和奇函数的对称性,求得E[x⃗ ]=μ⃗ ,E[x⃗ x⃗ T]=μ⃗ μ⃗ T+Σ ,得cov[x⃗ ]=Σ .
局限性
计算
Σ 和μ 会产生的独立变量数量正比于D2 ,计算量比较大。特殊的对角Σ 和单值Σ 可以让独立变量数量降到D,但又限制了分布的形式。高斯分布是单峰模型,难以拟合多峰分布。后面解决的方式是引入潜变量。特别地,通过引入离散型潜在变量,相当多的多峰分布可以使用混合高斯分布来描述;引入连续型潜在变量可以产生出一种模型,其自由参数与维度D无关,模型数据集的相关性不变。
条件高斯模型
已知多元变量
引入了精度矩阵
书上直接把多元变量
其中,
边缘高斯模型
这里把多元变量
这里可以对比一下边缘、条件两种情况的分布
高斯变量的贝叶斯定理
给定 x 的一个边缘高斯分布,以及在给定 x 的条件下 y 的条件高斯分布,形式为
贝叶斯推断时,似然函数的形式为μ的二次型的指数形式。因此如果我们把先验分布 p(μ) 选成高斯分布,那么它就是似然函数的一个共轭分布。因为对应的后验概率是两个 μ 的二次函数的指数的乘积,因此也是一个高斯分布。
精度是可以相加的,因此后验概率的精度等于先验的精度加上每一个观测数据点所贡献的一个精度。当我们增加观测数据点的数量时,精度持续增加(波峰概率密度增加),对应于后验分布的方差持续减少(锁定区域减小)。
在顺序更新的框架下,观测到N个数据点后的均值表达为:观测到N-1个数据点之后的均值以及数据点
高斯混合模型(GMM)
解决前面说的高斯分布不能描述单峰分布,故研究基本高斯分布的线性组合。
1. 迭代数值优化
2. 期望最大化
指数族分布
其形式为
求期望
对一般形式的积分式关于
充分统计量
对一般形式求最大似然下的参数
共轭先验
一般情况下,对于一个给定的概率分布p(x|μ),我们能够寻找一个先验p(η)使其与似然函数共轭,从而后验分布的函数形式与先验分布相同,因此使得贝叶斯分析得到了极大的简化。
例如,多项式分布的参数的共轭先验被叫做狄利克雷分布(Dirichlet distribution),而高斯分布的均值的共轭先验是另一个高斯分布。所有这些分布都是指数族( exponential family )分布的特例。
非参数方法
并不能预测一个模型是符合何种分布时,就不能套用上面的参数方法了。这时候更需要一般化的方法。
直方图
将D维空间中的每一维都均分M份,每当有数据被观测到,对应的小体元数值就加一。最后通过归一化操作得到概率分布。
缺点:M不能太大,容易造成维度灾难,或者过拟合。M也不能太小,否则块太大,边界粗糙,难以光滑拟合。
核方法
假设 D 维空间的某个未知的概率密度分布p(x),包含x的某个小区域R的概率质量为P,有N次观测,落在该区域内K次,区域体积为V,则
核方法是令V固定,计算被划入该区域的点数个数。用来判定x是否落入该区域的函数即为核函数,记为k(x),例如Parzen窗中认为x在
获得观测数据后不需计算,只需要投进小体元中存储即可。
近邻方法
近邻方法是对p(x)表达式中的K固定,再计算投到的V有多大。即先确认一点为中心的球体内要有K个点,逐步扩大球体体积直到刚好包括了K个点,此时即为目标V。
在分类问题中用到的K-means算法常根据最近的K个点中同类数量最多的作为该点的类别,即最大后验类别。
从课后留的作业来看,这章的重点内容是:
- 能够推算出变量线性变换后的高斯分布的参数
- 数学知识:舒尔补、Woodbury等式、拼接的矩阵的逆
- 指数族、充分统计量、无信息先验的概念
- 统计量实际上是一种对数据分布的压缩,在样本加工为统计量的过程中,样本中所含的信息可能有所损失,若在将样本加工为统计量时,信息毫无损失,则称此统计量为充分统计量。比如,在正态分布中, 我们可以用两个充分统计量样本均值和样本方差描述整个数据分布。来源:百度百科 ↩
-
Γ 函数的相关积分可以自己做题熟练一下 ↩ - 尽管协方差矩阵很简单,可它却是很多领域里的非常有力的工具。它能导出一个变换矩阵,这个矩阵能使数据完全去相关(decorrelation)。从不同的角度来看,也就是说能够找出一组最佳的基以紧凑的方式来表达数据。(完整的证明请参考瑞利商)。 这个方法在统计学中被称为主成分分析(principal components analysis),在图像处理中称为Karhunen-Loève 变换(KL-变换)。来源:百度百科
来源:cnblogs ↩