由于课程需要,这段时间主要在学习《高等数理统计》(茆诗松等)的无信息先验部分的知识,这部分内容主要还是书中讲解的内容,但是会结合网上的一些资料以及自己的一些理解进行阐述。
贝叶斯统计
贝叶斯统计缘起于托马斯.贝叶斯(1702-1761),一位英国长老会牧师和业余数学家。在他去世后发表的论文“论有关机遇问题的求解”中, 贝叶斯定理的现代形式实际上归因于拉普拉斯(1812)。拉普拉斯重新发现了贝叶斯定理,并把它用来解决天体力学、医学甚至法学的问题。但自19世纪中叶起,随着频率学派(在下文有时也称作经典统计)的兴起,概率的贝叶斯解释逐渐被统计学主流所拒绝。
现代贝叶斯统计学的复兴肇始于Jeffreys(1939),在1950年代,经过Wald(1950),Savage(1954),Raiffic&Schlaifer(1961),Lindley(1972),De Finetti(1974)等人的努力,贝叶斯统计学逐渐发展壮大,并发展出了贝叶斯统计决策理论这个新分支。特别是到1990年代以后,随着计算方法MCMC在贝叶斯统计领域的广泛应用,解决了贝叶斯统计学长期存在的计算困难的问题,从而推动了贝叶斯统计在理论和应用领域的长足发展。(以上部分节选自网络)
无信息先验分布
通常在贝叶斯分析中,我们需要指定一个先验,但事实在很多前提下,我们是不知道其先验的,这时我们就可以采用无信息先验分布来进行分析计算。
首先我们来考虑:没有信息的场合如何确定先验分布?
- 无信息先验分布
- 与其它“主观”的先验相比更接近“客观”
后面我们将会介绍几种无信息先验分布:
Bayes 假设
位置参数的无信息先验分布
尺度参数的无信息先验分布
Jeffreys 先验分布
Bayes 假设
有以下几点:
- “没有
θ
的任何信息”
⇒
将
θ
取值范围上的均匀分布作为
θ
的先验分布。
- “Bayes 假设”:均匀分布
- 例如:如果参数空间
Θ=(a,b)
,则可用
U(a,b)
作为先验分布
由此我们引出一些问题:
- 当
Θ
为无限区间,无法定义一个正常的先验分布
- Bayes 假设不满足变换下的不变性
这里我们由一个例子来引出广义先验分布
的概念:
设总体
X∼N(θ,1)
,其中
θ∈(−∞,∞)=Θ
,若对
θ
既无任何信息,也无偏爱,则应取如下均匀分布:
π(θ)=c, −∞<θ<∞
不是一个正常的概率密度函数。按Bayes公式计算:
π(θ|x)=h(x,θ)m(x)=p(x|θ)π(θ)∫∞−∞p(x|θ)π(θ)dθ=12π−−√exp{−12(θ−x)2}
此时,给定
x
下,
θ
的后验分布为
N(x,1)
。
下面我们给出广义先验分布
的具体定义:
设总体
X∼p(x|θ),θ∈Θ
,若满足下列条件
-
π(θ)>0
且
∫Θπ(θ)dθ
- 由此决定的后验密度
π(θ|x)
是正常的密度函数。
则称
π(θ)
为
θ
的广义先验密度。
前面例子中给出的
π(θ)=c
就是正态均值
θ
的一个广义先验分布。常选用
π(θ)=1
。
但这样做会有一些问题,比如:很多时候Bayes假设都不满足变换下的不变性。
- 正态总体
N(0,σ2)
:方差
σ2
,标准差
σ
,均在
(0,∞)
上取值
-
σ
的先验分布为
π(σ)
- 则
η=σ2
的分布为:
π(η–√)∣∣∣dσdη∣∣∣=π(η–√)/(2η–√)
若
σ
的无信息先验分布为常数,那么
η=σ2
的无信息先验密度应与
η−1/2
成比例。与Bayes假设矛盾。
位置参数的无信息先验分布
设总体
X
的密度函数具有形式
p(x−θ)
,
θ
称为位置参数,参数空间与样本空间均为
R
。
-
Y=X+c
-
η=θ+c
Y
的密度为
p(y−η)
,同样是位置参数族成员。
η
与
θ
应具有相同分布。(位置变换下保持不变)所以应该有相同的无信息先验分布:
π(τ)=π∗(τ)
另一方面,由
η=θ+c
,可计算
η
的无信息先验密度为:
π∗(η)=∣∣∣dθdη∣∣∣π(η−c)=π(η−c)
⇒π(η)=π(η−c)
由于
η
与
c
的任意性,
θ
的无信息先验分布
π(θ)
为一个常数,取其为1。位置参数在位移变换保持不变的无信息先验分布是
π(θ)=1
,即Bayes假设。
尺度参数的无信息先验分布
设总体
X
的密度函数具有形式
1σp(xσ)
,
σ
称为尺度参数,参数空间为
R+
。
-
Y=cX(c>0)
-
η=cθ
Y
的密度函数为
1ηp(yη)
,同样是尺度参数族成员。同样也应该有相同的无信息先验分布:
π(τ)=π∗(τ)
另一方面,由
η=cθ
,可计算
η
的无信息先验密度为:
π∗(η)=∣∣∣dθdη∣∣∣π(ηc)=1cπ(ηc)
⇒π(η)=1cπ(ηc)
取
η=c
,则有
π(c)=1cπ(1)
,为方便记,令
π(1)=1
,则
σ
的无信息先验分布为
π(σ)=1σ, σ>0
尺度参数在比例变换保持不变的无信息先验分布是
π(θ)=1σ
。与参数为
1σ
的指数分布
p(x|σ)=1σexp{−xσ}
相结合,其后验密度为:
π(σ|x)=h(x,σ)m(x)=p(x|σ)π(σ)∫∞0p(x|σ)π(σ)dσ=xσ2exp{−xσ}
倒Gamma分布的概率密度函数:
p(x;α,β)=βαΓ(α)x−α−1exp(−βx),α>0,β>0
即后验密度为正常概率密度函数,故上述无信息先验分布是尺度参数
σ
的广义先验分布。
Jeffreys 先验分布
- 1961年,Jeffreys在他的书里提出了Jeffreys 先验,其最主要性质就是不变性(invariant),即先验的形式不随着参数形式变化而变化。
- 较好地解决了无信息先验中的一个矛盾:若对参数
θ
选用均匀分布,则其函数
g(θ)
往往不是均匀分布。
- 采用Fisher信息阵的平方根作为
θ
的无信息先验分布。
其具体的计算过程如下:
设
x=(x1,⋯,xn)
是来自密度函数
p(x|θ)
的一个样本,其中
θθ=(θ1,⋯,θp)
是
p
维参数向量。
- 样本的对数似然函数
l(θθ|x)=∑ni=1ln p(xi|θ)
;
- 计算出参数
θθ
的Fisher信息阵
I(θθ)=Ex|θ(−∂2l∂θi∂θj)i,j=1,⋯,p
在单参数场合,
I(θ)=Ex|θ(−∂2l∂θ2)
;
-
θθ
的无信息先验密度函数为
π(θθ)=[det I(θθ)]1/2
.在单参数场合,
π(θθ)=[I(θ)]1/2
下面我们具体说明Jeffreys 先验分布的不变性。
Jeffreys 先验分布的不变性
单参数情形:
φ(θ)
为
θ
的函数,已知:
π(θ)∝I(θ)−−−√
,考虑
π(φ)
:
π(φ)=π(θ)∣∣∣dθdφ∣∣∣∝I(θ)(dθdφ)2−−−−−−−−−−√=E[(dlnldθ)2](dθdφ)2−−−−−−−−−−−−−−−−−−⎷=E[(dlnldθdθdφ)2]−−−−−−−−−−−−−−⎷=E[(dlnldφ)2]−−−−−−−−−−−⎷=I(φ)−−−−√.
多参数向量情形:
π(φ⃗ )=π(θ⃗ )∣∣∣det∂θi∂φj∣∣∣∝detI(θ⃗ )det2∂θi∂φj−−−−−−−−−−−−−√=det∂θk∂φidetE[∂lnL∂θk∂lnL∂θl]det∂θl∂φj−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−√=detE[∑k,l∂θk∂φi∂lnL∂θk∂lnL∂θl∂θl∂φj]−−−−−−−−−−−−−−−−−−−−−−−−−−⎷=detE[∂lnL∂φi∂lnL∂φj]−−−−−−−−−−−−−−−−√=detI(φ⃗ )−−−−−−−√.
下面我们以一个例子来详细介绍Jeffreys 先验分布:
设
X=(x1,⋯,xn)
来自正态总体
N(μ,σ2)
的一个样本,现求参数向量
(μ,σ)
的Jeffreys 先验。
正态总体的对数似然函数
l(μ,σ)=−12ln(2π)−nlnσ−12σ2∑i=1n(xi−μ)2
其Fisher信息阵为:
I(μ,σ)=⎛⎝⎜⎜⎜E(−∂2l∂μ2)E(−∂2l∂μ∂σ)E(−∂2l∂μ∂σ)E(−∂2l∂σ2)⎞⎠⎟⎟⎟=(n/σ2002n/σ2)
det I(μ,σ)=2n2σ−4
因此
(μ,σ)
的Jeffreys 先验为
π(μ,σ)∝σ−2
根据上面的例子,我们可以发现几个特例:
- 当
σ
已知时,
I(μ)=−E(−∂2l∂μ2)=n/σ2
,故
π(μ)=1
,
μ∈R
;
- 当
μ
已知时,
I(σ)=−E(−∂2l∂σ2)=2n/σ2
,故
π(σ)=1/σ
,
σ∈R+
;
- 当
μ
与
σ
独立时,
π(μ,σ)=π(μ)∗π(σ)=1/σ
,
μ∈R
,
σ∈R+
.
由此可见:
μ
与
σ
的无先验分布是不独立的。其有两种形式:
σ−1
与
σ−2
。Jeffreys最终推荐的形式是
σ−1
,其实际表现效果也更加出色。
另外我们介绍一个二项分布的例子,设
θ
为成功概率,则在
n
次独立试验中成功次数
X
服从二项分布
P(X=x)=(nx)θx(1−θ)n−x, x=0,1,⋯,n
在二项分布场合下,成功概率
θ
的Jeffreys 先验分布为
π(θ)∝θ−1/2(1−θ)−1/2, θ∈(0,1)
最后,关于成功概率
θ
的无信息先验分布,这里列出其中四种:
π1(θ)π2(θ)π3(θ)π4(θ)=1=θ−1(1−θ)−1=θ−1/2(1−θ)−1/2=θθ(1−θ)1−θ−Bayes(1763)和Laplace(1812)采用过−Novick和Hall(1965)导出−Jeffreys(1968)导出−Zellner(1977)导出....
π1
是正常密度,
π2
是不正常密度,
π3
,
π4
正则化后是正常密度。
无信息先验不唯一,并且很少对结果产生重大影响,所以理论上任何无信息先验都可以采用。