Bayes分析中的无信息先验

由于课程需要,这段时间主要在学习《高等数理统计》(茆诗松等)的无信息先验部分的知识,这部分内容主要还是书中讲解的内容,但是会结合网上的一些资料以及自己的一些理解进行阐述。


贝叶斯统计

贝叶斯统计缘起于托马斯.贝叶斯(1702-1761),一位英国长老会牧师和业余数学家。在他去世后发表的论文“论有关机遇问题的求解”中, 贝叶斯定理的现代形式实际上归因于拉普拉斯(1812)。拉普拉斯重新发现了贝叶斯定理,并把它用来解决天体力学、医学甚至法学的问题。但自19世纪中叶起,随着频率学派(在下文有时也称作经典统计)的兴起,概率的贝叶斯解释逐渐被统计学主流所拒绝。

现代贝叶斯统计学的复兴肇始于Jeffreys(1939),在1950年代,经过Wald(1950),Savage(1954),Raiffic&Schlaifer(1961),Lindley(1972),De Finetti(1974)等人的努力,贝叶斯统计学逐渐发展壮大,并发展出了贝叶斯统计决策理论这个新分支。特别是到1990年代以后,随着计算方法MCMC在贝叶斯统计领域的广泛应用,解决了贝叶斯统计学长期存在的计算困难的问题,从而推动了贝叶斯统计在理论和应用领域的长足发展。(以上部分节选自网络)


无信息先验分布

通常在贝叶斯分析中,我们需要指定一个先验,但事实在很多前提下,我们是不知道其先验的,这时我们就可以采用无信息先验分布来进行分析计算。

首先我们来考虑:没有信息的场合如何确定先验分布?

  • 无信息先验分布
  • 与其它“主观”的先验相比更接近“客观”

后面我们将会介绍几种无信息先验分布:

  • Bayes 假设
  • 位置参数的无信息先验分布
  • 尺度参数的无信息先验分布
  • Jeffreys 先验分布

Bayes 假设

有以下几点:

  • “没有 θ 的任何信息” θ 取值范围上的均匀分布作为 θ 的先验分布。
  • “Bayes 假设”:均匀分布
  • 例如:如果参数空间 Θ = ( a , b ) ,则可用 U ( a , b ) 作为先验分布

由此我们引出一些问题:

  • Θ 为无限区间,无法定义一个正常的先验分布
  • Bayes 假设不满足变换下的不变性

这里我们由一个例子来引出广义先验分布的概念:

设总体 X N ( θ , 1 ) ,其中 θ ( , ) = Θ ,若对 θ 既无任何信息,也无偏爱,则应取如下均匀分布:

π ( θ ) = c ,           < θ <

不是一个正常的概率密度函数。按Bayes公式计算:
π ( θ | x ) = h ( x , θ ) m ( x ) = p ( x | θ ) π ( θ ) p ( x | θ ) π ( θ ) d θ = 1 2 π e x p { 1 2 ( θ x ) 2 }

此时,给定 x 下, θ 的后验分布为 N ( x , 1 )

下面我们给出广义先验分布的具体定义:

设总体 X p ( x | θ ) , θ Θ ,若满足下列条件
- π ( θ ) > 0 Θ π ( θ ) d θ
- 由此决定的后验密度 π ( θ | x ) 是正常的密度函数。
则称 π ( θ ) θ 广义先验密度

前面例子中给出的 π ( θ ) = c 就是正态均值 θ 的一个广义先验分布。常选用 π ( θ ) = 1

但这样做会有一些问题,比如:很多时候Bayes假设都不满足变换下的不变性。

  • 正态总体 N ( 0 , σ 2 ) :方差 σ 2 ,标准差 σ ,均在 ( 0 , ) 上取值
  • σ 的先验分布为 π ( σ )
  • η = σ 2 的分布为:

π ( η ) | d σ d η | = π ( η ) / ( 2 η )

σ 的无信息先验分布为常数,那么 η = σ 2 的无信息先验密度应与 η 1 / 2 成比例。与Bayes假设矛盾。


位置参数的无信息先验分布

设总体 X 的密度函数具有形式 p ( x θ ) θ 称为位置参数,参数空间与样本空间均为 R

  • Y = X + c
  • η = θ + c

Y 的密度为 p ( y η ) ,同样是位置参数族成员。 η θ 应具有相同分布。(位置变换下保持不变)所以应该有相同的无信息先验分布:

π ( τ ) = π ( τ )

另一方面,由 η = θ + c ,可计算 η 的无信息先验密度为:
π ( η ) = | d θ d η | π ( η c ) = π ( η c )

π ( η ) = π ( η c )

由于 η c 的任意性, θ 的无信息先验分布 π ( θ ) 为一个常数,取其为1。位置参数在位移变换保持不变的无信息先验分布是 π ( θ ) = 1 ,即Bayes假设。


尺度参数的无信息先验分布

设总体 X 的密度函数具有形式 1 σ p ( x σ ) σ 称为尺度参数,参数空间为 R +

  • Y = c X ( c > 0 )
  • η = c θ

Y 的密度函数为 1 η p ( y η ) ,同样是尺度参数族成员。同样也应该有相同的无信息先验分布:

π ( τ ) = π ( τ )

另一方面,由 η = c θ ,可计算 η 的无信息先验密度为:

π ( η ) = | d θ d η | π ( η c ) = 1 c π ( η c )

π ( η ) = 1 c π ( η c )

η = c ,则有 π ( c ) = 1 c π ( 1 ) ,为方便记,令 π ( 1 ) = 1 ,则 σ 的无信息先验分布为
π ( σ ) = 1 σ ,         σ > 0

尺度参数在比例变换保持不变的无信息先验分布是 π ( θ ) = 1 σ 。与参数为 1 σ 的指数分布 p ( x | σ ) = 1 σ e x p { x σ } 相结合,其后验密度为:

π ( σ | x ) = h ( x , σ ) m ( x ) = p ( x | σ ) π ( σ ) 0 p ( x | σ ) π ( σ ) d σ = x σ 2 e x p { x σ }

倒Gamma分布的概率密度函数:
p ( x ; α , β ) = β α Γ ( α ) x α 1 exp ( β x ) , α > 0 , β > 0

即后验密度为正常概率密度函数,故上述无信息先验分布是尺度参数 σ 的广义先验分布。


Jeffreys 先验分布

  • 1961年,Jeffreys在他的书里提出了Jeffreys 先验,其最主要性质就是不变性(invariant),即先验的形式不随着参数形式变化而变化。
  • 较好地解决了无信息先验中的一个矛盾:若对参数 θ 选用均匀分布,则其函数 g ( θ ) 往往不是均匀分布。
  • 采用Fisher信息阵的平方根作为 θ 的无信息先验分布。

其具体的计算过程如下:
x = ( x 1 , , x n ) 是来自密度函数 p ( x | θ ) 的一个样本,其中 θ θ = ( θ 1 , , θ p ) p 维参数向量。

  • 样本的对数似然函数 l ( θ θ | x ) = i = 1 n ln   p ( x i | θ )
  • 计算出参数 θ θ 的Fisher信息阵
    I ( θ θ ) = E x | θ ( 2 l θ i θ j ) i , j = 1 , , p

    在单参数场合, I ( θ ) = E x | θ ( 2 l θ 2 ) ;
  • θ θ 的无信息先验密度函数为 π ( θ θ ) = [ det   I ( θ θ ) ] 1 / 2 .在单参数场合, π ( θ θ ) = [ I ( θ ) ] 1 / 2

下面我们具体说明Jeffreys 先验分布的不变性。


Jeffreys 先验分布的不变性

单参数情形:

φ ( θ ) θ 的函数,已知: π ( θ ) I ( θ ) ,考虑 π ( φ )

π ( φ ) = π ( θ ) | d θ d φ | I ( θ ) ( d θ d φ ) 2 = E [ ( d ln l d θ ) 2 ] ( d θ d φ ) 2 = E [ ( d ln l d θ d θ d φ ) 2 ] = E [ ( d ln l d φ ) 2 ] = I ( φ ) .

多参数向量情形:

π ( φ ) = π ( θ ) | det θ i φ j | det I ( θ ) det 2 θ i φ j = det θ k φ i det E [ ln L θ k ln L θ l ] det θ l φ j = det E [ k , l θ k φ i ln L θ k ln L θ l θ l φ j ] = det E [ ln L φ i ln L φ j ] = det I ( φ ) .


下面我们以一个例子来详细介绍Jeffreys 先验分布:

X = ( x 1 , , x n ) 来自正态总体 N ( μ , σ 2 ) 的一个样本,现求参数向量 ( μ , σ ) 的Jeffreys 先验。

正态总体的对数似然函数

l ( μ , σ ) = 1 2 ln ( 2 π ) n ln σ 1 2 σ 2 i = 1 n ( x i μ ) 2

其Fisher信息阵为:
I ( μ , σ ) = ( E ( 2 l μ 2 ) E ( 2 l μ σ ) E ( 2 l μ σ ) E ( 2 l σ 2 ) ) = ( n / σ 2 0 0 2 n / σ 2 )

det   I ( μ , σ ) = 2 n 2 σ 4

因此 ( μ , σ ) 的Jeffreys 先验为
π ( μ , σ ) σ 2

根据上面的例子,我们可以发现几个特例:

  • σ 已知时, I ( μ ) = E ( 2 l μ 2 ) = n / σ 2 ,故 π ( μ ) = 1 μ R
  • μ 已知时, I ( σ ) = E ( 2 l σ 2 ) = 2 n / σ 2 ,故 π ( σ ) = 1 / σ σ R +
  • μ σ 独立时, π ( μ , σ ) = π ( μ ) π ( σ ) = 1 / σ μ R σ R + .

由此可见: μ σ 的无先验分布是不独立的。其有两种形式: σ 1 σ 2 。Jeffreys最终推荐的形式是 σ 1 ,其实际表现效果也更加出色。

另外我们介绍一个二项分布的例子,设 θ 为成功概率,则在 n 次独立试验中成功次数 X 服从二项分布

P ( X = x ) = ( n x ) θ x ( 1 θ ) n x ,   x = 0 , 1 , , n

在二项分布场合下,成功概率 θ 的Jeffreys 先验分布为
π ( θ ) θ 1 / 2 ( 1 θ ) 1 / 2 ,   θ ( 0 , 1 )

最后,关于成功概率 θ 的无信息先验分布,这里列出其中四种:

π 1 ( θ ) = 1 Bayes(1763)和Laplace(1812)采用过 . π 2 ( θ ) = θ 1 ( 1 θ ) 1 Novick和Hall(1965)导出 . π 3 ( θ ) = θ 1 / 2 ( 1 θ ) 1 / 2 Jeffreys(1968)导出 . π 4 ( θ ) = θ θ ( 1 θ ) 1 θ Zellner(1977)导出 .

π 1 是正常密度, π 2 是不正常密度, π 3 π 4 正则化后是正常密度。

无信息先验不唯一,并且很少对结果产生重大影响,所以理论上任何无信息先验都可以采用。

猜你喜欢

转载自blog.csdn.net/weixin_41929524/article/details/80674219