由于课程需要，这段时间主要在学习《高等数理统计》（茆诗松等）的无信息先验部分的知识，这部分内容主要还是书中讲解的内容，但是会结合网上的一些资料以及自己的一些理解进行阐述。

贝叶斯统计

贝叶斯统计缘起于托马斯.贝叶斯（1702-1761），一位英国长老会牧师和业余数学家。在他去世后发表的论文“论有关机遇问题的求解”中，贝叶斯定理的现代形式实际上归因于拉普拉斯（1812）。拉普拉斯重新发现了贝叶斯定理，并把它用来解决天体力学、医学甚至法学的问题。但自19世纪中叶起，随着频率学派（在下文有时也称作经典统计）的兴起，概率的贝叶斯解释逐渐被统计学主流所拒绝。

现代贝叶斯统计学的复兴肇始于Jeffreys(1939),在1950年代，经过Wald(1950),Savage(1954),Raiffic&Schlaifer(1961),Lindley(1972),De Finetti(1974)等人的努力，贝叶斯统计学逐渐发展壮大，并发展出了贝叶斯统计决策理论这个新分支。特别是到1990年代以后，随着计算方法MCMC在贝叶斯统计领域的广泛应用，解决了贝叶斯统计学长期存在的计算困难的问题，从而推动了贝叶斯统计在理论和应用领域的长足发展。（以上部分节选自网络）

无信息先验分布

通常在贝叶斯分析中，我们需要指定一个先验，但事实在很多前提下，我们是不知道其先验的，这时我们就可以采用无信息先验分布来进行分析计算。

首先我们来考虑：没有信息的场合如何确定先验分布？

无信息先验分布
与其它“主观”的先验相比更接近“客观”

后面我们将会介绍几种无信息先验分布：

Bayes 假设
位置参数的无信息先验分布
尺度参数的无信息先验分布
Jeffreys 先验分布

Bayes 假设

有以下几点：

“没有 $\theta$ 的任何信息” $\Rightarrow$ 将 $\theta$ 取值范围上的均匀分布作为 $\theta$ 的先验分布。
“Bayes 假设”：均匀分布
例如：如果参数空间 $\Theta = (a, b)$ ，则可用 $U(a, b)$ 作为先验分布

由此我们引出一些问题：

当 $\Theta$ 为无限区间，无法定义一个正常的先验分布
Bayes 假设不满足变换下的不变性

这里我们由一个例子来引出广义先验分布的概念：

设总体 $X \sim N(\theta, 1)$ ，其中 $\theta \in (-\infty, \infty) = \Theta$ ，若对 $\theta$ 既无任何信息，也无偏爱，则应取如下均匀分布：

π (θ) = c, - \infty < θ < \infty

$\pi(\theta) = c, \ \ \ \ \ -\infty<\theta<\infty$
不是一个正常的概率密度函数。按Bayes公式计算：

\begin{aligned} π (θ | x) & = \frac{h (x, θ)}{m (x)} = \frac{p (x | θ) π (θ)}{\int_{- \infty}^{\infty} p (x | θ) π (θ) d θ} \\ = \frac{1}{\sqrt{2 π}} e x p {- \frac{1}{2} (θ - x)^{2}} \end{aligned}

$\begin{equation*} \begin{aligned} \pi(\theta|x)&=\frac{h(x, \theta)}{m(x)}=\frac{p(x|\theta)\pi(\theta)}{\int_{-\infty}^{\infty}p(x|\theta)\pi(\theta)d\theta}\\ &=\frac{1}{\sqrt{2\pi}}exp\left\lbrace -\frac{1}{2}(\theta-x)^2 \right\rbrace \end{aligned} \end{equation*}$
此时，给定

x

$x$ 下，

θ

$\theta$ 的后验分布为

N (x, 1)

$N(x, 1)$ 。

下面我们给出广义先验分布的具体定义：

设总体 $X \sim p(x|\theta), \theta \in \Theta$ ，若满足下列条件
- $\pi(\theta)>0$ 且 $\int_{\Theta}\pi(\theta)d\theta$
- 由此决定的后验密度 $\pi(\theta|x)$ 是正常的密度函数。
则称 $\pi(\theta)$ 为 $\theta$ 的广义先验密度。

前面例子中给出的 $\pi(\theta) = c$ 就是正态均值 $\theta$ 的一个广义先验分布。常选用 $\pi(\theta) = 1$ 。

但这样做会有一些问题，比如：很多时候Bayes假设都不满足变换下的不变性。

正态总体 $N(0,\sigma^2)$ ：方差 $\sigma^2$ ，标准差 $\sigma$ ，均在 $(0,\infty)$ 上取值
$\sigma$ 的先验分布为 $\pi(\sigma)$
则 $\eta = \sigma^2$ 的分布为：

π (\sqrt{η}) | \frac{d σ}{d η} | = π (\sqrt{η}) / (2 \sqrt{η})

$\pi(\sqrt{\eta})\left|\frac{d\sigma}{d\eta}\right| = \pi(\sqrt{\eta})/(2\sqrt{\eta})$

若 $\sigma$ 的无信息先验分布为常数，那么 $\eta = \sigma^2$ 的无信息先验密度应与 $\eta^{-1/2}$ 成比例。与Bayes假设矛盾。

位置参数的无信息先验分布

设总体 $X$ 的密度函数具有形式 $p(x-\theta)$ ， $\theta$ 称为位置参数，参数空间与样本空间均为 $\mathbb{R}$ 。

$Y=X+c$
$\eta = \theta+c$

$Y$ 的密度为 $p(y-\eta)$ ，同样是位置参数族成员。 $\eta$ 与 $\theta$ 应具有相同分布。（位置变换下保持不变）所以应该有相同的无信息先验分布：

π (τ) = π^{*} (τ)

$\pi(\tau)=\pi^*(\tau)$
另一方面，由

η = θ + c

$\eta = \theta+c$ ，可计算

η

$\eta$ 的无信息先验密度为：

π^{*} (η) = | \frac{d θ}{d η} | π (η - c) = π (η - c)

$\pi^*(\eta) = \left|\frac{d\theta}{d\eta}\right| \pi(\eta - c) = \pi(\eta - c)$

\Rightarrow π (η) = π (η - c)

$\Rightarrow \pi(\eta) = \pi(\eta - c)$
由于

η

$\eta$ 与

c

$c$ 的任意性，

θ

$\theta$ 的无信息先验分布

π (θ)

$\pi (\theta)$ 为一个常数，取其为1。位置参数在位移变换保持不变的无信息先验分布是

π (θ) = 1

$\pi(\theta)=1$ ，即Bayes假设。

尺度参数的无信息先验分布

设总体 $X$ 的密度函数具有形式 $\dfrac{1}{\sigma} p(\dfrac{x}{\sigma})$ ， $\sigma$ 称为尺度参数，参数空间为 $\mathbb{R}^+$ 。

$Y=cX(c>0)$
$\eta =c\theta$

$Y$ 的密度函数为 $\dfrac{1}{\eta} p(\dfrac{y}{\eta})$ ，同样是尺度参数族成员。同样也应该有相同的无信息先验分布：

π (τ) = π^{*} (τ)

$\pi(\tau)=\pi^*(\tau)$

另一方面，由 $\eta = c\theta$ ，可计算 $\eta$ 的无信息先验密度为：

π^{*} (η) = | \frac{d θ}{d η} | π (\frac{η}{c}) = \frac{1}{c} π (\frac{η}{c})

$\pi^*(\eta) = \left|\frac{d\theta}{d\eta}\right| \pi(\frac{\eta}{c}) = \frac{1}{c} \pi(\frac{\eta}{c})$

\Rightarrow π (η) = \frac{1}{c} π (\frac{η}{c})

$\Rightarrow \pi(\eta) = \frac{1}{c} \pi(\frac{\eta}{c})$
取

η = c

$\eta=c$ ，则有

π (c) = \frac{1}{c} π (1)

$\pi(c) = \dfrac{1}{c}\pi(1)$ ，为方便记，令

π (1) = 1

$\pi(1) = 1$ ，则

σ

$\sigma$ 的无信息先验分布为

π (σ) = \frac{1}{σ}, σ > 0

$\pi(\sigma) = \dfrac{1}{\sigma},\ \ \ \ \sigma>0$

尺度参数在比例变换保持不变的无信息先验分布是 $\pi(\theta)=\dfrac{1}{\sigma}$ 。与参数为 $\dfrac{1}{\sigma}$ 的指数分布 $p(x|\sigma) = \dfrac{1}{\sigma}exp \left\lbrace -\dfrac{x}{\sigma} \right\rbrace$ 相结合，其后验密度为：

\begin{aligned} π (σ | x) & = \frac{h (x, σ)}{m (x)} = \frac{p (x | σ) π (σ)}{\int_{0}^{\infty} p (x | σ) π (σ) d σ} \\ = \frac{x}{σ^{2}} e x p {- \frac{x}{σ}} \end{aligned}

$\begin{equation*} \begin{aligned} \pi(\sigma|x)&=\frac{h(x, \sigma)}{m(x)}=\frac{p(x|\sigma)\pi(\sigma)}{\int_{0}^{\infty}p(x|\sigma)\pi(\sigma)d\sigma}\\ &= \dfrac{x}{\sigma^2}exp \left\lbrace -\dfrac{x}{\sigma} \right\rbrace \end{aligned} \end{equation*}$
倒Gamma分布的概率密度函数：

p (x; α, β) = \frac{β^{α}}{Γ (α)} x^{- α - 1} \exp (- \frac{β}{x}), α > 0, β > 0

$p(x;\alpha ,\beta )={\frac {\beta ^{\alpha }}{\Gamma (\alpha )}}x^{-\alpha -1}\exp \left(-{\frac {\beta }{x}}\right),\alpha>0,\beta>0$
即后验密度为正常概率密度函数，故上述无信息先验分布是尺度参数

σ

$\sigma$ 的广义先验分布。

Jeffreys 先验分布

1961年，Jeffreys在他的书里提出了Jeffreys 先验，其最主要性质就是不变性（invariant），即先验的形式不随着参数形式变化而变化。
较好地解决了无信息先验中的一个矛盾：若对参数 $\theta$ 选用均匀分布，则其函数 $g(\theta)$ 往往不是均匀分布。
采用Fisher信息阵的平方根作为 $\theta$ 的无信息先验分布。

其具体的计算过程如下：
设 $x = (x_1, \cdots, x_n)$ 是来自密度函数 $p(x|\theta)$ 的一个样本，其中 $\pmb{\theta} = (\theta_1, \cdots, \theta_p)$ 是 $p$ 维参数向量。

样本的对数似然函数 $l(\pmb{\theta} | x) = \sum_{i = 1}^n \text{ln}\ p(x_i | \theta)$ ；
计算出参数 $\pmb{\theta}$ 的Fisher信息阵
$I (θ θ) = E_{x | θ} {(- \frac{\partial^{2} l}{\partial θ_{i} \partial θ_{j}})}_{i, j = 1, \dots, p}$ $\mathbf{I}(\pmb{\theta})=E_{x|\theta}\left( -\dfrac{\partial^2 l}{\partial \theta_i \partial \theta_j} \right)_{i,j=1,\cdots, p}$
在单参数场合， $\mathbf{I}(\theta)=E_{x|\theta}\left( -\dfrac{\partial^2 l}{\partial \theta^2} \right)$ ;
$\pmb{\theta}$ 的无信息先验密度函数为 $\pi (\pmb{\theta}) = [\text{det}\ \mathbf{I}(\pmb{\theta})]^{1/2}$ .在单参数场合， $\pi (\pmb{\theta}) = [\mathbf{I}(\theta)]^{1/2}$

下面我们具体说明Jeffreys 先验分布的不变性。

Jeffreys 先验分布的不变性

单参数情形：

$\varphi(\theta)$ 为 $\theta$ 的函数，已知： $\pi(\theta )\propto {\sqrt {\mathbf{I}(\theta )}}$ ，考虑 $\pi(\varphi)$ ：

\begin{aligned} π (φ) & = π (θ) | \frac{d θ}{d φ} | \\ \propto \sqrt{I (θ) {(\frac{d θ}{d φ})}^{2}} = \sqrt{E [{(\frac{d \ln l}{d θ})}^{2}] {(\frac{d θ}{d φ})}^{2}} \\ = \sqrt{E [{(\frac{d \ln l}{d θ} \frac{d θ}{d φ})}^{2}]} = \sqrt{E [{(\frac{d \ln l}{d φ})}^{2}]} \\ = \sqrt{I (φ)} . \end{aligned}

$\begin{equation*} \begin{aligned} \pi(\varphi )&=\pi(\theta )\left|{\frac {d\theta }{d\varphi }}\right|\\ &\propto {\sqrt {\mathbf{I}(\theta )\left({\frac {d\theta }{d\varphi }}\right)^{2}}}={\sqrt {\operatorname {E} \!\left[\left({\frac {d\ln l}{d\theta }}\right)^{2}\right]\left({\frac {d\theta }{d\varphi }}\right)^{2}}}\\ &={\sqrt {\operatorname {E} \!\left[\left({\frac {d\ln l}{d\theta }}{\frac {d\theta }{d\varphi }}\right)^{2}\right]}}={\sqrt {\operatorname {E} \!\left[\left({\frac {d\ln l}{d\varphi }}\right)^{2}\right]}}\\ &={\sqrt {\mathbf{I}(\varphi )}}. \end{aligned} \end{equation*}$

多参数向量情形：

\begin{aligned} π (\vec{φ}) & = π (\vec{θ}) | det \frac{\partial θ_{i}}{\partial φ_{j}} | \\ \propto \sqrt{det I (\vec{θ}) {det}^{2} \frac{\partial θ_{i}}{\partial φ_{j}}} \\ = \sqrt{det \frac{\partial θ_{k}}{\partial φ_{i}} det E [\frac{\partial \ln L}{\partial θ_{k}} \frac{\partial \ln L}{\partial θ_{l}}] det \frac{\partial θ_{l}}{\partial φ_{j}}} \\ = \sqrt{det E [\sum_{k, l} \frac{\partial θ_{k}}{\partial φ_{i}} \frac{\partial \ln L}{\partial θ_{k}} \frac{\partial \ln L}{\partial θ_{l}} \frac{\partial θ_{l}}{\partial φ_{j}}]} \\ = \sqrt{det E [\frac{\partial \ln L}{\partial φ_{i}} \frac{\partial \ln L}{\partial φ_{j}}]} = \sqrt{det I (\vec{φ})} . \end{aligned}

$\begin{aligned}\pi({\vec \varphi })&=\pi({\vec \theta })\left|\det {\frac {\partial \theta _{i}}{\partial \varphi _{j}}}\right|\\&\propto {\sqrt {\det I({\vec \theta })\,{\det }^{2}{\frac {\partial \theta _{i}}{\partial \varphi _{j}}}}}\\&={\sqrt {\det {\frac {\partial \theta _{k}}{\partial \varphi _{i}}}\,\det \operatorname {E}\!\left[{\frac {\partial \ln L}{\partial \theta _{k}}}{\frac {\partial \ln L}{\partial \theta _{l}}}\right]\,\det {\frac {\partial \theta _{l}}{\partial \varphi _{j}}}}}\\&={\sqrt {\det \operatorname {E}\!\left[\sum _{{k,l}}{\frac {\partial \theta _{k}}{\partial \varphi _{i}}}{\frac {\partial \ln L}{\partial \theta _{k}}}{\frac {\partial \ln L}{\partial \theta _{l}}}{\frac {\partial \theta _{l}}{\partial \varphi _{j}}}\right]}}\\&={\sqrt {\det \operatorname {E}\!\left[{\frac {\partial \ln L}{\partial \varphi _{i}}}{\frac {\partial \ln L}{\partial \varphi _{j}}}\right]}}={\sqrt {\det I({\vec \varphi })}}.\end{aligned}$

下面我们以一个例子来详细介绍Jeffreys 先验分布：

设 $X= (x_1, \cdots, x_n)$ 来自正态总体 $N(\mu, \sigma^2)$ 的一个样本，现求参数向量 $(\mu, \sigma)$ 的Jeffreys 先验。

正态总体的对数似然函数

l (μ, σ) = - \frac{1}{2} \ln (2 π) - n \ln σ - \frac{1}{2 σ^{2}} \sum_{i = 1}^{n} (x_{i} - μ)^{2}

$l(\mu, \sigma) = -\frac{1}{2}\ln(2\pi) - n \ln \sigma - \frac{1}{2\sigma^2}\sum_{i=1}^n(x_i - \mu)^2$
其Fisher信息阵为：

\begin{aligned} I (μ, σ) & = (\begin{matrix} E (- \frac{\partial^{2} l}{\partial μ^{2}}) & E (- \frac{\partial^{2} l}{\partial μ \partial σ}) \\ E (- \frac{\partial^{2} l}{\partial μ \partial σ}) & E (- \frac{\partial^{2} l}{\partial σ^{2}}) \end{matrix}) \\ = (\begin{matrix} n / σ^{2} & 0 \\ 0 & 2 n / σ^{2} \end{matrix}) \end{aligned}

$\begin{align*} \mathbf{I}(\mu, \sigma)&= \begin{pmatrix} \text{E}\left( -\dfrac{\partial^2 l}{\partial \mu^2}\right) & \text{E}\left( -\dfrac{\partial^2 l}{\partial \mu \partial \sigma} \right) \\ \text{E}\left( -\dfrac{\partial^2 l}{\partial \mu \partial \sigma} \right) & \text{E}\left( -\dfrac{\partial^2 l}{\partial \sigma^2}\right) \end{pmatrix}\\ &= \begin{pmatrix} n/\sigma^2 & 0 \\ 0 & 2n/\sigma^2 \end{pmatrix} \end{align*}$

det I (μ, σ) = 2 n^{2} σ^{- 4}

$\begin{equation*} \text{det}\ I(\mu, \sigma) = 2n^2\sigma^{-4} \end{equation*}$
因此

(μ, σ)

$(\mu, \sigma)$ 的Jeffreys 先验为

π (μ, σ) \propto σ^{- 2}

$\pi(\mu, \sigma) \propto \sigma^{-2}$

根据上面的例子，我们可以发现几个特例：

当 $\sigma$ 已知时， $I(\mu) = - \text{E}\left( -\dfrac{\partial^2 l}{\partial \mu^2} \right) = n/\sigma^2$ ，故 $\pi(\mu)=1$ ， $\mu \in \mathbb{R}$ ；
当 $\mu$ 已知时， $I(\sigma) = - \text{E}\left( -\dfrac{\partial^2 l}{\partial \sigma^2} \right) = 2n/\sigma^2$ ，故 $\pi(\sigma)=1/\sigma$ ， $\sigma \in \mathbb{R^+}$ ；
当 $\mu$ 与 $\sigma$ 独立时， $\pi(\mu, \sigma)=\pi(\mu) * \pi(\sigma)=1/\sigma$ ， $\mu \in \mathbb{R}$ ， $\sigma \in \mathbb{R^+}$ .

由此可见： $\mu$ 与 $\sigma$ 的无先验分布是不独立的。其有两种形式： $\sigma^{-1}$ 与 $\sigma^{-2}$ 。Jeffreys最终推荐的形式是 $\sigma^{-1}$ ，其实际表现效果也更加出色。

另外我们介绍一个二项分布的例子，设 $\theta$ 为成功概率，则在 $n$ 次独立试验中成功次数 $X$ 服从二项分布

P (X = x) = (\begin{matrix} n \\ x \end{matrix}) θ^{x} (1 - θ)^{n - x}, x = 0, 1, \dots, n

$P(X = x) = \begin{pmatrix} n \\ x \end{pmatrix}\theta^x(1-\theta)^{n-x},\ x = 0, 1, \cdots, n$
在二项分布场合下，成功概率

θ

$\theta$ 的Jeffreys 先验分布为

π (θ) \propto θ^{- 1 / 2} (1 - θ)^{- 1 / 2}, θ \in (0, 1)

$\pi(\theta) \propto \theta^{-1/2}(1-\theta)^{-1/2},\ \theta \in (0, 1)$

最后，关于成功概率 $\theta$ 的无信息先验分布，这里列出其中四种：

\begin{aligned} π_{1} (θ) & = 1 & - Bayes(1763)和Laplace(1812)采用过 & . \\ π_{2} (θ) & = θ^{- 1} (1 - θ)^{- 1} & - Novick和Hall(1965)导出 & . \\ π_{3} (θ) & = θ^{- 1 / 2} (1 - θ)^{- 1 / 2} & - Jeffreys(1968)导出 & . \\ π_{4} (θ) & = θ^{θ} (1 - θ)^{1 - θ} & - Zellner(1977)导出 & . \end{aligned}

$\begin{align*} \pi_1(\theta) &= 1 &-\text{Bayes(1763)和Laplace(1812)采用过}&.\\ \pi_2(\theta) &= \theta^{-1}(1-\theta)^{-1} &-\text{Novick和Hall(1965)导出}&.\\ \pi_3(\theta) &= \theta^{-1/2}(1-\theta)^{-1/2} &-\text{Jeffreys(1968)导出}&.\\ \pi_4(\theta) &= \theta^{\theta}(1-\theta)^{1-\theta} &-\text{Zellner(1977)导出}&.\\ \end{align*}$

$\pi_1$ 是正常密度， $\pi_2$ 是不正常密度， $\pi_3$ ， $\pi_4$ 正则化后是正常密度。

无信息先验不唯一，并且很少对结果产生重大影响，所以理论上任何无信息先验都可以采用。

Bayes分析中的无信息先验