5.1 Introduction 介绍
在第三章我们讨论了如果用最大化后验(MAP)做参数估计,即
用后验分布(posterior distributino)来总结一切是贝叶斯统计的核心内容,第六章会讲另一种学派的方法,即频率学派(frequentist or classical statistics).
5.2 Summarizing posterior distributions 总结后验分布
总结和回顾
5.2.1 MAP estimation 最大后验估计
点估计(point estimate)有很多,比如后验众数(等价于 MAP),后验均值,后验中位数(median),后验边缘分布等。其中最后一个适合离散的情况,其他的适合连续的随机变量。
MAP 的方法有很多优点,比如有很多优化方法可以方便的求解(直接求导?),比如可以把先验当做正则项(regularizer)这样非贝叶斯的角度来理解。然而下面的小节会细数其四个方面的缺点,从而引出全贝叶斯方法的必要性。
5.2.1.1 No measure of uncertainty 无不确定性度量
点估计一般只会给出一个其认为是最好的结果,而没有对结果有一个不确定性估计。如掷一个不均匀的骰子,估计正面朝上的概率
5.2.1.2 Plugging in the MAP estimate can result in overfitting
没有给出点估计结果的置信度,就会使得预测分布过度自信,特别是对风险规避敏感问题的影响会很大。
5.2.1.3 The mode is an untypical point 众数不是典型的点
众数这个统计量可以在任意点取得,而不用像中数和均值那样要考虑整体的样本情况。
贝叶斯决策理论(Bayes decision theorem)会用有监督的方法探讨用众数,即 MAP 来做点估计到底有多靠谱。可以这样定义损失函数,
类型 | 表达式 | 范围 |
---|---|---|
0-1 损失函数 |
|
离散 |
平方损失 |
|
连续 |
绝对值损失 |
|
连续 |
5.2.1.4 MAP estimation is not invariant to reparameterization *
MAP 有个小问题,就是当测量单位改变时,如用厘米还是英尺来衡量距离,两个得到的参数估计结果不是一致的。书里用了随机变量的线性变换来描述这个问题。而最大似然估计(MLE)和贝叶斯推断(Bayes Inference)
5.2.2 Credible intervals 置信区间
贝叶斯学派置信区间(Bayes Credible intervals) 和 频率学派置信区间(frequentist confidence intervals) 的概念相近,但是又不完全是同一个东西。
举个例子,假设误差率
再举个例子,投硬币实验中,有充分统计量
5.2.3 Inference for a difference in proportions
假如有两个营销员,一个90个好评,10个坏评;另一个则是两个好评,没有坏评。我们想用贝叶斯的方法,推断到底选哪个靠谱一些。
假设
所以第一个营销员更靠谱一些。
5.3 Bayesian model selection 贝叶斯模型选择
一般模型有很多的参数和超参数,比如可以用验证集的方法来验证泛化(generalization)效果,另一种方法是通过贝叶斯的方法来做模型选择。若不同的
若是上式的先验是均匀分布的,即所有的
这个量叫做是边缘似然(marginal likelihood),或者叫积分似然(integrated likelihood),或者叫模型
5.3.1 Bayesian Occam’s razor
如果用点估计的结果
(这段没懂)此外,复杂的模型因为参数较多,所以概率密度分布地较为稀疏,又叫做是 conservation of probability mass principle.
5.3.2 Computing the marginal likelihood (evidence)
在计算边缘似然
5.3.2.1 Beta-binomial model
在这个模型里,假设先验、似然和后验分别分从下面的分布,
5.3.2.2 Dirichlet-multinoulli model
同理,得到此分布的边缘似然,
5.3.2.3 Gaussian-Gaussian-Wishart model
多元高斯分布(MVN)的共轭先验是高斯逆Wishart分布(NIW prior),同理求解,公式略。
5.3.2.4 BIC approximation to log marginal likelihood
上面只是一些常见的模型求解边缘似然,那么更普遍的求法是通过BIC(Bayesian Information Criterion)的方法近似地估计,
减数那项成为是 penalized log likelihood,模型越复杂,惩罚程度越严重。
5.3.2.5 Effect of the prior
引一下先验链,经验贝叶斯的概念。
5.3.3 Bayes factors 贝叶斯因子
假设现在只有两个模型,
假如两个模型的先验是一样的,即
5.3.3.1 Example: Testing if a coin is fair
投硬币的例子,可以选择均匀的硬币,也可以用
5.3.4 Jeffreys-Lindley paradox *
improper priors 指的是积分不为 1 的先验概率。
5.4 Priors 先验
5.4.1 Uninformative priors 无信息先验
如果我们对参数的信息一无所知,最好应该使用 (无信息先验)uninformative or non-informative prior,考虑先验为
最没有信息的先验应该是 Haldane prior,定义为,
5.4.2 Jeffreys priors *
Jeffreys priors 可以用来创建普遍目的的无信息先验。
这种方法推导出来的伯努利和多努利模型对应的 non-informative prior 为:
推导出的 location parameter,比如高斯模型的均值,具有平移不变性先验(translation invariant prior),
5.4.3 Robust priors 鲁棒先验
假如我们对先验不太自信,可以选用更鲁棒性的先验,如用柯西先验(Cauchy prior)
5.4.4 Mixtures of conjugate priors 共轭先验的混合
鲁棒先验很有用,共轭先验计算简单,可以考虑把两者联系起来。用权重混合共轭先验,仍然保持共轭的性质,且可以拟合(approximate)任一种类的先验。先验可以写成这样的形式,
5.4.4.1 Example
5.4.4.2 Application: Finding conserved regions in DNA and protein sequences
5.5 Hierarchical Bayes 层次贝叶斯
在没有确切的似然信息时,除了使用 uninformative prior,还可以在先验上使用先验,用图模型的方法可以这样表示,
5.5.1 Example: modeling related cancer rates
假设现在有
5.6 Empirical Bayes 经验贝叶斯
层次贝叶斯中,可以这样子估计后验分布,
因为维度较小,不容易过拟合,所以可以假定
5.6.1 Example: beta-binomial model
5.6.2 Example: Gaussian-Gaussian model
5.7 Bayesian decision theory 贝叶斯决策理论
对于贝叶斯决策理论,可以理解为怎样做出理性(rational)的决策,让模型逼近世界的真实数据。
考虑
可以定义这样的决策过程(decision procedure or policy)为:
由于
这样得到最优化决策结果,叫做 Bayes estimator or Bayes decision rule,
5.7.1 Bayes estinators for common loss functions
下面介绍几种常见的loss function
5.7.1.1 MAP estimate minimizes 0-1 loss
定义 0-1 loss 如下,
而 posterior expected loss 为,
5.7.1.2 Reject Option
拒识选项对某些特定领域的分类问题很重要,可以在原来的类别中多加一个选项。
5.7.1.3 Posterior mean minimizes
ℓ2
(quadratic) loss
平方损失定义如下:
在线性回归中,有
5.7.1.4 Posterior median minimizes
ℓ1
(absolute) loss
平方损失对 outliers 数据很敏感,所以有时候会选用绝对值损失,即
5.7.1.5 Supervised learning 监督学习
前面的
5.7.2 The false positive vs false negative tradeoff
这一小节主要考虑二分类问题,一般会犯两种错误
- FP,false positive,false alarm,即把错的认为是对的,误警报
- FN,false negative,missed detection,即对的认为错的,没有检测出来
令
这两个式子怎么理解呢?其实可以直接从公式 5.98 推出
令
5.6.2.1 ROC curves and all that
当固定
Truth = 1 | Truth = 0 | |
---|---|---|
Estimate = 1 | TP, True Positive | FP, False Positive |
Estimate = 0 | FN, False Negative | TN, True Negative |
上述的表格叫做 confusion matrix,统计了分类器所有的分类结果。可以计算相应的概率,
- TPR, true positive rate, sensitivity, recall, hit rate,
TPR=TPTP+FN - FPR, false positive rate, false alarm rate, type I error rate,
FPR=FPFP+TN
如果把
ROC curve 好不好,有时候可以用 area uder the curve, AUC 来衡量,取值区间在
另外有统计量可以取
5.6.2.2 Precision recall curves
定义:
- 精确率,precision,
P=TPTP+FP=p(y=1|y^=1) - 召回率,recall,
R=TPTP+FN=p(y^=1|y=1)
以
5.6.2.3 F-scores *
F-scores 是想用一个值表达准确率和召回率的好坏,定义如下: