5.1 Introduction 介绍

在第三章我们讨论了如果用最大化后验（MAP）做参数估计，即 $\hat\theta = \arg\max_p(\theta | \mathcal{D})$ ，和计算全后验 $p(\theta|\mathcal{D})$ 和计算后验预测密度（posterior predictive density） $p(\mathbf{x}|\mathcal{D})$

用后验分布（posterior distributino）来总结一切是贝叶斯统计的核心内容，第六章会讲另一种学派的方法，即频率学派（frequentist or classical statistics）.

5.2 Summarizing posterior distributions 总结后验分布

总结和回顾 $p(\theta|\mathcal{D})$

5.2.1 MAP estimation 最大后验估计

点估计（point estimate）有很多，比如后验众数（等价于 MAP），后验均值，后验中位数（median），后验边缘分布等。其中最后一个适合离散的情况，其他的适合连续的随机变量。

MAP 的方法有很多优点，比如有很多优化方法可以方便的求解（直接求导？），比如可以把先验当做正则项（regularizer）这样非贝叶斯的角度来理解。然而下面的小节会细数其四个方面的缺点，从而引出全贝叶斯方法的必要性。

5.2.1.1 No measure of uncertainty 无不确定性度量

点估计一般只会给出一个其认为是最好的结果，而没有对结果有一个不确定性估计。如掷一个不均匀的骰子，估计正面朝上的概率 $\theta$ 时，点估计会给出 $\hat\theta = 0.7$ ，我们不知道这个估计到底有多靠谱，即点估计没有提供 measure of uncertainty. 而完整的贝叶斯后验估计则是给出概率分布 $p(\theta) \sim \text{Beta}(0.7|a, b)$ 之类的结果，可以算出置信度。

5.2.1.2 Plugging in the MAP estimate can result in overfitting

没有给出点估计结果的置信度，就会使得预测分布过度自信，特别是对风险规避敏感问题的影响会很大。

5.2.1.3 The mode is an untypical point 众数不是典型的点

众数这个统计量可以在任意点取得，而不用像中数和均值那样要考虑整体的样本情况。

贝叶斯决策理论（Bayes decision theorem）会用有监督的方法探讨用众数，即 MAP 来做点估计到底有多靠谱。可以这样定义损失函数，

类型	表达式	范围
0-1 损失函数	$L(\theta, \hat\theta) = \mathbb{I}(\theta \ne \hat\theta)$	离散
平方损失	$L(\theta, \hat\theta) = (\theta - \hat\theta)^2$	连续
绝对值损失	$L(\theta, \hat\theta) = \|\theta - \hat\theta\|$	连续

5.2.1.4 MAP estimation is not invariant to reparameterization *

MAP 有个小问题，就是当测量单位改变时，如用厘米还是英尺来衡量距离，两个得到的参数估计结果不是一致的。书里用了随机变量的线性变换来描述这个问题。而最大似然估计（MLE）和贝叶斯推断（Bayes Inference）

5.2.2 Credible intervals 置信区间

贝叶斯学派置信区间（Bayes Credible intervals）和频率学派置信区间（frequentist confidence intervals）的概念相近，但是又不完全是同一个东西。

举个例子，假设误差率 $\alpha = 0.05$ ，且若后验概率 $p(\theta) \sim \mathcal{N}(0, 1)$ 的话，那么有

ℓ = Φ (α / 2) = - 1.96, u = Φ (1 - α / 2) = 1.96

$\ell = \Phi(\alpha / 2) = -1.96,\ u = \Phi(1 - \alpha / 2) = 1.96$ 其中

Φ $\Phi$ 是高斯分布的积累密度函数。那么

[−1.96,1.96] $[-1.96, 1.96]$ 就是误差率为

0.05 $0.05$ 的后验中心区间（posterior central interval）。

再举个例子，投硬币实验中，有充分统计量 $N_1 = 47, N = 100$ ，有 $p(\theta|\mathcal{D}) = \text{Beta}(47, 54)$ ，那么 $\theta$ 在后验置信区间 $(0.3749, 0.5673)$ 内的概率为 $95\%$ .

5.2.3 Inference for a difference in proportions

假如有两个营销员，一个90个好评，10个坏评；另一个则是两个好评，没有坏评。我们想用贝叶斯的方法，推断到底选哪个靠谱一些。

假设 $\theta_1, \theta_2$ 为两人的可靠性，且取先验为均匀分布 $\theta_i \sim \text{Beta}(1,1)$ ，那么两人的后验分布为

p (θ 1 | D 1) = Beta (91, 11), p (θ 2 | D 2) = Beta (3, 1)

$p(\theta_1|\mathcal{D}_1) = \text{Beta}(91, 11),\quad p(\theta_2|\mathcal{D}_2) = \text{Beta}(3, 1)$ 通过求解下面式子的数值积分，

p (θ 1 > θ 2 | D) = \int 10 \int 10 I (θ 1 > θ 2) Beta (θ 1 | y 1 + 1, N 1 - y 1 + 1) Beta (θ 2 | y 2 + 1, N 2 - y 2 + 1)

$p(\theta_1 > \theta_2|\mathcal{D}) = \int_0^1 \int_0^1 \mathbb{I}(\theta_1 > \theta_2) \text{Beta}(\theta_1|y_1+1, N_1 - y_1 + 1)\text{Beta}(\theta_2|y_2+1, N_2 - y_2 + 1)$ 可以算出

p(θ1>θ2|D)=0.710 $p(\theta_1 > \theta_2|\mathcal{D}) = 0.710$ ，或者也可以通过蒙特卡洛采样得到结果。

所以第一个营销员更靠谱一些。

5.3 Bayesian model selection 贝叶斯模型选择

一般模型有很多的参数和超参数，比如可以用验证集的方法来验证泛化（generalization）效果，另一种方法是通过贝叶斯的方法来做模型选择。若不同的 $m$ 表示不同的模型，有后验

p (m | D) = p ( D | m ) p ( m ) \sum m \in M p ( m , D )

$p(m|\mathcal{D}) = \frac{p(\mathcal{D}|m)p(m)}{\sum_{m \in \mathcal{M}}p(m, \mathcal{D})}$ 那么通过 MAP 得到

m^=argmaxmp(m|D) $\hat{m} = \arg\max_{m}p(m|\mathcal{D})$ 的模型就是最优的模型。这种模型选择的方法就是贝叶斯模型选择（Bayesian model selection）。

若是上式的先验是均匀分布的，即所有的 $p(m)$ 为相同的常数，那么改为最大化 $p(\mathcal{D}|m)$ ，而这个式子可以继续写成积分的形式，

p (D | m) = \int p (D | θ) p (θ | m) d θ

$p(\mathcal{D}|m) = \int p(\mathcal{D}|\theta)p(\theta|m)d\theta$

这个量叫做是边缘似然（marginal likelihood），或者叫积分似然（integrated likelihood），或者叫模型 $m$ 的证据（evidence）。这里的 $\theta$ 是模型 $m$ 的参数，假如是点估计，比如最大似然估计的话，那么 $p(\mathcal{D} | m) = p(\mathcal{D} | \hat\theta_{mle})$ 成立。然而贝叶斯的方法一般都是给出参数 $\theta$ 的分布，所以才会有积分符号。

5.3.1 Bayesian Occam’s razor

如果用点估计的结果 $p(\mathcal{D} | \hat\theta_m)$ 来选择模型，那么参数复杂的模型会更加能拟合数据。 $\hat\theta_m$ 可以是 MLE 或者 MAP 的估计结果。然而用边缘似然 $p(\mathcal{D}|\theta)$ 的方法，参数复杂的模型算出的概率不一定高，因此会有避免过拟合的作用。这个叫做贝叶斯奥卡姆剃刀（Bayes Occam’s razor）效应。

（这段没懂）此外，复杂的模型因为参数较多，所以概率密度分布地较为稀疏，又叫做是 conservation of probability mass principle.

5.3.2 Computing the marginal likelihood (evidence)

在计算边缘似然 $p(\theta|\mathcal{D})$ 时，我们要计算贝叶斯公式中的分母 $p(\mathcal{D})$ ，考虑贝叶斯公式中

p (θ | D) = p ( D | θ ) p ( θ ) p ( D )

$p(\theta|\mathcal{D}) = \frac{p(\mathcal{D}|\theta) p(\theta)}{p(\mathcal{D})}$ 用

q(⋅) $q(\cdot)$ 来表示未归一化的概率，具体有，

p (θ | D) = q ( θ | D ) Z N, p (D | θ) = q ( D | θ ) Z ℓ, p (θ) = q ( θ ) Z 0

$p(\theta | \mathcal{D}) = \frac{q(\theta|\mathcal{D})}{Z_N},\quad p( \mathcal{D}|\theta) = \frac{q(\mathcal{D}|\theta)}{Z_{\ell}},\quad p(\theta) = \frac{q(\theta)}{Z_0}$ 用各项替代贝叶斯公式后得到：

q ( θ | D ) Z N p (D) = q ( D | θ ) Z ℓ q ( θ ) Z 0

$\frac{q(\theta|\mathcal{D})}{Z_N} p(\mathcal{D}) = \frac{q(\mathcal{D}|\theta)}{Z_{\ell}} \frac{q(\theta)}{Z_0}$ 由于

q(θ|D)=q(D|θ)q(θ) $q(\theta|\mathcal{D}) = q(\mathcal{D}|\theta) q(\theta)$ ，可以化简为

p (D) = Z N Z ℓ Z 0

$p(\mathcal{D}) = \frac{Z_N}{Z_{\ell} Z_0}$

5.3.2.1 Beta-binomial model

在这个模型里，假设先验、似然和后验分别分从下面的分布，

p (θ | D) \sim Beta (a + N 1, b + N 0), p (D | θ) \sim Bin (θ, N 1), p (θ) \sim Beta (a, b)

$p(\theta|\mathcal{D}) \sim \text{Beta}(a+N_1, b+N_0),\quad p(\mathcal{D}|\theta) \sim \text{Bin}(\theta, N_1),\quad p(\theta) \sim \text{Beta}(a, b)$ 按照书里的展开化简以后，得到

p (D) = (N N 1) B ( a + N 1 , b + N 0 ) B ( a , b )

$p(\mathcal{D}) = \binom{N}{N_1} \frac{\text{B}(a+N_1, b + N_0)}{\text{B}(a, b)}$

5.3.2.2 Dirichlet-multinoulli model

同理，得到此分布的边缘似然，

p (D) = B ( N + α ) B ( α ) = Γ ( \sum k α k ) Γ ( N + \sum k α k ) \prod k Γ ( N k + α k ) Γ ( α k )

$p(\mathcal{D}) = \frac{\text{B}(\mathbf{N}+\boldsymbol{\alpha})}{\text{B}(\boldsymbol{\alpha})} = \frac{\Gamma(\sum_k \alpha_k)}{\Gamma(N+\sum_k \alpha_k)} \prod_k \frac{\Gamma(N_k + \alpha_k)}{\Gamma(\alpha_k)}$ 注意其中

B(α)=∏kΓ(αk)Γ(∑kαk) $\text{B}(\boldsymbol{\alpha}) = \frac{\prod_k\Gamma(\alpha_k)}{\Gamma(\sum_k \alpha_k)}$

5.3.2.3 Gaussian-Gaussian-Wishart model

多元高斯分布（MVN）的共轭先验是高斯逆Wishart分布（NIW prior），同理求解，公式略。

5.3.2.4 BIC approximation to log marginal likelihood

上面只是一些常见的模型求解边缘似然，那么更普遍的求法是通过BIC（Bayesian Information Criterion）的方法近似地估计，

BIC ≜ log p (D | θ^) - dof ( θ ^ ) 2 log N \approx log p (D)

$\text{BIC} \triangleq \log p(\mathcal{D}|\hat\theta) - \frac{\text{dof}(\hat\theta)}{2} \log N \approx \log p(\mathcal{D})$ 其中

dof(θ^) $\text{dof}(\hat\theta)$ 表示自由度，

θ^ $\hat\theta$ 表示 MLE 或者 MAP 估计参数的结果。

减数那项成为是 penalized log likelihood，模型越复杂，惩罚程度越严重。

$\text{BIC-cost}$ 则是 $\text{BIC}$ 的另一种表达，有 $\text{BIC-cost = -2 BIC}$ ，还有另一种求法，叫做Akaike information criterion or AIC，

AIC (m, D) ≜ log p (D | θ^MLE) - dof (m)

$\text{AIC}(m, \mathcal{D}) \triangleq \log p(\mathcal{D}|\hat\theta_{\text{MLE}}) - \text{dof}(m)$

5.3.2.5 Effect of the prior

引一下先验链，经验贝叶斯的概念。

5.3.3 Bayes factors 贝叶斯因子

假设现在只有两个模型， $M_0, M_1$ ，那么可以定义贝叶斯因子（Bayes factors）为边缘似然的概率，即

B F 1, 0 ≜ p ( D | M 1 ) p ( D | M 0 ) = p ( M 1 | D ) p ( M 0 | D ) / p ( M 1 ) p ( M 0 )

$BF_{1,0} \triangleq \frac{p(\mathcal{D}|M_1)}{p(\mathcal{D}|M_0)} = \frac{p(M_1|\mathcal{D})}{p(M_0|\mathcal{D})} / \frac{p(M_1)}{p(M_0)}$ 这个概念又可以称作是似然比率，和频率学派的 P 值（p value）概念类似。

假如两个模型的先验是一样的，即 $p(M_1) = p(M_0) = 0.5$ ，那么有

p (M 0 | D) = B F 0 , 1 1 + B F 0 , 1 = 1 B F 0 , 1 + 1

$p(M_0 | \mathcal{D}) = \frac{BF_{0,1}}{1+BF_{0,1}} = \frac{1}{BF_{0,1} + 1}$

5.3.3.1 Example: Testing if a coin is fair

投硬币的例子，可以选择均匀的硬币，也可以用 $\text{Beta}$ 分布来拟合。

5.3.4 Jeffreys-Lindley paradox *

improper priors 指的是积分不为 1 的先验概率。

5.4 Priors 先验

5.4.1 Uninformative priors 无信息先验

如果我们对参数的信息一无所知，最好应该使用 （无信息先验）uninformative or non-informative prior，考虑先验为 $\text{Beta}(1, 1)$ ，此时后验和先验还是不一样，所以并不能算是没有信息的先验。

最没有信息的先验应该是 Haldane prior，定义为，

lim c \to 0 Beta (c, c) = Beta (0, 0)

$\lim_{c\rightarrow0}\text{Beta}(c, c) = \text{Beta}(0, 0)$ 是一种 improper prior，因为其积分不为零。

5.4.2 Jeffreys priors *

Jeffreys priors 可以用来创建普遍目的的无信息先验。

这种方法推导出来的伯努利和多努利模型对应的 non-informative prior 为：

p (θ) \sim Beta (1 2, 1 2), p (θ) \sim Dir (1 2, \dots, 1 2)

$p(\theta) \sim \text{Beta}(\frac12, \frac12),\quad p(\theta) \sim \text{Dir}(\frac12, \cdots, \frac12)$

推导出的 location parameter，比如高斯模型的均值，具有平移不变性先验（translation invariant prior）， $p(\mu) \propto 1$ ；而推导出的 scale parameter，比如高斯模型的方差，具有尺度不变先验， $p(\sigma^2) \propto 1/\sigma^2$ .

5.4.3 Robust priors 鲁棒先验

假如我们对先验不太自信，可以选用更鲁棒性的先验，如用柯西先验（Cauchy prior） $\mathcal{T}(\theta|\mu,\sigma^2,\nu)$ 来代替高斯先验 $\mathcal{N}(\mu, \sigma^2)$ 。

5.4.4 Mixtures of conjugate priors 共轭先验的混合

鲁棒先验很有用，共轭先验计算简单，可以考虑把两者联系起来。用权重混合共轭先验，仍然保持共轭的性质，且可以拟合（approximate）任一种类的先验。先验可以写成这样的形式，

p (θ) = \sum k p (z = k) p (θ | z = k)

$p(\theta) = \sum_k p(z=k)p(\theta|z=k)$ 其中

p(θ|z=k) $p(\theta|z=k)$ 表示第

k $k$ 个混合的共轭先验，而

p(z=k) $p(z=k)$ 表示对应先验的权重。比如，

p (θ) = 0.5 Beta (θ | 20, 20) + 0.5 Beta (θ | 30, 10)

$p(\theta) = 0.5 \text{Beta}(\theta|20, 20) + 0.5\text{Beta}(\theta|30, 10)$

5.4.4.1 Example

5.4.4.2 Application: Finding conserved regions in DNA and protein sequences

5.5 Hierarchical Bayes 层次贝叶斯

在没有确切的似然信息时，除了使用 uninformative prior，还可以在先验上使用先验，用图模型的方法可以这样表示，

η \to θ \to D

$\eta \rightarrow \theta \rightarrow \mathcal{D}$ 这种方法叫做 层次贝叶斯模型（hierarchical Bayesian model），又叫做 多层模型（multi-level model）。

假设现在有 $N$ 个城市，每个城市有 $N_i$ 个人，其中患有癌症的人有 $x_i$ 个，且有 $x_i \sim \text{Bin}(N_i, \theta)$ . 一种估计参数 $\theta$ 的做法是，认为每个城市的 $\theta_i$ 都不一样，全部分开做，显然这样子城市人口少的模型估计会不准确。另一种极端是认为所有的城市患病率都一样，叫做参数绑定（parameter tying），那么有 $\theta_i = \hat\theta = \frac{\sum_i x_i}{\sum_i N_i}$ ，然而这样的假设又太强了。我们可以假设 $\theta_i \sim \text{Beta}(a, b)$ ，即是从一个 $\text{Beta}$ 分布中抽取的，那么有联合概率

p (D, θ | N) = p (D | θ, N) p (θ) = \prod i = 1 N Bin (x i | N i, θ i) Beta (θ i | a, b)

$\begin{align*} p(\mathcal{D}, \boldsymbol{\theta}|\mathbf{N}) & = p(\mathcal{D}|\boldsymbol{\theta}, \mathbf{N}) p(\boldsymbol{\theta}) \\ & = \prod_{i=1}^{N} \text{Bin}(x_i | N_i, \theta_i) \text{Beta}(\theta_i| a, b) \end{align*}$ 假如认为

η=(a,b) $\boldsymbol{\eta} = (a, b)$ 是变量的话，可以给

p(θ) $p(\theta)$ 再加上一个先验，即

p (θ) = p (η) p (θ | η)

$p(\theta) = p(\boldsymbol{\eta})p(\theta|\boldsymbol{\eta})$ 那么联合概率可以重写成书里给出的公式，

p (D, θ, η | N) = p (η) \prod i = 1 N Bin (x i | N i, θ i) Beta (θ i | η)

$p(\mathcal{D}, \boldsymbol{\theta}, \boldsymbol{\eta}|\mathbf{N}) = p(\boldsymbol{\eta})\prod_{i=1}^{N} \text{Bin}(x_i | N_i, \theta_i) \text{Beta}(\theta_i|\eta)$

5.6 Empirical Bayes 经验贝叶斯

层次贝叶斯中，可以这样子估计后验分布，

p (θ, η | D) \propto p (D | θ) p (θ | η) p (η)

$p(\boldsymbol{\theta}, \boldsymbol{\eta}|\mathcal{D}) \propto p(\mathcal{D}|\boldsymbol{\theta}) p(\boldsymbol{\theta}|\boldsymbol{\eta})p(\boldsymbol{\eta})$

因为维度较小，不容易过拟合，所以可以假定 $p(\eta)$ 是均匀分布，那么

η^= arg max p (D | η) = arg max [\int p (D | θ) p (θ | η) d θ]

$\hat\eta = \arg\max p(\mathcal{D}|\eta) = \arg\max \left[\int p(\mathcal{D}|\theta)p(\theta|\eta)d\theta \right]$ 这种方法叫做经验贝叶斯（empirical Bayes），又叫 type-II maximum likelihood.

5.6.1 Example: beta-binomial model

5.6.2 Example: Gaussian-Gaussian model

5.7 Bayesian decision theory 贝叶斯决策理论

对于贝叶斯决策理论，可以理解为怎样做出理性（rational）的决策，让模型逼近世界的真实数据。

考虑 $\mathbf{y} \in \mathcal{Y}$ 表示真实世界的状态，或者变量，参数等，然而我们能采样到的数据而言，一般都会带有噪声等，只能用 $\mathbf{x} \in \mathcal{X}$ ，叫做观测值来表示。贝叶斯决策（action）的目的是从决策空间（action space）中选一个动作 $a \in \mathcal{A}$ 来最小化损失函数 $L(y,a)$ ，即决策 $a$ 和真实变量 $y$ 尽量相容（compatible）。

可以定义这样的决策过程（decision procedure or policy）为：

δ : X \to A

$\delta: \mathcal{X} \rightarrow \mathcal{A}$ 即最小化期望的损失

δ (x) = arg max a \in A E [L (y, a)]

$\delta(\mathbf{x}) = \arg\max_{a\in\mathcal{A}} \mathbb{E} [L(y,a)]$

由于 $y$ 不可观测，所以一般转化成最小化下面的后验期望损失，

ρ (a | x) ≜ E p (y | x) [L (y, a)] = \sum y L (y, a) p (y | x)

$\rho(a|\mathbf{x}) \triangleq \mathbb{E}_{p(y|\mathbf{x})}[L(y,a)] = \sum_y L(y,a)p(y|\mathbf{x})$

这样得到最优化决策结果，叫做 Bayes estimator or Bayes decision rule，

δ (x) = arg min a \in A ρ (a | x)

$\delta(\mathbf{x}) = \arg\min_{a\in \mathcal{A}} \rho(\mathbf{a} | \mathbf{x})$

5.7.1 Bayes estinators for common loss functions

下面介绍几种常见的loss function

5.7.1.1 MAP estimate minimizes 0-1 loss

定义 0-1 loss 如下，

L (y, a) = I (y \neq a) = {0 if a = y 1 if a \neq y

$L(y,a) = \mathbb{I}(y \ne a) = \left\{\begin{matrix} 0\quad \text{if}\ a = y\\ 1\quad \text{if}\ a \ne y \end{matrix}\right.$

而 posterior expected loss 为，

ρ (a | x) = p (a \neq y | x) = 1 - p (y | x)

$\rho(a|\mathbf{x}) = p(a \ne y|\mathbf{x}) = 1 - p(y|\mathbf{x})$ 因此最小化 expected loss 就等价于最大后验估计 MAP，

y * (x) = arg max y \in Y p (y | x)

$y^*(\mathbf{x}) = \arg\max_{y\in \mathcal{Y}}p(y|\mathbf{x})$

5.7.1.2 Reject Option

拒识选项对某些特定领域的分类问题很重要，可以在原来的类别中多加一个选项。

5.7.1.3 Posterior mean minimizes $\ell_2$ (quadratic) loss

平方损失定义如下：

L (y, a) = (y - a) 2

$L(y,a) = (y-a)^2$ 那么后验损失为，

ρ (a | x) = E [(y - a) 2 | x] = E [y 2 | x] - 2 a E [y | x] + a 2

$\rho(a|\mathbf{x}) = \mathbb{E}[(y-a)^2|\mathbf{x}] = \mathbb{E}[y^2|\mathbf{x}] - 2a\mathbb{E}[y|\mathbf{x}] + a^2$ 可以通过求导的方式最小化该损失函数，

\partial \partial a ρ (a | x) = - 2 E [y | x] + 2 a = 0 \Rightarrow y^= E [y | x] = \int y p (y | x) d y

$\frac{\partial}{\partial a} \rho(a|\mathbf{x}) = -2\mathbb{E}[y|\mathbf{x}] + 2a = 0 \Rightarrow \hat{y} = \mathbb{E}[y|\mathbf{x}] = \int yp(y|\mathbf{x})dy$ 这个叫做最小化均值平方差估计（minimum mean squared error estimate, MMSE estimate）.

在线性回归中，有

p (y | x) = N (y | x T w, σ 2)

$p(y|\mathbf{x}) = \mathcal{N}(y|\mathbf{x}^T\mathbf{w}, \sigma^2)$ 那么给定训练集后的最优预测为

y^= E [y | x, D] = x T E [w | D]

$\hat{y} = \mathbb{E}[y|\mathbf{x}, \mathcal{D}] =\mathbf{x}^T\mathbb{E}[\mathbf{w}|\mathcal{D}]$

5.7.1.4 Posterior median minimizes $\ell_1$ (absolute) loss

平方损失对 outliers 数据很敏感，所以有时候会选用绝对值损失，即

L (y, a) = | y - a |

$L(y,a) = |y-a|$

5.7.1.5 Supervised learning 监督学习

前面的 $\delta$ 表示决策函数，现在把这个概念延伸到监督学习中，

δ : X \to Y

$\delta: \mathcal{X} \rightarrow \mathcal{Y}$ 这个

δ $\delta$ 和 Ng 的公开课 CS229 中的 hypothesis function 是一个意思。定义预测（predicting）

y′ $y'$ 和真实标签（truth）

y $y$ 之间的损失函数为

ℓ(y,y′) $\ell(y,y')$ ，上面的真实 state of nature，就是之前用

y $y$ 表示的变量，现在用

θ $\theta$ 表示的话，可以得到泛化误差（generalization error）

L (θ, δ) ≜ E (x, y) \sim p (x, y | θ) [ℓ (y, δ (x))] = \sum x \sum y L (y, δ (x)) p (x, y | θ)

$\begin{align*} L(\theta, \delta) & \triangleq \mathbb{E}_{(x,y) \sim p(x, y | \theta)}[\ell(y, \delta(x))] \\ & = \sum_x\sum_y L(y, \delta(x))p(x,y|\theta) \end{align*}$ 我们的目标是最小化 posterior expected loss，

ρ (δ | D) = \int p (θ | D) L (θ, δ) d θ

$\rho(\delta|\mathcal{D}) = \int p(\boldsymbol{\theta}|\mathcal{D})L(\boldsymbol{\theta}, \delta)d\boldsymbol{\theta}$

5.7.2 The false positive vs false negative tradeoff

这一小节主要考虑二分类问题，一般会犯两种错误

FP，false positive，false alarm，即把错的认为是对的，误警报
FN，false negative，missed detection，即对的认为错的，没有检测出来

令 $L_{FN}$ 表示 false negative 的 0-1 loss， $L_{FP}$ 表示 false positive 的代价，那么 posterior expeted loss 为

ρ (y^= 0 | x) = L F N p (y = 1 | x) ρ (y^= 1 | x) = L F P p (y = 0 | x)

$\rho(\hat y = 0 | \mathbf{x}) = L_{FN}\ p(y=1|\mathbf{x}) \\ \rho(\hat y = 1 | \mathbf{x}) = L_{FP}\ p(y=0|\mathbf{x})$

这两个式子怎么理解呢？其实可以直接从公式 5.98 推出

p (y^= 0 | x) = L (y = 0, y^= 0) p (y = 0 | x) + L (y = 1, y^= 0) p (y = 1 | x) = 0 \cdot p (y = 0 | x) + L F N p (y = 1 | x) = L F N p (y = 1 | x)

$\begin{align*} p(\hat y = 0|\mathbf{x}) & = L(y=0, \hat y = 0) p(y=0|\mathbf{x}) + L(y=1,\hat y = 0) p (y=1|\mathbf{x}) \\ & = 0 \cdot p(y=0|\mathbf{x}) + L_{FN} p(y=1|\mathbf{x}) \\ & = L_{FN} p(y=1|\mathbf{x}) \end{align*}$

令 $L_{FN} = cL_{FP}$ 那么定义

τ = c 1 + c = F N F N + F N

$\tau = \frac{c}{1+c} = \frac{FN}{FN + FN}$

5.6.2.1 ROC curves and all that

当固定 $\tau$ 以后的分类器可以统计几个概念的数量，

	Truth = 1	Truth = 0
Estimate = 1	TP, True Positive	FP, False Positive
Estimate = 0	FN, False Negative	TN, True Negative

上述的表格叫做 confusion matrix，统计了分类器所有的分类结果。可以计算相应的概率，

TPR, true positive rate, sensitivity, recall, hit rate， $TPR = \frac{TP}{TP+FN}$
FPR, false positive rate, false alarm rate, type I error rate， $FPR = \frac{FP}{FP+TN}$

如果把 $\tau$ 当做是变量，即改变对正负类判定的敏感性，那么就会得到不同的 TPR 和 FPR，得到的曲线叫做 ROC, receiver operating characteristic curve. 当 $\tau = \frac{c}{1+c} = 0$ 时，因为 $L_{FN} = c L_{FP}$ ，所以 $FP$ 非常大，那么就会把一且分类为 positive，即为 $1$ ；相反 $\tau = 1$ 时， $c \rightarrow \infty$ ，那么就会把一切分类为 negative，即为零。

ROC curve 好不好，有时候可以用 area uder the curve, AUC 来衡量，取值区间在 $[0, 1]$ 之内，越大越好。

另外有统计量可以取 $FPR = FNR = 1 - TPR$ ，叫做 equal error rate or EER, cross over rate.

5.6.2.2 Precision recall curves

定义：

精确率，precision, $P = \frac{TP}{TP + FP} = p(y = 1|\hat y = 1)$
召回率，recall, $R = \frac{TP}{TP + FN} = p(\hat y = 1|y = 1)$

以 $\tau$ 为变量画出的曲线为 precision-recall-curve

5.6.2.3 F-scores *

F-scores 是想用一个值表达准确率和召回率的好坏，定义如下：

F 1 ≜ 2 1 / P + 1 / R = 2 P R R + P

$F_1 \triangleq \frac{2}{1/P + 1/R} = \frac{2PR}{R+P}$

MLaPP Chapter 5 Bayesian statistics 贝叶斯统计