5.6 贝叶斯统计

频率学派的观点是，对于一个概率模型，参数是未知的常量

而贝叶斯学派的观点是，参数是未知的变量，它自身也是遵循某个概率分布的，我们只有它的先验分布，需要根据观察到的数据来进行调整。通常来说，如果我们对参数不具有太多确定性的时候，采用高斯分布作为先验是附加条件最小的分布

频率派的典型就是极大似然估计，本质上是一个优化问题。而贝叶斯派是基于贝叶斯公式（如下），最关键是求分母，这通常是一个求积分问题

$p\left(\boldsymbol{\theta} \mid x^{(1)}, \ldots, x^{(m)}\right)=\frac{p\left(x^{(1)}, \ldots, x^{(m)} \mid \boldsymbol{\theta}\right) p(\boldsymbol{\theta})}{p\left(x^{(1)}, \ldots, x^{(m)}\right)}$

贝叶斯派和频率派的两个重要区别

1. $\theta$ 的不确定性

频率派将 $\theta$ 视为一个常数，而贝叶斯派将其视为一个随机变量。频率派是通过评估估计量的方差来评估 $\theta$ 的不确定性，而贝叶斯的方法是积分。

2. 贝叶斯先验分布

先验能够影响概率质量密度朝参数空间中偏好先验的区域偏移。贝叶斯派是同时考虑过去的信念和最新的观测来做预测，而频率派则只考虑最新的观测

贝叶斯线性回归

打公式太累。。。就不写了
白板推导系列，强烈推荐，不只是贝叶斯线性回归，up主讲了很多机器学习的数学推导，包括下面的MAP看到这个合集之后我都不想写博客了，讲的太好了。。。

5.6.1 最大后验估计(MAP)

虽然可以利用积分求得贝叶斯公式的分母，但是通常这个积分是不好求的或者计算量很大，于是我们采用极大似然的思想，找到使后验概率最大的参数作为估计，但与极大似然不同的是，最大后验估计仍然考虑了先验概率。事实上，最大后验估计就等价于极大似然估计的正则惩罚。

推导公式也暂时略了，等我平板到了直接手推

深度学习花书-5.6 贝叶斯统计

5.6 贝叶斯统计

贝叶斯派和频率派的两个重要区别

1. $\theta$ 的不确定性

2. 贝叶斯先验分布

贝叶斯线性回归

5.6.1 最大后验估计(MAP)

猜你喜欢

深度学习花书-5.6 贝叶斯统计

5.6 贝叶斯统计

贝叶斯派和频率派的两个重要区别

1. θ \theta θ的不确定性

2. 贝叶斯先验分布

贝叶斯线性回归

5.6.1 最大后验估计(MAP)

猜你喜欢

1. $\theta$ 的不确定性