5.6 贝叶斯统计
频率学派的观点是,对于一个概率模型,参数是未知的常量
而贝叶斯学派的观点是,参数是未知的变量,它自身也是遵循某个概率分布的,我们只有它的先验分布,需要根据观察到的数据来进行调整。通常来说,如果我们对参数不具有太多确定性的时候,采用高斯分布作为先验是附加条件最小的分布
频率派的典型就是极大似然估计,本质上是一个优化问题。而贝叶斯派是基于贝叶斯公式(如下),最关键是求分母,这通常是一个求积分问题
p ( θ ∣ x ( 1 ) , … , x ( m ) ) = p ( x ( 1 ) , … , x ( m ) ∣ θ ) p ( θ ) p ( x ( 1 ) , … , x ( m ) ) p\left(\boldsymbol{\theta} \mid x^{(1)}, \ldots, x^{(m)}\right)=\frac{p\left(x^{(1)}, \ldots, x^{(m)} \mid \boldsymbol{\theta}\right) p(\boldsymbol{\theta})}{p\left(x^{(1)}, \ldots, x^{(m)}\right)} p(θ∣x(1),…,x(m))=p(x(1),…,x(m))p(x(1),…,x(m)∣θ)p(θ)
贝叶斯派和频率派的两个重要区别
1. θ \theta θ的不确定性
频率派将 θ \theta θ视为一个常数,而贝叶斯派将其视为一个随机变量。频率派是通过评估估计量的方差来评估 θ \theta θ的不确定性,而贝叶斯的方法是积分。
2. 贝叶斯先验分布
先验能够影响概率质量密度朝参数空间中偏好先验的区域偏移。贝叶斯派是同时考虑过去的信念和最新的观测来做预测,而频率派则只考虑最新的观测
贝叶斯线性回归
打公式太累。。。就不写了
白板推导系列,强烈推荐,不只是贝叶斯线性回归,up主讲了很多机器学习的数学推导,包括下面的MAP看到这个合集之后我都不想写博客了,讲的太好了。。。
5.6.1 最大后验估计(MAP)
虽然可以利用积分求得贝叶斯公式的分母,但是通常这个积分是不好求的或者计算量很大,于是我们采用极大似然的思想,找到使后验概率最大的参数作为估计,但与极大似然不同的是,最大后验估计仍然考虑了先验概率。事实上,最大后验估计就等价于极大似然估计的正则惩罚。
推导公式也暂时略了,等我平板到了直接手推