频率学派与Bayes学派是两种看待问题的角度,在机器学习里面。频率学派与Bayes学派解决问题的方法是不一样的。本文根据前人的总结,探讨一下频率学派与Bayes学派究竟是个啥。
参考:
http://www.sohu.com/a/215176689_610300,
Ng机器学习课程。
刚开始了解频率学派与Bayes学派是在Ng的《Bayes统计正则化》课程上,但是Ng没有给出太多的解释。在看了那次课程后,我就有这样一个印象:Bayes学派会假设所求参数是服从一定的分布的,是不确定的;频率学派是假设所求参数是确定的。下面具体来说一下。
频率学派
令训练集 ,在频率学派里面,我们要预测的目标为
,
注意到这里 被看成是一个确定的值(未知常量),所以用’;’隔开。但是实际上,我们是极大化关于 的一个函数(似然)
这就是极大似然估计(MLE)的基本过程。举个例子,在线性回归中,假设预测值和真实值之间的误差服从高斯分布,那么根据MLE就得到了OLS的表达式。
Bayes学派
在Bayes学派中,参数 是一个随机变量,服从一定的分布。因此引入了 这一项,并且其优化目标变成了
稍微解释一下这个公式,Bayes学派认为 服从一定的分布,那么 是在给定训练集后,对 分布的一个调整。显然,我们要极大化该式,这个过程叫做对参数的极大后验概率(Maximum A Posteriori, MAP)。由Bayes公式可知,
,
所以,
注意到在上式中, ,这又是为啥?实际上这两者没有本质的不同,但是在频率学派中是为了消除条件概率中“|”的歧义。回到频率学派中,我们估计 , 给定。如果这里写成 ,很显然会造成歧义,因为 既可以表示在 给定的情况下,发生y的概率,也可以表示 给定的情况下,发生 的概率。
OK!到这里,读者可能已经看明白Bayes学派和频率学派的差别了,实际上就在于Bayes学派比频率学派多了一个参数先验。在优化目标中,就对应的多了一项
。
1. 如果
服从高斯分布,
即是
正则化;
2. 如果
服从Laplace分布,
即是
正则化;
这个读者可以自行推导一下。
总结
说的广泛一点,频率学派与Bayes学派看待世界的角度不一样,频率学派认为有一个固定的参数 主宰世界的运行;而Bayes学派认为 和世界一样,也是一个随机变量。对应的频率学派采用MLE估计目标概率,而Bayes学派采用MAP估计目标概率。顺便说一句,朴素Bayes方法是一种频率学派的方法,因为朴素Bayes方法里面不含有对未知参数的任何分布假设。