频率学派与Bayes学派

频率学派与Bayes学派是两种看待问题的角度，在机器学习里面。频率学派与Bayes学派解决问题的方法是不一样的。本文根据前人的总结，探讨一下频率学派与Bayes学派究竟是个啥。

参考：
http://www.sohu.com/a/215176689_610300，
Ng机器学习课程。

刚开始了解频率学派与Bayes学派是在Ng的《Bayes统计正则化》课程上，但是Ng没有给出太多的解释。在看了那次课程后，我就有这样一个印象：Bayes学派会假设所求参数是服从一定的分布的，是不确定的；频率学派是假设所求参数是确定的。下面具体来说一下。

频率学派

令训练集 $X = (x_i, y_i)_{i = 1}^n$ ，在频率学派里面，我们要预测的目标为

$P(y | x; \theta)$ ，

注意到这里 $\theta$ 被看成是一个确定的值（未知常量），所以用’;’隔开。但是实际上，我们是极大化关于 $\theta$ 的一个函数（似然）

$argmax \text{ } L(\theta)$
$= argmax \text{ } P(X; \theta)$
$= argmax \text{ } \prod_{i = 1}^n P(x_i, y_i; \theta)$
$= argmax \text{ } \prod_{i = 1}^n P(y_i | x_i; \theta) P(x_i)$
$= argmax \text{ } \prod_{i = 1}^n P(y_i | x_i; \theta)$
$= argmax \text{ } \sum_{i = 1}^n log P(y_i | x_i; \theta)$

这就是极大似然估计（MLE）的基本过程。举个例子，在线性回归中，假设预测值和真实值之间的误差服从高斯分布，那么根据MLE就得到了OLS的表达式。

Bayes学派

在Bayes学派中，参数 $\theta$ 是一个随机变量，服从一定的分布。因此引入了 $P(\theta)$ 这一项，并且其优化目标变成了

$P(\theta | X)$

稍微解释一下这个公式，Bayes学派认为 $\theta$ 服从一定的分布，那么 $P(\theta | X)$ 是在给定训练集后，对 $\theta$ 分布的一个调整。显然，我们要极大化该式，这个过程叫做对参数的极大后验概率（Maximum A Posteriori, MAP）。由Bayes公式可知，

$P(\theta | X) = \frac{P(X | \theta) P(\theta)}{P(X)}$ ，

所以，
$argmax \text{ } L(\theta)$
$= argmax \text{ } P(\theta | X)$
$= argmax \text{ } \frac{P(X | \theta) P(\theta)}{P(X)}$
$= argmax \text{ } P(X | \theta) P(\theta)$
$= argmax \text{ } P(X; \theta) P(\theta)$
$= argmax \text{ } \sum_{i = 1}^n log P(y_i | x_i; \theta) + log P(\theta)$

OK！到这里，读者可能已经看明白Bayes学派和频率学派的差别了，实际上就在于Bayes学派比频率学派多了一个参数先验。在优化目标中，就对应的多了一项 $log P(\theta)$ 。
1. 如果 $\theta$ 服从高斯分布， $log P(\theta)$ 即是 $l_2$ 正则化；
2. 如果 $\theta$ 服从Laplace分布， $log P(\theta)$ 即是 $l_1$ 正则化；
这个读者可以自行推导一下。

总结

说的广泛一点，频率学派与Bayes学派看待世界的角度不一样，频率学派认为有一个固定的参数 $\theta$ 主宰世界的运行；而Bayes学派认为 $\theta$ 和世界一样，也是一个随机变量。对应的频率学派采用MLE估计目标概率，而Bayes学派采用MAP估计目标概率。顺便说一句，朴素Bayes方法是一种频率学派的方法，因为朴素Bayes方法里面不含有对未知参数的任何分布假设。