第五节：分类器中的天真小弟 —— 朴素贝叶斯

朴素贝叶斯文本分类模型

考虑如下文本分类模型： $P(y_i, d_i)$ 表示一篇文章以及它的 label 的联合概率。 $d_i$ 指第 i 条训练数据中的文本。假设 $d_i$ 中每个词都是一个特征。

条件独立分布假设：已知文本标签的条件下，特征的分布是相互独立的。（已知标签后 $y_i$ ， $d_i$ 的概率等于该文本中每个词出现的概率乘积。

利用贝叶斯条件概率公式：

$P(y_i, d_i)=P(y=y_i)P(d_i\ |\ y=y_i)$

$\quad\quad\quad\quad=P(y=y_i)\displaystyle \prod^{V}_{j=1}P(x_j\ |\ y=y_i)^{C_{d_i}(x_j)}$

其中， $V$ 代表字典的 size， $x_j$ 代表 the $j^{th}$ word in dictionary， $C_{d_i}(x_j)$ 代表词 $x_j$ 在文件 $d_i$ 中出现的次数。

Define： $P(y=y_i)=\pi_{y_i}, \quad P(x_j\ |\ y=y_i)=\theta_{y_i,\ x_j}\ \leftarrow$ 这两种概率就是我们要估计的参数

$\Rightarrow P(y_i, d_i)=\pi_{y_i}\displaystyle \prod^{V}_{j=1}{(\theta_{y_i,\ x_j})}^{C_{d_i}(x_j)}$

用最大似然法估计朴素贝叶斯的最佳参数

(参数下面带波浪线代表是参数向量 / 矩阵, D 代表数据集中文件的总个数)

$Likelihood(\underset \sim{\pi},\ \underset \sim{\theta})=\displaystyle \prod^D_{i=1}P(y_i, d_i)$

$\quad\quad\quad\quad\quad=\displaystyle \prod^D_{i=1}[\pi_{y_i}\displaystyle \prod^{V}_{j=1}{(\theta_{y_i,\ x_j})}^{C_{d_i}(x_j)}]$

$log(Likelihood(\underset \sim{\pi},\ \underset \sim{\theta}))=\displaystyle \sum^D_{i=1}\Big[log\pi_{y_i}+\displaystyle \sum^{V}_{j=1}{C_{d_i}(x_j)}log(\theta_{y_i,\ x_j})\Big]$

约束： $\begin{cases} ①\ \ \displaystyle \sum^{K}_{k=1}\pi_k=1 \\ ②\ \ for\ every\ k,\ \displaystyle \sum^V_{j=1}\theta_{k,\ j}=1 \end{cases}$

$log(L_{\pi_k})=\displaystyle \sum^D_{i=1}\Big[log\pi_{y_i}+\displaystyle \sum^{V}_{j=1}{C_{d_i}(x_j)}log(\theta_{y_i,\ x_j})\Big]+\alpha(\sum^K_{k=1}\pi_k-1)\ \leftarrow$ 对 $\pi_k$ 求最优解，对第一个约束引入拉格朗日乘子

$\frac{\partial{log(L_{\pi_k})}}{\partial{\pi_k}}=\displaystyle \sum^D_{i=1}\frac{1}{\pi_k}I_{y_i=k}+\alpha=0,$ $\quad for\ k=1,\ 2,\ ...,\ K\ \leftarrow$ 对 $\pi_k$ 求偏导数并令其得0

$I_{y_i=k}$ 是 Indicator function, $I_{y_i=k}=\begin{cases} 1\quad if\ y_i=k \\ 0\quad otherwise \end{cases}$

$\Rightarrow\ \ \frac{\sum^D_{i=1}I_{y_i=k}}{\pi_k}+\alpha=0$

$\Rightarrow\ \ \pi_k=\frac{-(y_i=k的文件数)}{\alpha}$

根据第一个约束，我们有： $\sum^K_{k=1}\pi_k=\frac{-\sum^K_{k=1}(y_i=k的文件数)}{\alpha}=\frac{-(总文件个数)}{\alpha}=1$

$\Rightarrow\ \ \ \alpha=-(总文件个数)$

$\Rightarrow\ \ \color{red}\pi_k=\frac{y_i=k的文件数}{总文件个数}$

$log(L_{\theta_{k,\ j}})=\displaystyle \sum^D_{i=1}[log\pi_{y_i}+\displaystyle \sum^{V}_{j=1}{C_{d_i}(x_j)}log(\theta_{y_i,\ x_j})]+\mu_k(\sum^V_{j=1}\theta_{k,\ j}-1)\ \leftarrow$ 对 $\theta_{k,\ j}$ 求最优解，对第二个约束引入拉格朗日乘子

$\frac{\partial{log(L_{\theta_{k,\ j}})}}{\partial{\theta_{k,\ j}}}=\displaystyle \sum^D_{i=1}\frac{C_{d_i}(x_j)}{\theta_{k\ ,j}}I_{y_i=k}+\mu_k=0,$ $\quad for\ k=1,\ 2,\ ...,\ K,\ j=1,\ 2,\ ...,\ V\ \leftarrow$ 对 $\theta_{k,\ j}$ 求偏导数并令其得0

$\Rightarrow\ \ \frac{y_i=k的文件中词x_j的个数}{\theta_{k,\ j}}+\mu_k=0$

$\Rightarrow\ \ \theta_{k,\ j}=\frac{-(y_i=k的文件中词x_j的个数)}{\mu_k}$

根据第二个约束，我们有：

$\sum^V_{j=1}\theta_{k,\ j}=\frac{-\sum^V_{j=1}(y_i=k的文件中词x_j的个数)}{\mu_k}=\frac{-(y_i=k的文件中所有词的个数)}{\mu_k}=1$

$\Rightarrow\ \ \ \mu_k=-(y_i=k的文件中所有词的个数)$

$\Rightarrow\ \ \color{red}\theta_{k,\ j}=\frac{y_i=k的文件中词x_j的个数}{y_i=k的文件中所有词的个数}$

朴素贝叶斯，逻辑斯蒂回归，傻傻分不清楚？

之前我们讲一个文件 $d_i$ 的特征是文件当中的所有单词，那么从现在起 $d_i$ 用一个特征向量 $\vec{x_i}$ 表示。

利用贝叶斯条件概率公式：

$P(y_i\ |\ \vec{x_i})=\frac{P(y_i, \vec{x_i})}{P(\vec{x_i})}=\frac{P(\vec{x_i}\ |\ y_i)P(y_i)}{P(\vec{x_i})}$

在二分类问题中， $y_i\in\{1,0\}$ ：

$\begin{cases} P(y_i=1\ |\ \vec{x_i})=\frac{P(\vec{x_i}\ |\ y_i=1)P(y_i=1)}{P(\vec{x_i})}\ \leftarrow \ \color{#8AD597}后验概率\\ \\ P(y_i=0\ |\ \vec{x_i})=\frac{P(\vec{x_i}\ |\ y_i=0)P(y_i=0)}{P(\vec{x_i})}\ \leftarrow \ \color{#8AD597}后验概率 \end{cases}$

上面的等式左边是后验概率，然后我们用等式右边的先验概率给表示了。等式右边的分子中 $P(\vec{x_i}\ |\ y_i=k)$ 和 $P(y_i=k)$ 都是参数，用刚才的最大似然法估计。在预测的时候，由于上面两个后验概率表达式的分母一样，所以只要比较分子即可，哪个大就预测为哪一类。

在提及分类问题的时候经常有 “最大后验概率” 这个说法。但是，由于我们忽略了上面两个后验概率表达式的分母 $P(\vec{x_i})$ ，因此模型其实计算的是 $P(\vec{x_i}\ |\ y_i=k)P(y_i=k) = P(y_i, \vec{x_i})$ 。朴素贝叶斯其实是对特征向量和标签的联！合！分！布！建模，而非直接对后验概率建模！

继续回到上面两个后验概率的表达式，分母 $P(\vec{x_i})$ 的作用看作是“归一化”，因为

$P(\vec{x_i})=P(y_i=1, \vec{x_i})+P(y_i=0, \vec{x_i})$

$\quad\quad\quad=P(\vec{x_i}\ |\ y_i=1)P(y_i=1)+P(\vec{x_i}\ |\ y_i=0)P(y_i=0)$

$\quad\quad\quad=两式分子之和$

我们对 $P(y_i=1\ |\ \vec{x_i})$ 做一些变形：

$P(y_i=1\ |\ \vec{x_i})=\frac{P(\vec{x_i}\ |\ y_i=1)P(y_i=1)}{P(\vec{x_i}\ |\ y_i=1)P(y_i=1)+P(\vec{x_i}\ |\ y_i=0)P(y_i=0)}$

$\quad\quad\quad\quad\ \ =\frac{1}{1+\frac{P(\vec{x_i}\ |\ y_i=0)P(y_i=0)}{P(\vec{x_i}\ |\ y_i=1)P(y_i=1)}}$

$\quad\quad\quad\quad\ \ =\frac{1}{1+exp\Big\{-log\big(\frac{P(\vec{x_i}\ |\ y_i=1)P(y_i=1)}{P(\vec{x_i}\ |\ y_i=0)P(y_i=0)}\big)\Big\}}$ （♠）

$\quad\quad\quad\quad\ \ =\frac{1}{1+exp\Bigg\{-log\bigg(\frac{\pi_{1} \prod^{V}_{j=1}{(\theta_{1,\ x_j})}^{C_{d_i}(x_j)}}{\pi_{0} \prod^{V}_{j=1}{(\theta_{0,\ x_j})}^{C_{d_i}(x_j)}} \big)\Bigg\}}$ （♠’）

$\quad\quad\quad\quad\ \ =\frac{1}{1+exp\Bigg\{-\bigg[log\pi_{1}+ \sum^{V}_{j=1}C_{d_i}(x_j)log(\theta_{1,\ x_j})-log\pi_{0}- \sum^{V}_{j=1}C_{d_i}(x_j)log(\theta_{0,\ x_j}) \bigg]\Bigg\}}$

$\quad\quad\quad\quad\ \ =\frac{1}{1+exp\Bigg\{- log\big(\frac{\pi_1}{\pi_0}\big)-\sum^{V}_{j=1}C_{d_i}(x_j)log\big(\frac{\theta_{1,\ x_j}}{\theta_{0,\ x_j}}\big)\Bigg\} }$ （♦）

令 $b=log\big(\frac{\pi_1}{\pi_0}\big)$ ， $w_j=log\big(\frac{\theta_{1,\ x_j}}{\theta_{0,\ x_j}}\big),\ for \ j=1,2,...,V$

既然 $d_i$ 是用文件中每个词的个数表示的，那么字典里共 $V$ 个词意味着每个文件的特征向量有 $V$ 维。

于是： $\vec{x_i} = \left\{ \begin{matrix} C_{d_i}(word_1)\\C_{d_i}(word_2)\\.\\.\\.\\C_{d_i}(word_V)\\1\color{#8AD597}\ \leftarrow\ bias\color{black} \end{matrix} \right\}$ ， $\quad\vec w=\left\{ \begin{matrix} w_1 \\ w_2 \\ .\\.\\.\\ w_V \\ b \end{matrix}\right\} = \left\{ \begin{matrix} log\big(\frac{\theta_{1,\ word_1}}{\theta_{0,\ word_1}}\big) \\ \\ log\big(\frac{\theta_{1,\ word_2}}{\theta_{0,\ word_2}}\big) \\.\\.\\.\\ log\big(\frac{\theta_{1,\ word_V}}{\theta_{0,word_V}}\big) \\ \\ log\big(\frac{\pi_1}{\pi_0}\big) \end{matrix}\right\}$

将 $\vec{x_i},\ \vec w$ 带入上面的（♦）式，得到： $P(y_i=1\ |\ \vec{x_i})=\frac{1}{1+exp(-\vec{w}^T\vec{x_i})}$

哟吼~ 我们竟然把朴素贝叶斯中的后验概率推出了 logistic regression 的模样！

这时候不禁会想，难道朴素贝叶斯和 logistic regression 是。。。等。。。价的？小朋友你是否有很多问号？？？

是不是会这么想：假如一开始就把后验概率用 $\vec{x_i}$ 和 $\vec w$ 表示，直接对后验概率建模，那样就是 logistic regression 模型。然后由于 logistic regression 是用最大似然损失，经过梯度下降求得的使损失最小化的参数，而朴素贝叶斯刚好也是用最大似然法求的最优参数，这样 logistic regression 和朴素贝叶斯对文本二分类问题的解就，一模一样了吗？？

Emmmm其实不然。

注意看刚刚的一大串推导当中（♠） $\rightarrow$ （♠’）这一步是在把 $P(\vec{x_i}\ |\ y_i=k)$ 展开，这时候用到了特征之间的条件独立假设！而如果一开始用的 logistic regression 模型，得到 $P(y_i=1\ |\ \vec{x_i})=$ $\frac{1}{1+exp(-\vec{w}^T\vec{x_i})}$ ，然后反着推，就没有条件独立假设，是推不回去的。Logistic regression 训练参数的时候即便特征之间不独立，也能训练出最优的参数，但此时 $\vec w$ 不一定等于 $\left\{ \begin{matrix} log\big(\frac{\theta_{1,\ word_1}}{\theta_{0,\ word_1}}\big) \\ \\ log\big(\frac{\theta_{1,\ word_2}}{\theta_{0,\ word_2}}\big) \\.\\.\\.\\ log\big(\frac{\theta_{1,\ word_V}}{\theta_{0,word_V}}\big) \\ \\ log\big(\frac{\pi_1}{\pi_0}\big) \end{matrix}\right\}$

Take away message：Logistic regression + 条件独立假设 (约束) $\Leftrightarrow$ Naive Bayes. Logistic regression is more general, more 牛逼.

整理 Logistic Regression 和 Naive Bayes 的异同

逻辑斯蒂回归	朴素贝叶斯
目标：最大化后验概率 $P(y$ \| $\ \vec x)$	相同
用最大似然法估计最佳参数	相同
判别式模型	生成式模型
直接对后验概率 $P(y$ \| $\ \vec x)$ 建模	对联合分布 $P(y, \vec x)$ 建模
约束更宽松	约束：特征之间的条件独立假设
用梯度下降进行优化	可以不通过（而不是不能）梯度下降等优化方法。事实上，由于严格的限制，朴素贝叶斯的参数已经有固定形式了，可以直接统计数据中的频率获得权重的最大似然估计。计算简单，用 counting table就行。
在有相关性的 feature 上学习得更好。对特征工程的要求低	较依赖特征工程去选取相互独立的特征。Instead of word count, 在特征工程中还可以选择 TFIDF 之类的作为特征，其实用朴素贝叶斯做project能自己发挥的也就在特征工程上面了。
由于限制宽松，所以参数空间的搜索范围更大，需要大量数据。在大数据集上，或是特征维度多时取得更好的效果	在小数据集去的更好的效果，原因是生成模型会考虑 prior，所以在其他方面的劣势体现不明显时会fit更好。

细讲逻辑斯蒂回归与朴素贝叶斯、最大熵原理的爱恨交织（五）

第五节：分类器中的天真小弟 —— 朴素贝叶斯

猜你喜欢