朴素贝叶斯 Navie Bayes

朴素贝叶斯算法的理论基础：

生成模型与判别模型

特性	判别模型(Discriminative model)	生成模型(Generative model)
特点	寻找不同类别之间的最优分类超曲面，反应的是异类数据之间的差异	对后验概率建模，从统计的角度表示数据的分布情况，能够反应同类数据本身的相似度
区别	估计的是条件概率分布(Conditional Distribution):P(Y\|X)	估计的是联合概率分布(Joint Probability Distribution):P(X,Y)
联系	由生成模型可以得到判别模型	由判别模型无法得到生成模型
常见模型	逻辑回归、SVM、MLP、KNN	Navie Bayes、GMM、HMM

这里写图片描述

根据贝叶斯定理，对于一个分类问题，给定样本特征 $x$ ，样本属于类别 $y$ 的概率为：

P (y | x) = \frac{P (x | y) \times P (y)}{P (x)}

$P(y | x) = \frac{P(x|y) × P(y)}{P(x)}$ 其中

x

$x$ 是特征向量，假设它的维度为

d

$d$ ，则：

P (y | x) = \frac{P (x^{1}, x^{2}, x^{3}, . . ., x^{d} | y) \times P (y)}{P (x)}

$P(y|x) = \frac{P(x^1,x^2,x^3,...,x^d|y) × P(y)}{P(x)}$ 由于朴素贝叶斯法对条件概率分布做了条件独立性的假设
因此

P (x^{1}, x^{2}, x^{3}, . . ., x^{d} | y)

$P(x^1,x^2,x^3,...,x^d|y)$ 可直接使用连乘计算：

P (x^{1}, x^{2}, x^{3}, . . ., x^{d} | y = c_{k}) = \prod_{i = 0}^{d} P (x^{i} | y = c_{k})

$P(x^1,x^2,x^3,...,x^d|y=c_k)=\prod_{i=0}^dP(x^i|y=c_k)$ 其中

c_{k}

$c_k$ 为某一类别
将连乘式其带入贝叶斯公式可得：

P (y = c_{k} | x) = \frac{\prod_{i = 0}^{d} P (x^{i} | y = c_{k}) \times P (y = c_{k})}{P (x)}

$P(y=c_k | x) = \frac{\prod_{i=0}^dP(x^i|y=c_k) × P(y=c_k)}{P(x)}$ 由此朴素贝叶斯分类器可数学化的表示为：

y = a r g m a x_{c_{k}} \frac{\prod_{i = 0}^{d} P (x^{i} | y = c_{k}) \times P (y = c_{k})}{P (x)}

$y=argmax_{c_k} \frac{\prod_{i=0}^dP(x^i|y=c_k) × P(y=c_k)}{P(x)}$ * argmax(f(x))指的是使得 f(x)取得最大值所对应的变量x，放在此公式内即是贝叶斯公式取得最大值时对应的

c_{k}

$c_k$ 的值

由于argmaxz最终取得的是参数 $c_k$ 且对任意一个 $c_k$ ， $P(x)$ 的分布是相同的，去掉 $P(x)$ 不影响找出贝叶斯公式取得最大值时 $c_k$ 的值，所以可简化为：

y = a r g m a x_{c_{k}} \prod_{i = 0}^{d} P (x^{i} | y = c_{k}) \times P (y = c_{k})

$y=argmax_{c_k} \prod_{i=0}^dP(x^i|y=c_k) × P(y=c_k)$

朴素贝叶斯算法的学习过程主要是估计 $P(y=c_k)$ 以及 $P(x^j|y=c_k)$
对于类别概率估计 $P(y=c_k)$ 可以使用如下的公式进行估计：

P (y = c_{k}) = \frac{\sum_{i = 1}^{N} I (y_{i} = c_{k})}{N}, k = 1, 2, . . ., K

$P(y=c_k)=\frac{\sum_{i=1}^{N}I(y_i=c_k)}{N},k=1,2,...,K$

但是对于 $P(x^j|y=c_k)$ 的概率估计，我们需要根据每一维 $x^j$ 分两种情况讨论：

特征值为离散型变量时的参数估计
当特征值为离散型变量时，这时候参数估计非常简单，我们只需要计算出每个特征值在相应的类中出现的概率就可以了。

直接使用如下的公式进行估计：

P (X^{(j)} = x^{(j)} | y = c_{k}) = \frac{\sum_{i = 1}^{N} I (X^{(j)} = x^{(j)}, y = c_{k})}{\sum_{i = 1}^{N} I (y_{i} = c_{k})}, k = 1, 2, . . ., K

$P(X^{(j)}=x^{(j)}|y=c_k)=\frac{\sum_{i=1}^{N}I(X^{(j)}=x^{(j)},y=c_k)}{\sum_{i=1}^{N}I(y_i=c_k)},k=1,2,...,K$

特征值为连续型变量时的参数估计
当特征值为连续型变量时，我们对条件概率分布 $P(x^j|y=c_k)$ 进行估计时，我们无法使用像离散型变量那样直接求概率。

因此，我们需要使用新的方式：常用的方式就是假设 $P(x^j|y=c_k)$ 服从某一分布，如高斯分布、多项式分布以及伯努利分布等。

以高斯分布(正态分布)为例：

P (X^{(j)} = x^{(j)} | y = c_{k}) = \frac{1}{\sqrt{2 π δ_{y}^{2}}} e x p (- \frac{(x_{i} - u_{y})^{2}}{2 δ_{y}^{2}})

$P(X^{(j)}=x^{(j)}|y=c_k)=\frac{1}{\sqrt{2\pi \delta_y^2}}exp(-\frac{(x_i-u_y)^2}{2\delta_y^2})$

贝叶斯估计：
为了避免有些样本现实中存在而测试集中却没有，导致从样本中算出概率为0的情况，我们需要给学习步骤中的两个概率公式的分子分母都加上一个数值较小的常数：

P (y = c_{k}) = \frac{\sum_{i = 1}^{N} I (y_{i} = c_{k}) + λ}{N + K λ}, k = 1, 2, . . ., K

$P(y=c_k)=\frac{\sum_{i=1}^{N}I(y_i=c_k)+\lambda}{N+K\lambda},k=1,2,...,K$

K λ

$K\lambda$ 中的K是类的个数

P (X^{(j)} = x^{(j)} | y = c_{k}) = \frac{\sum_{i = 1}^{N} I (X^{(j)} = x^{(j)}, y = c_{k}) + λ}{\sum_{i = 1}^{N} I (y_{i} = c_{k}) + L_{j} λ}, k = 1, 2, . . ., K

$P(X^{(j)}=x^{(j)}|y=c_k)=\frac{\sum_{i=1}^{N}I(X^{(j)}=x^{(j)},y=c_k)+\lambda}{\sum_{i=1}^{N}I(y_i=c_k)+L_j\lambda},k=1,2,...,K$

L_{j} λ

$L_j\lambda$ 中的

L_{j}

$L_j$ 是第j维特征的最大取值个数。

这样当 $c_k$ 类不存在与测试集上(即未加常数前概率为0时)，最终算出的概率为 $\frac{1}{K}$ 或 $\frac{1}{L_j}$ ，而不是0。

特别的，当上述估计中的 $\lambda$ 取值为1时，称为拉普拉斯平滑(Laplace Smoothing)