贝叶斯定理
\[
{ P(h|D)=\frac{P(D|h)P(h)}{P(D)} \tag{1}}
\]
贝叶斯分类
假设每一个实例
可以用
项特征来描述,分别为
,现有
个类别,分别为
,贝叶斯分类器的作用就是计算出概率最大的分类:
\[
c_{MAP}=
\mathop{\arg\max}\limits_{c_j \in C}
P(c_j|a_1,a_2,…,a_n)=
\mathop{\arg\max}\limits_{c_j \in C}\frac{P(a_1,a_2,…,a_n|c_j)P(c_j)}{P(a_1,a_2,…,a_n)}
\]
对于所有类别 来说, 都是一样的,所以
\[
c_{MAP}=
\mathop{\arg\max}\limits_{c_j \in C}{P(a_1,a_2,…,a_n|c_j)P(c_j)}\tag{2}
\]
其中,
为先验概率,
为后验概率。
朴素贝叶斯分类器
假设所有特征都相互条件独立,即
\[
P(a_1,a_2,…,a_n|c_j)=\prod_{i=0}^nP(a_i|c_j)
\]
则有朴素贝叶斯分类器公式
\[
c_{NB}=
\mathop{\arg\max}\limits_{c_j \in C}P(c_j)\prod_{i=0}^nP(a_i|c_j) \tag{3}
\]
示例
某人根据天气状况打网球的情况如下表:
其中,天气状况由天气、温度、适度和风力4个特征来描述。
问题:根据<sunny, cool, high, strong>构成的天气状况来预测此人是否会打网球。
该问题可看作分类问题,将上述特征所构成的实例进行分类,共有“打网球”和“不打网球”2个类。
设事件"+“为打网球,事件”-"为不打网球,则有
\[
P(+)P(sunny|+)P(cool|+)P(high|+)P(strong|+)=\frac{9}{14}\frac{2}{9}\frac{3}{9}\frac{3}{9}\frac{3}{9} \approx 0.005
\]
\[
P(-)P(sunny|-)P(cool|-)P(high|-)P(strong|-)=\frac{5}{14}\frac{3}{5}\frac{1}{5}\frac{4}{5}\frac{3}{5} \approx 0.021
\]
根据公式(3),选概率最大时的分类“-”,所以此人不打网球。
参考资料: