西瓜书贝叶斯分类器(总结)

1.理论基础(可通过本小节的简单说法开始)

通过新进来样本的特征(特征)来估计该样本类别的概率就是后验概率,来最小化决策风险即由特征得属于哪一类别的概率,计算方法有两类:(1)通过判别式模型(如支持向量机,决策树等)直接对后验概率进行建模预测(略过);(2)后验概率通过贝叶斯定理,将后验概率转换为基于训练集d估计先验概率和似然(即样本X相对于类标记的类条件概率,p(X | C)),简言之,通过给定样本集(带类别),去统计一些概率值(中学简单的占多少比例),通过贝叶斯定理(公式(1)中,套进去算),得到样本属于某个类别的后验概率,看该样本在哪个类别的概率值大,则属于哪个类别。 p(c│x)=(p(x | c)p(c))/(p(x))公式(1) 其中,先验概率p(c)的计算在样本集中是通过计算各类目标所占得比例,即频率。根据大数定理,该频率即为概率p(C);条件概率p(X | C)中严格计算的话是样本特征的联合概率,很难计算,且容易在数据上遭遇样本稀疏问题,所以为了简单运算,设定样本的特征之间独立分布,故公式(1)可写为公式(2)。这就是朴素贝叶斯的由来,简化。![这里写图片描述](https://img-blog.csdn.net/20180323140717759?watermark/2/text/aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzE1MjIwMzU3/font/5a6L5L2T/字号/ 400 /填充/ I0JBQkFCMA == /溶解/ 70)

先这样,准备听宣讲去了

猜你喜欢

转载自blog.csdn.net/qq_15220357/article/details/79664949