贝叶斯决策论

后验概率

期望损失（Expected Loss）

条件风险（Conditional Risk）

$R(Ci|x)$

最小化总体风险

$R(h)=E(x)[R(h(x)|x)]$
h(x)为总样本空间到y的一个映射hypothesis

贝叶斯判定准则（Bayes decision rule）

为了最小化总体风险，只需每个样本上选择那个能使条件风险最小的类别标记。

贝叶斯最优分类器（Bayes optimal classifier）：h*

贝叶斯风险（Bayes risk）:R(h*)

贝叶斯最佳性能:1-R(h*)

误判损失：λij

错判为1，正确为0

计算后验概率的两种策略

判别式模型

给定X，通过质检建模来预测c
比如决策树、BP神经网络、支持向量机

生成式模型

通过联合概率来计算

类条件概率：似然（class-conditional probability）

极大似然估计

参数估计的两大学派

频率注意学派：极大似然估计

贝叶斯学派

对数似然（log-likelihood）

通过极大似然法得到正态分布均值和方差均值

朴素贝叶斯分类器

假设所有属性相互独立：西瓜的大小和颜色没有关系

以西瓜分类为例

第一步：估算类先验概率（样本中的好瓜/坏瓜的比率）

第二步：对于离散型属性：计算每个属性估算条件概率（好瓜/坏瓜中属性取该值的比率）
对于连续型属性：计算该数值的概率密度，通过高斯分布来进行计算，分别计算均值、方差，然后使用高斯分布公式计算。

第三步：计算好瓜和坏瓜的贝叶斯表达式，计算并且比较好瓜和坏瓜的概率。

拉普拉斯修正

贝叶斯分类器不合理的情况：如果有没出现过的数据，概率判为0。这样就不太合理。
P=Dc+1/D+N 这样对频率进行修正作为概率

##朴素贝叶斯的使用方法：
速度要求高：查表法
任务数据更替频繁：懒惰学习（lazy learning）
数据不断增加：增量学习

半朴素贝叶斯分类器

独立不一定成立，属性之间相互依赖

独依赖估计（ODE）

每个属性只依赖一个其他属性
pai：属性xi依赖的属性，称为xi的父(parent)属性

SPODE方法（Super Parent ODE）

TAN 最大带权生成树

计算两个属性之间的条件互信息
构建完全图
构建最大带权生成树
有向边

###半朴素贝叶斯分类器： AODE（Averaged One-Dependent Estimator）

贝叶斯网络（Bayesian network）：信念网（belief network）

有向无环图，刻画属性之间的依赖关系

有向分离

找出V型结构，然后在V型结构的两个父节点之间加上一条无向边
将所有有向边改为无向边
道德图（moral graph），令父节点相连的过程称为“道德化”（moralization）

贝叶斯网：学习

使用评分函数评估贝叶斯网与训练数据的契合程度

EM算法

处理样本不完整情况下的问题。

隐变量（latent variable）：为观测的变量

基于迭代的EM算法

梧桐雪

发布了273 篇原创文章 · 获赞 40 · 访问量 3万+

私信关注

机器学习第五周笔记（贝叶斯）