贝叶斯决策论
后验概率
期望损失(Expected Loss)
条件风险(Conditional Risk)
最小化总体风险
h(x)为总样本空间到y的一个映射hypothesis
贝叶斯判定准则(Bayes decision rule)
为了最小化总体风险,只需每个样本上选择那个能使条件风险最小的类别标记。
贝叶斯最优分类器(Bayes optimal classifier):h*
贝叶斯风险(Bayes risk):R(h*)
贝叶斯最佳性能:1-R(h*)
误判损失:λij
错判为1,正确为0
计算后验概率的两种策略
判别式模型
给定X,通过质检建模来预测c
比如决策树、BP神经网络、支持向量机
生成式模型
通过联合概率来计算
类条件概率:似然(class-conditional probability)
极大似然估计
参数估计的两大学派
频率注意学派:极大似然估计
贝叶斯学派
对数似然(log-likelihood)
通过极大似然法得到正态分布均值和方差均值
朴素贝叶斯分类器
假设所有属性相互独立:西瓜的大小和颜色没有关系
以西瓜分类为例
第一步:估算类先验概率(样本中的好瓜/坏瓜的比率)
第二步:对于离散型属性:计算每个属性估算条件概率(好瓜/坏瓜中属性取该值的比率)
对于连续型属性:计算该数值的概率密度,通过高斯分布来进行计算,分别计算均值、方差,然后使用高斯分布公式计算。
第三步:计算好瓜和坏瓜的贝叶斯表达式,计算并且比较好瓜和坏瓜的概率。
拉普拉斯修正
贝叶斯分类器不合理的情况:如果有没出现过的数据,概率判为0。这样就不太合理。
P=Dc+1/D+N 这样对频率进行修正作为概率
##朴素贝叶斯的使用方法:
速度要求高:查表法
任务数据更替频繁:懒惰学习(lazy learning)
数据不断增加:增量学习
半朴素贝叶斯分类器
独立不一定成立,属性之间相互依赖
独依赖估计(ODE)
每个属性只依赖一个其他属性
pai:属性xi依赖的属性,称为xi的父(parent)属性
SPODE方法(Super Parent ODE)
TAN 最大带权生成树
计算两个属性之间的条件互信息
构建完全图
构建最大带权生成树
有向边
###半朴素贝叶斯分类器: AODE(Averaged One-Dependent Estimator)
贝叶斯网络(Bayesian network):信念网(belief network)
有向无环图,刻画属性之间的依赖关系
有向分离
- 找出V型结构,然后在V型结构的两个父节点之间加上一条无向边
- 将所有有向边改为无向边
- 道德图(moral graph),令父节点相连的过程称为“道德化”(moralization)
贝叶斯网:学习
使用评分函数评估贝叶斯网与训练数据的契合程度
EM算法
处理样本不完整情况下的问题。