机器学习第五周笔记(贝叶斯)

贝叶斯决策论

后验概率

期望损失(Expected Loss)

条件风险(Conditional Risk)

R ( C i x ) R(Ci|x)

最小化总体风险

R ( h ) = E ( x ) [ R ( h ( x ) x ) ] R(h)=E(x)[R(h(x)|x)]
h(x)为总样本空间到y的一个映射hypothesis

贝叶斯判定准则(Bayes decision rule)

为了最小化总体风险,只需每个样本上选择那个能使条件风险最小的类别标记。

贝叶斯最优分类器(Bayes optimal classifier):h*

贝叶斯风险(Bayes risk):R(h*)

贝叶斯最佳性能:1-R(h*)

误判损失:λij

错判为1,正确为0

计算后验概率的两种策略

判别式模型

给定X,通过质检建模来预测c
比如决策树、BP神经网络、支持向量机

生成式模型

通过联合概率来计算

类条件概率:似然(class-conditional probability)

极大似然估计

参数估计的两大学派

频率注意学派:极大似然估计

贝叶斯学派

对数似然(log-likelihood)

通过极大似然法得到正态分布均值和方差均值

朴素贝叶斯分类器

假设所有属性相互独立:西瓜的大小和颜色没有关系

以西瓜分类为例

第一步:估算类先验概率(样本中的好瓜/坏瓜的比率)

第二步:对于离散型属性:计算每个属性估算条件概率(好瓜/坏瓜中属性取该值的比率)
对于连续型属性:计算该数值的概率密度,通过高斯分布来进行计算,分别计算均值、方差,然后使用高斯分布公式计算。

第三步:计算好瓜和坏瓜的贝叶斯表达式,计算并且比较好瓜和坏瓜的概率。

拉普拉斯修正

贝叶斯分类器不合理的情况:如果有没出现过的数据,概率判为0。这样就不太合理。
P=Dc+1/D+N 这样对频率进行修正作为概率

##朴素贝叶斯的使用方法:
速度要求高:查表法
任务数据更替频繁:懒惰学习(lazy learning)
数据不断增加:增量学习

半朴素贝叶斯分类器

独立不一定成立,属性之间相互依赖

独依赖估计(ODE)

每个属性只依赖一个其他属性
pai:属性xi依赖的属性,称为xi的父(parent)属性

SPODE方法(Super Parent ODE)

TAN 最大带权生成树

计算两个属性之间的条件互信息
构建完全图
构建最大带权生成树
有向边

###半朴素贝叶斯分类器: AODE(Averaged One-Dependent Estimator)

贝叶斯网络(Bayesian network):信念网(belief network)

有向无环图,刻画属性之间的依赖关系

有向分离

  • 找出V型结构,然后在V型结构的两个父节点之间加上一条无向边
  • 将所有有向边改为无向边
  • 道德图(moral graph),令父节点相连的过程称为“道德化”(moralization)

贝叶斯网:学习

使用评分函数评估贝叶斯网与训练数据的契合程度

EM算法

处理样本不完整情况下的问题。

隐变量(latent variable):为观测的变量

基于迭代的EM算法

发布了273 篇原创文章 · 获赞 40 · 访问量 3万+

猜你喜欢

转载自blog.csdn.net/weixin_41855010/article/details/105509172