第七章 贝叶斯决策论

今天学习的贝叶斯分类器也是很经典很重要的分类器,曾入选过“数据挖掘十大算法”。
哎,我决定只写最核心和简单的部分了,因为我发现有的地方我也是朦朦胧胧,主要是书本有的东西很简单的一说,其实背后的知识非常多,我不准备一一细细研究了。现在是系统化的阶段,我不想让几个对主框架没那么大影响的难点影响进度。

7.1 贝叶斯决策论
设有N 种可能的类别标记,即Y=c1,c2,…,cN,则基于后验概率P(ci|x)可获得将样本x分类为ci所产生的期望损失(也称条件风险)为:
这里写图片描述

我们想找一个判定准则h,是的总体风险最小。
贝叶斯准则是:如果每个样本选择使得条件风险最小的类别标记,那么总体化条件风险一定最小,即:
这里写图片描述

误判损失函数这里写图片描述在i=j时为0,否则为1。
此时条件风险:
这里写图片描述
只要P最大,那么R就会最小。所以贝叶斯最优分类器:
这里写图片描述

这个P是后验概率。怎么求呢?——判别式模型或生成式模型。
生成式模型考虑用P(x,c)建模,来获得P(c|x)。
基于贝叶斯定理:
这里写图片描述
P(c)是先验概率;P(x|c)是类条件概率。P(x)是归一化的“证据因子”,给定x,P(x)与类别无关。
所以现在的任务是求P(c)和P(x|c)。
P(c)可以由各类样本频率估计。
P(x|c)计算比较复杂。显然不能通过样本出现频率估计(组合爆炸)

7.2 极大似然估计
考虑用频率主义学派的极大似然估计来解决。假设P(x|c)有确定形式,并被θc唯一确定。任务是估计θc。将P(x|c)表示为P(x|θc)。
Dc为数据集D中c类样本集合。则:
这里写图片描述
用对数似然:
这里写图片描述
这里写图片描述
比如假设p(x|c)~N(),正态分布。可解出参数。
问题是估计结果严重依赖于假设的概率分布形式正确与否。不太好。

7.3朴素贝叶斯分类器
为了解决P(x|c)不太好计算的困境。我们提一个假设,叫属性条件独立性假设:
对已知类别,所有属性相互独立。
有了它,我们把P(c|x)写成:
这里写图片描述
P(x)提到过和类别无关,忽视。
所以我们现在吧贝叶斯判定准则写成:
这里写图片描述

其中这里写图片描述
离散属性:
这里写图片描述

连续属性:
这里写图片描述

补充一个:拉普拉斯平滑“:
这里写图片描述

它的作用是防止某个属性值在训练集中未出现,其类条件概率为0,抹去了别的属性信息。

7.4半朴素贝叶斯分类器
前面讨论的基于属性条件独立性假设。这个一般是比较难以成立的,因为现实中,各属性之间难免有依赖关系。所以我们需要考虑这种依赖关系的存在,提出半朴素贝叶斯分类器。
之所以说“半”朴素,是因为考虑的还不全面,只考虑一部分属性之间的依赖。这是一种折中。有名的是ODE策略:每个属性最多依赖于一个其他属性:
这里写图片描述
SPODE法:(超父)
这里写图片描述

TAN法(保留强相关属性依赖)
这里写图片描述

还可以用AODE的独依赖分类器。

当然,前面的都是独依赖的ODE,试想,如果考虑多个依赖呢?即kDE,如果训练集充足,泛化性能会提升,但如果不充足,适得其反。

7.5贝叶斯网(B)
有向无环图。一般有结构G和参数θ构成。
这里写图片描述

属性的联合概率分布定义:
这里写图片描述

结合上面贝叶斯网(西瓜):
这里写图片描述

至于贝叶斯网学习的首要任务是找出结构最恰当的贝叶斯网。一般用评分搜索方法。
给定训练集D={x1,x2,…,xm},贝叶斯网这里写图片描述,则评分函数:
这里写图片描述

找一个贝叶斯网使评分函数最小。

贝叶斯网训练好后,可以回答“查询问题”,即通过一些属性变量的观测值推测其他属性变量的值。比如由一个瓜的色泽、根蒂来推断含糖量成熟度。

这里写图片描述为待查询变量,这里写图片描述为证据变量,其取值这里写图片描述。我们的任务是计算这里写图片描述,其中这里写图片描述是代查询变量一个取值。
具体方法采用吉布斯采样算法。
这里写图片描述

其中这里写图片描述是T次采样中得到的与q一样的样本数目。

7.6 EM算法
最后简要讲一下EM算法。
如果训练样本中有些样本属性缺失怎么办?这是属于隐变量。令X表示已观测变量,Z表示隐变量。θ表示模型参数。
则极大对数似然:
这里写图片描述

EM算法基本思想:若参数θ已知,则根据训练样本推断出最优隐变量Z的值(E步);若Z值已知,则对θ做极大似然估计(M步)。
迭代至收敛。

猜你喜欢

转载自blog.csdn.net/steph_curry/article/details/79133924