版权声明:原创作品,欢迎转载 https://blog.csdn.net/xf8964/article/details/88936819
NLP --- 贝叶斯公式推导
贝叶斯原理
贝叶斯公式是通过结果推到原因,就是使用条件概率来解决逆问题。简单来讲,逆问题是指那些从结果反推原因的问题。通常原因X无法被直接观察、测量,此时我们常会通过其结果Y来反推原因X
简单来讲可以总结为一下种类问题
- 已知所有的P(原因) 与 P(结果 | 原因) 一览
- 求P(原因 | 结果)
贝叶斯做图法
游戏背景
- 在角色扮演游戏中,玩家只需要打到怪物就能获得宝箱。宝箱有 2/3 的概率有陷阱。玩家虽然可以通过使用魔法来检测陷阱,但是这种判断办法并不完美,有 1/4 的错误概率
- 假设玩家打到了怪物,获得了宝箱,并通过魔法判定该宝箱没有陷阱。以此为前提,求“ 宝箱有陷阱 ”的概率
我们假设以随机变量X表示宝箱有陷阱的概率,以随机变量Y表示魔法判定结果,该问题可以通过一下方式表述
- P(X = 有陷阱) =
- P(Y = 没有发现 | X = 有陷阱) =
- P(Y = 发现了 | X = 没有陷阱) =
- 求 P(X = 有陷阱 | Y = 没有发现 )
- 我们通过贝叶斯作图发来解释该问题
1.整体面积
2.其中 2/3 的区域表示 X=有陷阱,剩余 1/3 区域表示 X=没有陷阱
3.在表示 X=有陷阱的区域内,1/4表示 Y=没有发现,这部分区域占整体面积的
4.类似地,在表示 X=没有陷阱的区域中,3/4 的区域表示 Y=没有发现,这部分区域占整体面积的
5.综上,Y=没有发现 的区域占整体面积的
6.其中在 Y=没有发现 边缘分布中 X=有陷阱的比例为
贝叶斯公式
我们假设 X 为原因, Y 为结果
- X 的取值为 a ,b , c
- Y 的取值为 y
已知
- P(X = a) ------ 原因为a的概率
- P(Y = y | X = a) ------在原因为 a 的前提下,结果为y的条件概率
需要求的条件概率:
- P(X = a | Y = y)------在结果为y的前提下,原因为a的条件概率
P(X = a | Y = y)
= ----------------------------- 由定理得到
= --------------根据边缘分布展开分母
= --------------通过条件概率表述联合概率
朴素贝叶斯
朴素贝叶斯中的“朴素”一词实际上是指,算法在进行预测时使用的特征相互之间是独立的,但实际上并非始终这样。在我们的糖尿病示例中,我们只考虑了一个特征,即测试结果。假设我们添加了另一个特征“锻炼”。假设此特征具有二元值 0 和 1,0 表示某人一周的锻炼时间不超过 2 天,1 表示某人一周的锻炼时间超过 2 天。如果我们要同时使用这两个特征(即测试结果和“锻炼”特征的值)计算最终概率,贝叶斯定理将不可行。朴素贝叶斯是贝叶斯定理的一种延伸,假设所有特征相互之间是独立的。