贝叶斯公式是大学概率论中很基础的公式。但贝叶斯公式有一个特性就是,很容易忘记的。在机器学习中,贝叶斯公式可以说是非常重要了。本文从贝叶斯公式出发,探索贝叶斯所贯穿的机器学习算法。 以下是二事件(事件A和事件B)下的贝叶斯公式:
P(A|B)表示在B已经发生的情况下A发生的概率,P(A)表示A事件发生的概率。用面积法可以加深这个公式的理解和记忆。
如上图一个正方形,面积为1。事件A和事件B都是正方形的一部分,面积代表各自发生的概率(比如在单位面积square里扔石子,掉到哪个区域的概率就是这个区域的面积)。那么,
SA∩B怎么表示呢
现在把B区域当作一个整体在B区域内A所占的面积比B区域的面积就是P(A|B)了,
P(A|B)
=
SA∩B
/
SB
SA∩B = P(A|B)*SB=P(A|B)*P(B)
那么,同理把A区域当作一个整体
区域可以得到,
P(B|A) = SA∩B/SA
SA∩B = P(B|A)*SA=P(B|A)*P(A)
那么,
P(A|B)*P(B) =
P(B|A)
*P(A)
这样就很做一个变换就可以得到贝叶斯公式了。
进一步迈向多事件贝叶斯公式,
依然可以采用面积法理解和加深记忆,
先求出B1和A的相交区域面积:
P(A|B1) = SA∩B1/SB1
SA∩B1 = P(A|B1)*SB1
同理,
SA∩Bi
= P(A|Bi)*
SBi
SA∩Bi
= P(A|Bi)*
P(Bi)
这里有一个前提条件,发生事件A一定有B事件发生(B1,B2,B3...),对以下情况贝叶斯公式不管用,
就是说,A不能冒尖儿出去,这也是贝叶斯公式叫全概率公式的原因(A必须全部在B事件中)
那么A事件的面积就是所有相交区域面积之和了,
P(A) = SA =
SA∩B1
+
SA∩B2+ ...+
SA∩Bn
P(A) = Σ
P(A|Bi)*
P(Bi)
又可以通过面积法得到,P(Bj|A) =
SBj/
S
A
将两个面积代入,就可以得到贝叶斯公式的一般形式了。~