极大似然估计——为什么对于离散属性,极大似然估计法得到的类条件概率等于频率?

极大似然估计就是最大化对数似然。

假设第c类有K个样本。属性取值为N种,表示为集合X,且取第i个属性值的样本共有 k i 个,显然有

i = 1 N k i = K .

极大似然估计首先假设 P ( x | c ) = f ( x , θ c ) ,这个 f ( x , θ c ) 是自己设定的,比如对于连续的属性,可以假设 f 是高斯概率密度函数。但是这里是离散的情况,所以假设

f ( x , θ c ) = θ c x

注意, f 是概率密度函数,要满足概率条件,即 x X θ c x = 1 。上面已经假设了 x 总共有N种情况。

然后,极大似然估计希望概率分布最大化对数似然:

L L ( θ c ) = log P ( D c | θ c ) = x D c log P ( x | θ c ) .

于是我们得到离散属性情况下的优化目标:

(3) min θ c x D c log P ( x | θ c ) = x i X k i log P ( x i | θ c ) = x i X k i θ c x i (4) s . t . x i X θ c x i = 1

解这个优化问题,得到最优解为

θ c x i = k i K ,

也就是在离散情况下,极大似然估计得到的概率就是频率。

对于高斯分布,同样的方法进行推理,只是 f 的形式不同而已。

猜你喜欢

转载自blog.csdn.net/VictoriaW/article/details/79797245