极大似然估计——为什么对于离散属性，极大似然估计法得到的类条件概率等于频率？

极大似然估计就是最大化对数似然。

假设第c类有K个样本。属性取值为N种，表示为集合X，且取第i个属性值的样本共有 $k_i$ 个，显然有

\sum_{i = 1}^{N} k_{i} = K .

$\sum_{i=1}^N k_i=K.$

极大似然估计首先假设 $P(x|c)=f(x, \theta_c)$ ，这个 $f(x,\theta_c)$ 是自己设定的，比如对于连续的属性，可以假设 $f$ 是高斯概率密度函数。但是这里是离散的情况，所以假设

f (x, θ_{c}) = θ_{c}^{x} ，

$f(x,\theta_c) = \theta_c^x，$

注意， $f$ 是概率密度函数，要满足概率条件，即 $\sum_{x\in X} \theta_c^x = 1$ 。上面已经假设了 $x$ 总共有N种情况。

然后，极大似然估计希望概率分布最大化对数似然:

L L (θ_{c}) = \log P (D_{c} | θ_{c}) = \sum_{x \in D_{c}} \log P (x | θ_{c}) .

$LL(\theta_c)=\log P(D_c|\theta_c)=\sum_{x\in D_c}\log P(x|\theta_c).$

于是我们得到离散属性情况下的优化目标：

\begin{aligned} (3) & min_{θ_{c}} & - \sum_{x \in D_{c}} \log P (x | θ_{c}) = - \sum_{x_{i} \in X} k_{i} \log P (x_{i} | θ_{c}) = - \sum_{x_{i} \in X} k_{i} θ_{c}^{x_{i}} \\ (4) & s . t . & \sum_{x_{i} \in X} θ_{c}^{x_{i}} = 1 \end{aligned}

$\begin{align} \min_{\theta_c} & \quad - \sum_{x\in D_c}\log P(x|\theta_c) = - \sum_{x_i \in X} k_i \log P(x_i|\theta_c)=- \sum_{x_i \in X} k_i \theta_c^{x_i} \\ s.t. &\quad \sum_{x_i \in X} \theta_c^{x_i} = 1 \end{align}$

解这个优化问题，得到最优解为

θ_{c}^{x_{i}} = \frac{k_{i}}{K},

$\theta_c^{x_i}=\frac{k_i}{K},$

也就是在离散情况下，极大似然估计得到的概率就是频率。

对于高斯分布，同样的方法进行推理，只是 $f$ 的形式不同而已。

极大似然估计——为什么对于离散属性，极大似然估计法得到的类条件概率等于频率？

猜你喜欢