干货 | 通俗易懂的极大似然估计

源于频率主义学派的极大似然估计(Maximum Likelihood Estimation,简称MLE),是根据数据采样来估计概率分布参数的经典方法,在机器学习的对数几率回归、贝叶斯分类器等中有广泛的应用。

1 极大似然估计法

设总体的概率密度函数(或分布律)为 f ( y , w 1 , w 2 , , w k ) , y 1 , y 2 , , y m f\left(y, w_{1}, w_{2}, \ldots, w_{k}\right), y_{1}, y_{2}, \ldots, y_{m} 为从该总体中抽出来的样本。英文 y 1 , y 2 , , y m y_{1}, y_{2}, \dots, y_{m} 相互独立同分布,于是,它们的联合概率密度函数(或联合概率)为
L ( y 1 , y 2 , , y m ; w 1 , w 2 , , w k ) = i = 1 m f ( y i , w 1 , w 2 , , w k ) L\left(y_{1}, y_{2}, \ldots, y_{m} ; w_{1}, w_{2}, \ldots, w_{k}\right)=\prod_{i=1}^{m} f\left(y_{i}, w_{1}, w_{2}, \ldots, w_{k}\right)
其中, w 1 , w 2 , , w k w_{1}, w_{2}, \ldots, w_{k} 被看作固定但是未知的参数。当我们已经观测到一组样本观测值 y 1 , y 2 , , y m y_{1}, y_{2}, \dots, y_{m} 时,要去估计未知参数,一种直观的想法就是,哪一组参数值使得现在的样本观测值出现的概率最大,哪一组参数可能就是真正的参数,我们就用它作为参数的估计值,这就是所谓的极大似然估计。

2 对数似然函数

通常记 L ( y 1 , y 2 , , y m ; w 1 , w 2 , , w k ) = L ( w ) L\left(y_{1}, y_{2}, \dots, y_{m} ; w_{1}, w_{2}, \dots, w_{k}\right)=L(w) ,并称其为似然函数。于是求 w w 的极大似然估计就归结为求 L ( w ) L(w) 的最大值点。由于连乘容易导致下溢,通常使用对数似然函数(log-likelihood)。
ln L ( w ) = ln ( i = 1 m f ( y i , w 1 , w 2 , , w k ) ) = i = 1 m ln f ( y i , w 1 , w 2 , , w k ) \ln L(\boldsymbol{w})=\ln \left(\prod_{i=1}^{m} f\left(y_{i}, w_{1}, w_{2}, \ldots, w_{k}\right)\right)=\sum_{i=1}^{m} \ln f\left(y_{i}, w_{1}, w_{2}, \ldots, w_{k}\right)
由于对数似然函数是单调递增函数,其与 L ( w ) L(\boldsymbol{w}) 有相同的最大值点。则求解 L ( w ) L(\boldsymbol{w}) 最大值点就转化为求 ln L ( w ) \ln L(\boldsymbol{w}) 的最大值点,对于凸函数而言就很简单了。

发布了17 篇原创文章 · 获赞 30 · 访问量 1576

猜你喜欢

转载自blog.csdn.net/OuDiShenmiss/article/details/105211088