源于频率主义学派的极大似然估计（Maximum Likelihood Estimation,简称MLE），是根据数据采样来估计概率分布参数的经典方法，在机器学习的对数几率回归、贝叶斯分类器等中有广泛的应用。

1 极大似然估计法

设总体的概率密度函数（或分布律）为 $f\left(y, w_{1}, w_{2}, \ldots, w_{k}\right), y_{1}, y_{2}, \ldots, y_{m}$ 为从该总体中抽出来的样本。英文 $y_{1}, y_{2}, \dots, y_{m}$ 相互独立同分布，于是，它们的联合概率密度函数（或联合概率）为
$L\left(y_{1}, y_{2}, \ldots, y_{m} ; w_{1}, w_{2}, \ldots, w_{k}\right)=\prod_{i=1}^{m} f\left(y_{i}, w_{1}, w_{2}, \ldots, w_{k}\right)$
其中， $w_{1}, w_{2}, \ldots, w_{k}$ 被看作固定但是未知的参数。当我们已经观测到一组样本观测值 $y_{1}, y_{2}, \dots, y_{m}$ 时，要去估计未知参数，一种直观的想法就是，哪一组参数值使得现在的样本观测值出现的概率最大，哪一组参数可能就是真正的参数，我们就用它作为参数的估计值，这就是所谓的极大似然估计。

2 对数似然函数

通常记 $L\left(y_{1}, y_{2}, \dots, y_{m} ; w_{1}, w_{2}, \dots, w_{k}\right)=L(w)$ ，并称其为似然函数。于是求 $w$ 的极大似然估计就归结为求 $L(w)$ 的最大值点。由于连乘容易导致下溢，通常使用对数似然函数（log-likelihood）。
$\ln L(\boldsymbol{w})=\ln \left(\prod_{i=1}^{m} f\left(y_{i}, w_{1}, w_{2}, \ldots, w_{k}\right)\right)=\sum_{i=1}^{m} \ln f\left(y_{i}, w_{1}, w_{2}, \ldots, w_{k}\right)$
由于对数似然函数是单调递增函数，其与 $L(\boldsymbol{w})$ 有相同的最大值点。则求解 $L(\boldsymbol{w})$ 最大值点就转化为求 $\ln L(\boldsymbol{w})$ 的最大值点，对于凸函数而言就很简单了。

SkyWalker_FanL

发布了17 篇原创文章 · 获赞 30 · 访问量 1576

私信关注

干货 | 通俗易懂的极大似然估计

1 极大似然估计法

2 对数似然函数

猜你喜欢