源于频率主义学派的极大似然估计(Maximum Likelihood Estimation,简称MLE),是根据数据采样来估计概率分布参数的经典方法,在机器学习的对数几率回归、贝叶斯分类器等中有广泛的应用。
1 极大似然估计法
设总体的概率密度函数(或分布律)为
f(y,w1,w2,…,wk),y1,y2,…,ym为从该总体中抽出来的样本。英文
y1,y2,…,ym相互独立同分布,于是,它们的联合概率密度函数(或联合概率)为
L(y1,y2,…,ym;w1,w2,…,wk)=i=1∏mf(yi,w1,w2,…,wk)
其中,
w1,w2,…,wk被看作固定但是未知的参数。当我们已经观测到一组样本观测值
y1,y2,…,ym时,要去估计未知参数,一种直观的想法就是,哪一组参数值使得现在的样本观测值出现的概率最大,哪一组参数可能就是真正的参数,我们就用它作为参数的估计值,这就是所谓的极大似然估计。
2 对数似然函数
通常记
L(y1,y2,…,ym;w1,w2,…,wk)=L(w),并称其为似然函数。于是求
w的极大似然估计就归结为求
L(w)的最大值点。由于连乘容易导致下溢,通常使用对数似然函数(log-likelihood)。
lnL(w)=ln(i=1∏mf(yi,w1,w2,…,wk))=i=1∑mlnf(yi,w1,w2,…,wk)
由于对数似然函数是单调递增函数,其与
L(w)有相同的最大值点。则求解
L(w)最大值点就转化为求
lnL(w)的最大值点,对于凸函数而言就很简单了。