最大似然估计(MLE:样本观测总体参数)是如何工作的?

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/shenziheng1/article/details/82824587

1. MLE的意义:样本估计总体分布参数

假定一个事件的观测样本服从如下分布,我们如何确定总体数据的分布模型?

首先应该想到是建立线性回归模型,然而由于该变量不是正态分布的,而且是不对称的,因此不符合线性回归的假设

常用的方法是对变量进行对数、平方根、倒数等转换,使转换后的变量服从正态分布,并进行线性回归建模。变换后的效果如下

不幸的是,所有这些都不接近正态分布,那么应该如何对这些数据进行建模,才能不违背线性模型(高斯分布或者近似高斯分布)的基本假设?

如何利用正态分布以外的其他分布来建模这些数据呢?如果使用了不同的分布,又将如何来估计系数/参数?这便是最大似然估计(MLE)的主要优势。

2. MLE意义:实例分析

Comment:数据呈现高斯分布或者近似高斯分布,可以使用线性回归进行建模;

Comment:数据偏离高斯分布非常严重,建议使用最大似然建模并估计模型参数;

示例如下:

在研究统计和概率时,诸如x>100的概率,因为x服从正态分布,平均值为50,标准差为10。在这些问题中,我们已经知道分布(在这种情况下是正态分布)及其参数(均值和标准差),但在实际生活问题中,这些参数是未知的,并且必须从数据中估计出来。MLE可以帮助我们确定给定数据的分布参数可以用下面例子加深理解:假设用数据来表示班级中学生的体重。数据如下图所示:

看起来这组数据似乎遵循正态分布(其实偏差还是蛮严重的)。即使我们假设该组数据已经满足了正态分布,那么我们该如何得到这个正态分布的均值和标准差呢?

一种方法是直接计算给定数据的平均值和标准差,分别为49.8公斤和11.37公斤。这些值能很好地表示给定的数据,但还不能最好地描述总体情况(也就是我们通常说的模型泛化能力差,在样本数据集上表现良好,在测试集/样本总体上表现差)。

这种情况下,我们就可以使用最大似然MLE来获得更稳健的参数估计。因此,MLE可以定义为从样本数据中估计总体参数(如均值和方差、泊松率(Lambda)等)的方法从而使获得观测数据的概率(可能性)最大化

3. 技术细节

3.1 分布参数

所谓的分布参数可以理解为一个概率分布的量化指数,它是样本总数的数值特征或一个统计模型。

例如,高斯分布就是通过均值方差两个分布参数唯一确定的:

同样,泊松分布是由分布参数λ唯一控制,即事件在时间或空间间隔内发生的次数:

大多数数据分布都有1个或2个参数控制,但有些分布可以有多达4个参数,比如4参数β分布。

3.2 似然,对数似然,最大化似然函数

通过概率论的基本分布:对于任意分布(非均匀分布),总是在某些数值位置上出现的概率大,而在其他的位置上出现的概率小。

现实中我们需要做的是:在已知的少量观测样本上,如何建立模型,估计模型参数,进而最大概率地估计样本总体。

在MLE中,假定似然函数L(θ;x),其中θ是分布参数向量,x是观测集。需要做的是寻找具有给定观测值(x值)的最大可能性的θ值。

如果假设观测集(Xi)是独立的同分布IID随机变量,概率分布为f0(其中f0=正态分布,例如图1),似然函数可以简化为:

为了求似然函数的极大值/极小值,取此似然函数的导数,并将其设为0。所以:

为找到对数似然函数LL的极大值,可以:

  • 取对数似然函数的一阶导数,并将其等价于0;

  • 取对数似然函数的二阶导数,并确认其为负值。

在许多情况下,微积分对最大化似然估计没有直接帮助,但最大值仍然可以很容易地识别出来。在寻找最大对数似然值的参数值时,没有任何东西比一阶导数等于零具有更为 “优先”或特殊的位置。当需要估计一些参数时,它仅仅是一个方便的工具而已。

4. 反思

我们自然而言会想到:参数空间中是否存在比标准线性模型估计更好的系数。正态分布是缺省分布,也是最广泛使用的分布形式,但如果采用其它更为正确的分布,则可以得到更好的结果最大似然估计是一种可以用于估计分布参数而不考虑所使用的分布的技术因此,如果遇见数据建模问题时,应该首先看看数据的分布情况,看看有没有比正态分布更有意义的分布!

猜你喜欢

转载自blog.csdn.net/shenziheng1/article/details/82824587