那些参数估计法



本文内容


写在前面:参数估计是一种统计推断。在统计学的世界中,自古以来一直存在着两种分布:一种存在于现实世界中,比如我们可以把一枚硬币扔上一万次,然后算一下几次正面几次反面,这是样本的分布;另一种只存在于科学家深深的脑海里,在一种名为参数的神秘力量的操控下,服从一种超自然的规律,那便是理论分布。样本分布是理论分布在现实世界的影子,同样是扔一枚质地均匀的硬币,如果你在科学家的脑海里扔的话,正面和反面出现的机会将会是绝对的1:1。而回到现实中,我们想要得到同样的结果,就需要重复无穷多次,才能展示出那个理论上存在的本体。因为一个伟大的先知--大数定理君--曾经说过:只有将一个实验重复无数次,每次实验的小误差之间才会互相抵消,你算出的样本平均值才会等于理论上的平均值(期望)。所以通常,我们只能根据有限的样本,尽量猜测一下那个传说中的参数大概是多少,这个猜测的方法就是参数估计。常用的参数估计的方法有矩估计、最小二乘估计、最大似然估计等。


本期内容主要讲解最大似然估计和最小二乘法这两种最常见的估计法,顺便聊聊最大似然估计和交叉熵的私人关系。


最大似然估计



最大似然估计其实是我们日常生活中非常常用的一种思考模式。通俗的说,就是我们会根据看到的事情去推测没看到的事情。


第一个栗子:

例如,妈妈回到家,看到下面的情形:

1. 小明的暑假作业一个字都没写

2. 伸手一摸,电脑主机箱热气腾腾

3. 转头一看,墙角的小明正瑟瑟发抖。


那么根据以上描述,你如果是小明的母上大人,你会不会一边撸袖子,一边去厨房找笤帚疙瘩了呢?


没错,我们总是喜欢将看到事实当做推理的基本条件,根据以往的经验,去寻找一个最有可能的解释。


不仅小明明的妈妈如此,看到正在跟闺蜜一起逛街的男朋友的你也会是如此,这就是所谓的最大似然估计思想啦。


第二个栗子:

我们再举一个对文科生不太友好的简单例子:

如上图所示,有两个外形完全相同的箱子,甲箱中有99个白球,1个黑球;乙箱中有99个黑球,一个白球。一次试验取出一球,结果取出的是黑球。


问:黑球是来自于哪个箱子?

几乎所有人都会说:当然来自乙箱的概率最大咯,所以我猜它是从乙箱中抽出来的。


说到这,你应该对最大似然估计的数学意义有了一个大概的认识了吧!没错,最大似然估计就是利用已知的样本结果(抽到了黑球),反推最有可能导致这样结果的参数(哪一个箱子)。


下面我们再从稍微偏数学的角度解释一下最大似然估计:


 第三个栗子:

我们在街头遇到一个以抛硬币赌博为生的流浪汉,如果硬币正面朝上他赢,反之,客户赢。他自称他的硬币绝对公平,大家赢的概率完全相同。每局游戏抛10次硬币,谁赢的次数多,就可以拿走所有的钱。(又是一局十次定输赢,有没有想起了被罚不能玩游戏的王者小明?那么作为王者的你,知不知道为什么每局总要玩十次呢?)


接下来的一局游戏中,硬币6次正面朝上,4次反面朝上。流浪汉赢了!


那么就这一局游戏而言,我们来看看硬币是否公平。我们已知,硬币的结果分布一定符合二项分布,我们把硬币朝上的概率作为参数θ,若这是一枚公平的硬币,那么θ=0.5 。我们来计算一下这局游戏恰好出现“6上4下”这样的结果的概率:


如果流浪汉的硬币真的正反均匀,只有21%的概率会得到这个结果。于是我们自然会有一个大胆的想法:这个小哥为了赚钱,对硬币动了手脚,硬币正面朝上的概率大于0.5(简直废话。。。不然他怎么可能赚钱啊,非饿死不可)!于是这次,我们根据观察到的样本分布,假设参数θ=0.6,我们再来计算一下这次游戏结果发生的概率:


。由此可见,参数θ=0.6的可能性显然更大。这样我们就更有理由认为小哥对硬币动了手脚!!


当然一次事件其实并不代表什么,不过如果你一直在旁边观察小哥和行人的游戏,并记录每一盘的结果,那么记录次数越多,你就越能够确定小哥到底是不是有对硬币动手动脚。于是你跟小哥一起风餐露,宿颠沛流离,期间一边记录数据,一边还要监视他,保证他绝对没有换过硬币。经过一整天狗仔式的跟踪调查,终于得到了一个更大的样本集,有了一个更接近事实的结果。在这10个小时中,小哥共抛了100次硬币,这次有60次都是正面朝上,于是你又分别计算了p1和p2 :


这次他们俩的比值就更大了,达到了8倍。此时,你终于可以有很大的把握宣称:没错!真相只有一个,硬币有问题,他是一个骗纸!!


我们再用可视化的方式展示一下θ和p的关系:

我们发现p有且只有一个最大值,就是在θ=0.6 的时候。


以上就是最大似然估计的定义,而以下的内容基本不是人话,非数学系朋友可以选择性跳过。


根据已发生的结果,估计函数中的参数。使得发生结果的概率最高的参数即为最优解。


最大似然估计和交叉熵的私人关系!!

还记得我们上一节说过,在分类问题中,极大似然估计和相对熵其实是等价的吗?

 

在我们的第一篇文章中,已经证明了用最大似然估计法求解逻辑回归时,其最终结果转化为求解以下函数的最大值:


而根据上一篇文章,相对熵有如下公式:

可见最大似然估计和相对熵的公式其实只差一个负号而已。在最大似然估计中,我们要求概率最大的情况;在相对熵的公式中,我们是希望其最小化为最优解。因此在分类问题中,他们二者在本质上是同一个算法,是等价的。


最小二乘估计



最小二乘估计,又称最小平方法,是一种数学优化技术。它通过最小化误差的平方和寻找数据的最佳函数匹配


简单来说,最小二乘法就是找到一根线,穿过样本所在的区域,把每个样本到直线的距离都相加,让这个相加的结果最小。


事实上,早在几千年前,当我们的祖先仰望星空,用一根一根的线把一群星星串在一起,想象成一个一个的星座的时候,他们使用的就是最小二乘法的思想。


栗子:

最小二乘法主要用在(非)线性拟合中,假设我们想了解教育程度和工资之间的关系:如果把教育程度的初中、高中、大学、研究生和博士分别定义为1,2,3,4,我们希望找到类似于"工资=a*教育程度+b"的这种规律,a和b都需要我们从数据中去发现,前者称之为底薪,后者称之为教育增量薪水。


要计算a和b的数值,我们只要两个样本结果就可以组成一个二元一次方程组。这个在图上就体现为两点决定一条直线:



但如果有三个甚至多于三个的样本,并且他们并不在一条直线上,我们就需要作出取舍了。如下图所示:

虚线为任取两个点所画出的直线。显然他们都没能利用到第三个点所带来的信息,可是该如何取舍呢?如何巧妙的应用三个点所带来的信息量呢?


在此我们需要引入点到线的距离作为评判直线好坏的标准,这样不管多少个样本点,我们都能找到最优的那一条直线,即:“所有样本点到这条直线的距离之和最小”的那条直线。由于考虑到距离有正负之分,直接相加会导致距离减小,因此通过对距离取平方就形成了距离的非负性


因此最小二乘法的推到过程及公式如下:

假设拟合直线的表达式为:y = ax+b,对于任意样本点  ,它与真实值的误差为利用最小二乘法我们可知,计算a和b即为求解:

接下来需要对S求偏导,并令其等于0,即可求解。

求解可得:


在数学领域中,还有很多用于估计分布参数的方法常见的还有矩法估计和贝叶斯估计等,在此暂不一一详细介绍了。接下来我们会逐步深入机器学习算法的领域,看看人类是用什么方法教会电脑理解人类的世界,学会人类的思考方式的,敬请期待~

本文内容


写在前面:参数估计是一种统计推断。在统计学的世界中,自古以来一直存在着两种分布:一种存在于现实世界中,比如我们可以把一枚硬币扔上一万次,然后算一下几次正面几次反面,这是样本的分布;另一种只存在于科学家深深的脑海里,在一种名为参数的神秘力量的操控下,服从一种超自然的规律,那便是理论分布。样本分布是理论分布在现实世界的影子,同样是扔一枚质地均匀的硬币,如果你在科学家的脑海里扔的话,正面和反面出现的机会将会是绝对的1:1。而回到现实中,我们想要得到同样的结果,就需要重复无穷多次,才能展示出那个理论上存在的本体。因为一个伟大的先知--大数定理君--曾经说过:只有将一个实验重复无数次,每次实验的小误差之间才会互相抵消,你算出的样本平均值才会等于理论上的平均值(期望)。所以通常,我们只能根据有限的样本,尽量猜测一下那个传说中的参数大概是多少,这个猜测的方法就是参数估计。常用的参数估计的方法有矩估计、最小二乘估计、最大似然估计等。


本期内容主要讲解最大似然估计和最小二乘法这两种最常见的估计法,顺便聊聊最大似然估计和交叉熵的私人关系。


最大似然估计



最大似然估计其实是我们日常生活中非常常用的一种思考模式。通俗的说,就是我们会根据看到的事情去推测没看到的事情。


第一个栗子:

例如,妈妈回到家,看到下面的情形:

1. 小明的暑假作业一个字都没写

2. 伸手一摸,电脑主机箱热气腾腾

3. 转头一看,墙角的小明正瑟瑟发抖。


那么根据以上描述,你如果是小明的母上大人,你会不会一边撸袖子,一边去厨房找笤帚疙瘩了呢?


没错,我们总是喜欢将看到事实当做推理的基本条件,根据以往的经验,去寻找一个最有可能的解释。


不仅小明明的妈妈如此,看到正在跟闺蜜一起逛街的男朋友的你也会是如此,这就是所谓的最大似然估计思想啦。


第二个栗子:

我们再举一个对文科生不太友好的简单例子:

如上图所示,有两个外形完全相同的箱子,甲箱中有99个白球,1个黑球;乙箱中有99个黑球,一个白球。一次试验取出一球,结果取出的是黑球。


问:黑球是来自于哪个箱子?

几乎所有人都会说:当然来自乙箱的概率最大咯,所以我猜它是从乙箱中抽出来的。


说到这,你应该对最大似然估计的数学意义有了一个大概的认识了吧!没错,最大似然估计就是利用已知的样本结果(抽到了黑球),反推最有可能导致这样结果的参数(哪一个箱子)。


下面我们再从稍微偏数学的角度解释一下最大似然估计:


 第三个栗子:

我们在街头遇到一个以抛硬币赌博为生的流浪汉,如果硬币正面朝上他赢,反之,客户赢。他自称他的硬币绝对公平,大家赢的概率完全相同。每局游戏抛10次硬币,谁赢的次数多,就可以拿走所有的钱。(又是一局十次定输赢,有没有想起了被罚不能玩游戏的王者小明?那么作为王者的你,知不知道为什么每局总要玩十次呢?)


接下来的一局游戏中,硬币6次正面朝上,4次反面朝上。流浪汉赢了!


那么就这一局游戏而言,我们来看看硬币是否公平。我们已知,硬币的结果分布一定符合二项分布,我们把硬币朝上的概率作为参数θ,若这是一枚公平的硬币,那么θ=0.5 。我们来计算一下这局游戏恰好出现“6上4下”这样的结果的概率:


如果流浪汉的硬币真的正反均匀,只有21%的概率会得到这个结果。于是我们自然会有一个大胆的想法:这个小哥为了赚钱,对硬币动了手脚,硬币正面朝上的概率大于0.5(简直废话。。。不然他怎么可能赚钱啊,非饿死不可)!于是这次,我们根据观察到的样本分布,假设参数θ=0.6,我们再来计算一下这次游戏结果发生的概率:


。由此可见,参数θ=0.6的可能性显然更大。这样我们就更有理由认为小哥对硬币动了手脚!!


当然一次事件其实并不代表什么,不过如果你一直在旁边观察小哥和行人的游戏,并记录每一盘的结果,那么记录次数越多,你就越能够确定小哥到底是不是有对硬币动手动脚。于是你跟小哥一起风餐露,宿颠沛流离,期间一边记录数据,一边还要监视他,保证他绝对没有换过硬币。经过一整天狗仔式的跟踪调查,终于得到了一个更大的样本集,有了一个更接近事实的结果。在这10个小时中,小哥共抛了100次硬币,这次有60次都是正面朝上,于是你又分别计算了p1和p2 :


这次他们俩的比值就更大了,达到了8倍。此时,你终于可以有很大的把握宣称:没错!真相只有一个,硬币有问题,他是一个骗纸!!


我们再用可视化的方式展示一下θ和p的关系:

我们发现p有且只有一个最大值,就是在θ=0.6 的时候。


以上就是最大似然估计的定义,而以下的内容基本不是人话,非数学系朋友可以选择性跳过。


根据已发生的结果,估计函数中的参数。使得发生结果的概率最高的参数即为最优解。


最大似然估计和交叉熵的私人关系!!

还记得我们上一节说过,在分类问题中,极大似然估计和相对熵其实是等价的吗?

 

在我们的第一篇文章中,已经证明了用最大似然估计法求解逻辑回归时,其最终结果转化为求解以下函数的最大值:


而根据上一篇文章,相对熵有如下公式:

可见最大似然估计和相对熵的公式其实只差一个负号而已。在最大似然估计中,我们要求概率最大的情况;在相对熵的公式中,我们是希望其最小化为最优解。因此在分类问题中,他们二者在本质上是同一个算法,是等价的。


最小二乘估计



最小二乘估计,又称最小平方法,是一种数学优化技术。它通过最小化误差的平方和寻找数据的最佳函数匹配


简单来说,最小二乘法就是找到一根线,穿过样本所在的区域,把每个样本到直线的距离都相加,让这个相加的结果最小。


事实上,早在几千年前,当我们的祖先仰望星空,用一根一根的线把一群星星串在一起,想象成一个一个的星座的时候,他们使用的就是最小二乘法的思想。


栗子:

最小二乘法主要用在(非)线性拟合中,假设我们想了解教育程度和工资之间的关系:如果把教育程度的初中、高中、大学、研究生和博士分别定义为1,2,3,4,我们希望找到类似于"工资=a*教育程度+b"的这种规律,a和b都需要我们从数据中去发现,前者称之为底薪,后者称之为教育增量薪水。


要计算a和b的数值,我们只要两个样本结果就可以组成一个二元一次方程组。这个在图上就体现为两点决定一条直线:



但如果有三个甚至多于三个的样本,并且他们并不在一条直线上,我们就需要作出取舍了。如下图所示:

虚线为任取两个点所画出的直线。显然他们都没能利用到第三个点所带来的信息,可是该如何取舍呢?如何巧妙的应用三个点所带来的信息量呢?


在此我们需要引入点到线的距离作为评判直线好坏的标准,这样不管多少个样本点,我们都能找到最优的那一条直线,即:“所有样本点到这条直线的距离之和最小”的那条直线。由于考虑到距离有正负之分,直接相加会导致距离减小,因此通过对距离取平方就形成了距离的非负性


因此最小二乘法的推到过程及公式如下:

假设拟合直线的表达式为:y = ax+b,对于任意样本点  ,它与真实值的误差为利用最小二乘法我们可知,计算a和b即为求解:

接下来需要对S求偏导,并令其等于0,即可求解。

求解可得:


在数学领域中,还有很多用于估计分布参数的方法常见的还有矩法估计和贝叶斯估计等,在此暂不一一详细介绍了。接下来我们会逐步深入机器学习算法的领域,看看人类是用什么方法教会电脑理解人类的世界,学会人类的思考方式的,敬请期待~

猜你喜欢

转载自blog.csdn.net/s373149591/article/details/80267301