机器学习学习笔记之二——大数定律、中心极限定理以及极大似然估计理解与用法

极大似然估计法常常出现在机器学习算法的推导过程中，其使用场景或者说功能正是： 以已有样本、已有公式去估计参数，最大可能的那个参数。

这样来理解，极大似然估计法其实和机器学习算法的目标都是一样的。那么极大似然估计法如何来用呢？

（1）、写出已有公式： L(θ)。

（2）、对L(θ)取对数： ln L(θ)。这一步的目的是将L(θ)中的连乘操作转化为连加。

（3）、对ln L(θ)求关于θ的导数，设 d (ln L(θ)) / dθ = 0,求解得到的 θ即为最大可能的那个参数θ。

那么步骤看不懂怎么办？

（1）、L(θ)是什么？

虽然之前假设了是已有公式，但是在实际问题中这个公式必然是要自己定义的。

若第 i 个样本中 x 事件发生的概率假设为p,，则 L(θ) = ∏ p(xi) 。（上面第二条所说的连乘就是这里的连乘符号）

（2）、照葫芦画瓢套公式没问题，那么和大数定律有什么关系？

简单理解一下大数定律：用部分的样本分布取拟合整体分布。（拿10000个人的性别分布去猜全世界人的性别分布）

在最大似然估计问题最开始就要提出假设，因为最大似然估计法用到的样本就是这部分样本，而问题是整体，所以就用到了大数定律。

（3）、中心极限定理来凑什么热闹？

中心极限定理和最大似然估计是没有直接联系的，它也是建立在大数定律的基础上。

简单理解一下中心极限定理：同一分布的样本的累加，会呈现出正态分布。（我抛硬币抛了无数次，那么（第一次）、（第一次和第二次）、（第一次和第二次和第三次）……这样的事件所发生的概率会呈现出正态分布）

对于最大似然估计法来说，往往遇到的问题就是这样可以应用于中心极限定理的问题，毕竟正态分布在生活中无处不在。。。