一. 朴素贝叶斯
1.1适用场景
分类任务,比如垃圾短信,垃圾邮件分类,房价是涨还是跌。
1.2【数学基础】1.概率
条件概率
条件概率是指事件A在事件B发生的条件下发生的概率。条件概率表示为:P(A|B),读作“A在B发生的条件下发生的概率”。
联合概率
表示两个事件共同发生的概率。A与B的联合概率表示为 P(AB) 或者P(A,B),或者P(A∩B)。
边缘概率
是某个事件发生的概率,而与其它事件无关。边缘概率是这样得到的:在联合概率中,把最终结果中不需要的那些事件合并成其事件的全概率而消失(对离散随机变量用求和得全概率,对连续随机变量用积分得全概率)。这称为边缘化(marginalization)。A的边缘概率表示为P(A),B的边缘概率表示为P(B)。
条件概率的链式法则
P ( A , B ) = P ( A ) ∗ P ( B ∣ A ) P(A,B) = P(A) * P(B|A) P(A,B)=P(A)∗P(B∣A)
多个事件同样可以继续连乘
推广
P ( A B C ) = P ( C ∣ A B ) P ( B ∣ A ) P ( A ) P(ABC)=P(C|AB)P(B|A)P(A) P(ABC)=P(C∣AB)P(B∣A)P(A)
事件独立性与联合概率
独立:
P ( A , B ) = P ( A ) ∗ P ( B ) P(A,B) = P(A) * P(B) P(A,B)=P(A)∗P(B)
解读:P(B|A) = P(B)
非独立:
P ( A , B ) = P ( A ) ∗ P ( B ∣ A ) P(A,B) = P(A) * P(B|A) P(A,B)=P(A)∗P(B∣A)
1.3【数学基础】2.贝叶斯公式
P ( A ∣ B ) = P ( B ∣ A ) ∗ P ( A ) / P ( B ) P(A|B) = P(B|A) * P(A)/ P(B) P(A∣B)=P(B∣A)∗P(A)/P(B)
推导:
P ( A , B ) = P ( A ∣ B ) ∗ P ( B ) = P ( B ∣ A ) ∗ P ( A ) P(A,B) = P(A|B) * P(B) = P(B|A) * P(A) P(A,B)=P(A∣B)∗P(B)=P(B∣A)∗P(A)
根据条件概率的定义,在事件B发生的条件下事件A发生的概率是
P ( A ∣ B ) = P ( A ∩ B ) / P ( B ) P(A|B)=P(A∩B)/P(B) P(A∣B)=P(A∩B)/P(B)
同样地,在事件A发生的条件下事件B发生的概率
P ( B ∣ A ) = P ( A ∩ B ) / P ( A ) P(B|A)=P(A∩B)/P(A) P(B∣A)=P(A∩B)/P(A)
学习系统:
P(标签|特征) = P(特征|标签) * P(标签) /P(特征)
特征:诱因要素
1.4【数学基础】3.先验概率与后验概率
先验概率: P(B) 标签的概率
后验概率:P(B|A) ,在特征已知的情况下,标签的概率
二.算法原理
2.1 贝叶斯分类器基本原理
贝叶斯决策论通过相关概率已知的情况下利用误判损失来选择最优的类别分类。
假设有 N N N种可能的分类标记,记为 Y = { c 1 , c 2 , . . . , c N } Y=\{c_1,c_2,...,c_N\} Y={
c1,c2,...,cN},那对于样本 x \boldsymbol{x} x,它属于哪一类呢?
计算步骤如下:
step 1. 算出样本 x \boldsymbol{x} x属于第i个类的概率,即 P ( c i ∣ x ) P(c_i|x) P(ci∣x);
step 2. 通过比较所有的 P ( c i ∣ x ) P(c_i|\boldsymbol{x}) P(ci∣x),得到样本 x \boldsymbol{x} x所属的最佳类别。
step 3. 将类别 c i c_i ci和样本 x \boldsymbol{x} x代入到贝叶斯公式中,得到:
P ( c i ∣ x ) = P ( x ∣ c i ) P ( c i ) P ( x ) . P(c_i|\boldsymbol{x})=\frac{P(\boldsymbol{x}|c_i)P(c_i)}{P(\boldsymbol{x})}. P(ci∣x)=P(x)P(x∣ci)P(ci).
一般来说, P ( c i ) P(c_i) P(ci)为先验概率, P ( x ∣ c i ) P(\boldsymbol{x}|c_i) P(x∣ci)为条件概率, P ( x ) P(\boldsymbol{x}) P(x)是用于归一化的证据因子。对于 P ( c i ) P(c_i) P(ci)可以通过训练样本中类别为 c i c_i ci的样本所占的比例进行估计;此外,由于只需要找出最大的 P ( x ∣ c i ) P(\boldsymbol{x}|c_i) P(x∣ci),因此我们并不需要计算 P ( x ) P(\boldsymbol{x}) P(x)。
2.2朴素贝叶斯分类器
假设样本 x \boldsymbol{x} x包含 d d d个属性,即 x = { x 1 , x 2 , . . . , x d } \boldsymbol{x}=\{ x_1,x_2,...,x_d\} x={
x1,x2,...,xd}。于是有:
P ( x ∣ c i ) = P ( x 1 , x 2 , ⋯ , x d ∣ c i ) P(\boldsymbol{x}|c_i)=P(x_1,x_2,\cdots,x_d|c_i) P(x∣ci)=P(x1,x2,⋯,xd∣ci)
这个联合概率难以从有限的训练样本中直接估计得到(比如某个属性是连续值,那么给到的测试数据可能无法在已知样本上找到,所以说是非常难求的)。于是,朴素贝叶斯(Naive Bayesian,简称NB)采用了“属性条件独立性假设”:对已知类别,假设所有属性相互独立。于是有:
P ( x 1 , x 2 , ⋯ , x d ∣ c i ) = ∏ j = 1 d P ( x j ∣ c i ) P(x_1,x_2,\cdots,x_d|c_i)=\prod_{j=1}^d P(x_j|c_i) P(x1,x2,⋯,xd∣ci)=j=1∏dP(xj∣ci)
这样的话,我们就可以很容易地推出相应的判定准则了:
h n b ( x ) = arg max c i ∈ Y P ( c i ) ∏ j = 1 d P ( x j ∣ c i ) h_{nb}(\boldsymbol{x})=\mathop{\arg \max}_{c_i\in Y} P(c_i)\prod_{j=1}^dP(x_j|c_i) hnb(x)=argmaxci∈YP(ci)j=1∏dP(xj∣ci)
“属性条件独立性假设”:也是朴素贝叶斯公式朴素的所在(面试)。
条件概率 P ( x j ∣ c i ) P(x_j|c_i) P(xj∣ci)的求解
如果 x j x_j xj是标签属性,那么我们可以通过计数的方法估计 P ( x j ∣ c i ) P(x_j|c_i) P(xj∣ci)
P ( x j ∣ c i ) = P ( x j , c i ) P ( c i ) ≈ # ( x j , c i ) # ( c i ) P(x_j|c_i)=\frac{P(x_j,c_i)}{P(c_i)}\approx\frac{\#(x_j,c_i)}{\#(c_i)} P(xj∣ci)=P(ci)P(xj,ci)≈#(ci)#(xj,ci)
其中, # ( x j , c i ) \#(x_j,c_i) #(xj,ci)表示在训练样本中 x j x_j xj与 c i c_{i} ci共同出现的次数。
如果 x j x_j xj是数值属性,通常我们假设类别中 c i c_{i} ci的所有样本第 j j j个属性的值服从正态分布。我们首先估计这个分布的均值 μ μ μ和方差 σ σ σ,然后计算 x j x_j xj在这个分布中的概率密度 P ( x j ∣ c i ) P(x_j|c_i) P(xj∣ci)。
例子
使用经典的西瓜训练集如下:
编号 | 色泽 | 根蒂 | 敲声 | 纹理 | 脐部 | 触感 | 密度 | 含糖率 | 好瓜 |
---|---|---|---|---|---|---|---|---|---|
1 | 青绿 | 蜷缩 | 浊响 | 清晰 | 凹陷 | 硬滑 | 0.697 | 0.460 | 是 |
2 | 乌黑 | 蜷缩 | 沉闷 | 清晰 | 凹陷 | 硬滑 | 0.774 | 0.376 | 是 |
3 | 乌黑 | 蜷缩 | 浊响 | 清晰 | 凹陷 | 硬滑 | 0.634 | 0.264 | 是 |
4 | 青绿 | 蜷缩 | 沉闷 | 清晰 | 凹陷 | 硬滑 | 0.608 | 0.318 | 是 |
5 | 浅白 | 蜷缩 | 浊响 | 清晰 | 凹陷 | 硬滑 | 0.556 | 0.215 | 是 |
6 | 青绿 | 稍蜷 | 浊响 | 清晰 | 稍凹 | 软粘 | 0.403 | 0.237 | 是 |
7 | 乌黑 | 稍蜷 | 浊响 | 稍糊 | 稍凹 | 软粘 | 0.481 | 0.149 | 是 |
8 | 乌黑 | 稍蜷 | 浊响 | 清晰 | 稍凹 | 硬滑 | 0.437 | 0.211 | 是 |
9 | 乌黑 | 稍蜷 | 沉闷 | 稍糊 | 稍凹 | 硬滑 | 0.666 | 0.091 | 否 |
10 | 青绿 | 硬挺 | 清脆 | 清晰 | 平坦 | 软粘 | 0.243 | 0.267 | 否 |
11 | 浅白 | 硬挺 | 清脆 | 模糊 | 平坦 | 硬滑 | 0.245 | 0.057 | 否 |
12 | 浅白 | 蜷缩 | 浊响 | 模糊 | 平坦 | 软粘 | 0.343 | 0.099 | 否 |
13 | 青绿 | 稍蜷 | 浊响 | 稍糊 | 凹陷 | 硬滑 | 0.639 | 0.161 | 否 |
14 | 浅白 | 稍蜷 | 沉闷 | 稍糊 | 凹陷 | 硬滑 | 0.657 | 0.198 | 否 |
15 | 乌黑 | 稍蜷 | 浊响 | 清晰 | 稍凹 | 软粘 | 0.360 | 0.370 | 否 |
16 | 浅白 | 蜷缩 | 浊响 | 模糊 | 平坦 | 硬滑 | 0.593 | 0.042 | 否 |
17 | 青绿 | 蜷缩 | 沉闷 | 稍糊 | 稍凹 | 硬滑 | 0.719 | 0.103 | 否 |
对下面的测试例“测1”进行 分类:
编号 | 色泽 | 根蒂 | 敲声 | 纹理 | 脐部 | 触感 | 密度 | 含糖率 | 好瓜 |
---|---|---|---|---|---|---|---|---|---|
测1 | 青绿 | 蜷缩 | 浊响 | 清晰 | 凹陷 | 硬滑 | 0.697 | 0.460 | ? |
首先,估计类先验概率 P ( c j ) P(c_j) P(cj),有
KaTeX parse error: No such environment: align at position 8: \begin{̲a̲l̲i̲g̲n̲}̲ &P(好瓜=是)=\fra…
然后,为每个属性估计条件概率(这里,对于连续属性,假定它们服从正态分布)
P 青 绿 ∣ 是 = P ( 色 泽 = 青 绿 ∣ 好 瓜 = 是 ) = 3 8 = 0.375 P_{青绿|是}=P(色泽=青绿|好瓜=是)=\frac{3}{8}=0.375 P青绿∣是=P(色泽=青绿∣好瓜=是)=83=0.375
P 青 绿 ∣ 否 = P ( 色 泽 = 青 绿 ∣ 好 瓜 = 否 ) = 3 9 ≈ 0.333 P_{青绿|否}=P(色泽=青绿|好瓜=否)=\frac{3}{9}\approx0.333 P青绿∣否=P(色泽=青绿∣好瓜=否)=93≈0.333
P 蜷 缩 ∣ 是 = P ( 根 蒂 = 蜷 缩 ∣ 好 瓜 = 是 ) = 5 8 = 0.625 P_{蜷缩|是}=P(根蒂=蜷缩|好瓜=是)=\frac{5}{8}=0.625 P蜷缩∣是=P(根蒂=蜷缩∣好瓜=是)=85=0.625
P 蜷 缩 ∣ 否 = P ( 根 蒂 = 蜷 缩 ∣ 好 瓜 = 否 ) = 3 9 = 0.333 P_{蜷缩|否}=P(根蒂=蜷缩|好瓜=否)=\frac{3}{9}=0.333 P蜷缩∣否=P(根蒂=蜷缩∣好瓜=否)=93=0.333
P 浊 响 ∣ 是 = P ( 敲 声 = 浊 响 ∣ 好 瓜 = 是 ) = 6 8 = 0.750 P_{浊响|是}=P(敲声=浊响|好瓜=是)=\frac{6}{8}=0.750 P浊响∣是=P(敲声=浊响∣好瓜=是)=86=0.750
P 浊 响 ∣ 否 = P ( 敲 声 = 浊 响 ∣ 好 瓜 = 否 ) = 4 9 ≈ 0.444 P_{浊响|否}=P(敲声=浊响|好瓜=否)=\frac{4}{9}\approx 0.444 P浊响∣否=P(敲声=浊响∣好瓜=否)=94≈0.444
P 清 晰 ∣ 是 = P ( 纹 理 = 清 晰 ∣ 好 瓜 = 是 ) = 7 8 = 0.875 P_{清晰|是}=P(纹理=清晰|好瓜=是)=\frac{7}{8}= 0.875 P清晰∣是=P(纹理=清晰∣好瓜=是)=87=0.875
P 清 晰 ∣ 否 = P ( 纹 理 = 清 晰 ∣ 好 瓜 = 否 ) = 2 9 ≈ 0.222 P_{清晰|否}=P(纹理=清晰|好瓜=否)=\frac{2}{9}\approx 0.222 P清晰∣否=P(纹理=清晰∣好瓜=否)=92≈0.222
P 凹 陷 ∣ 是 = P ( 脐 部 = 凹 陷 ∣ 好 瓜 = 是 ) = 6 8 = 0.750 P_{凹陷|是}=P(脐部=凹陷|好瓜=是)=\frac{6}{8}= 0.750 P凹陷∣是=P(脐部=凹陷∣好瓜=是)=86=0.750
P 凹 陷 ∣ 否 = P ( 脐 部 = 凹 陷 ∣ 好 瓜 = 否 ) = 2 9 ≈ 0.222 P_{凹陷|否}=P(脐部=凹陷|好瓜=否)=\frac{2}{9} \approx 0.222 P凹陷∣否=P(脐部=凹陷∣好瓜=否)=92≈0.222
P 硬 滑 ∣ 是 = P ( 触 感 = 硬 滑 ∣ 好 瓜 = 是 ) = 6 8 = 0.750 P_{硬滑|是}=P(触感=硬滑|好瓜=是)=\frac{6}{8}= 0.750 P硬滑∣是=P(触感=硬滑∣好瓜=是)=86=0.750
P 硬 滑 ∣ 否 = P ( 触 感 = 硬 滑 ∣ 好 瓜 = 否 ) = 6 9 ≈ 0.667 P_{硬滑|否}=P(触感=硬滑|好瓜=否)=\frac{6}{9} \approx 0.667 P硬滑∣否=P(触感=硬滑∣好瓜=否)=96≈0.667
ρ 密 度 : 0.697 ∣ 是 = ρ ( 密 度 = 0.697 ∣ 好 瓜 = 是 ) = 1 2 π × 0.129 e x p ( − ( 0.697 − 0.574 ) 2 2 × 0.12 9 2 ) ≈ 1.959 \begin{aligned} \rho_{密度:0.697|是}&=\rho(密度=0.697|好瓜=是)\\&=\frac{1}{\sqrt{2 \pi}\times0.129}exp\left( -\frac{(0.697-0.574)^2}{2\times0.129^2}\right) \approx 1.959 \end{aligned} ρ密度:0.697∣是=ρ(密度=0.697∣好瓜=是)=2π×0.1291exp(−2×0.1292(0.697−0.574)2)≈1.959
ρ 密 度 : 0.697 ∣ 否 = ρ ( 密 度 = 0.697 ∣ 好 瓜 = 否 ) = 1 2 π × 0.195 e x p ( − ( 0.697 − 0.496 ) 2 2 × 0.19 5 2 ) ≈ 1.203 \begin{aligned} \rho_{密度:0.697|否}&=\rho(密度=0.697|好瓜=否)\\&=\frac{1}{\sqrt{2 \pi}\times0.195}exp\left( -\frac{(0.697-0.496)^2}{2\times0.195^2}\right) \approx 1.203 \end{aligned} ρ密度:0.697∣否=ρ(密度=0.697∣好瓜=否)=2π×0.1951exp(−2×0.1952(0.697−0.496)2)≈1.203
ρ 含 糖 : 0.460 ∣ 是 = ρ ( 密 度 = 0.460 ∣ 好 瓜 = 是 ) = 1 2 π × 0.101 e x p ( − ( 0.460 − 0.279 ) 2 2 × 0.10 1 2 ) ≈ 0.788 \begin{aligned} \rho_{含糖:0.460|是}&=\rho(密度=0.460|好瓜=是)\\&=\frac{1}{\sqrt{2 \pi}\times0.101}exp\left( -\frac{(0.460-0.279)^2}{2\times0.101^2}\right) \approx 0.788 \end{aligned} ρ含糖:0.460∣是=ρ(密度=0.460∣好瓜=是)=2π×0.1011exp(−2×0.1012(0.460−0.279)2)≈0.788
ρ 含 糖 : 0.460 ∣ 否 = ρ ( 密 度 = 0.460 ∣ 好 瓜 = 否 ) = 1 2 π × 0.108 e x p ( − ( 0.460 − 0.154 ) 2 2 × 0.10 8 2 ) ≈ 0.066 \begin{aligned} \rho_{含糖:0.460|否}&=\rho(密度=0.460|好瓜=否)\\&=\frac{1}{\sqrt{2 \pi}\times0.108}exp\left( -\frac{(0.460-0.154)^2}{2\times0.108^2}\right) \approx 0.066 \end{aligned} ρ含糖:0.460∣否=ρ(密度=0.460∣好瓜=否)=2π×0.1081exp(−2×0.1082(0.460−0.154)2)≈0.066
于是有
KaTeX parse error: No such environment: align at position 8: \begin{̲a̲l̲i̲g̲n̲}̲ P(&好瓜=是)\time…
由于 0.063 > 6.80 × 1 0 − 5 0.063>6.80\times 10^{-5} 0.063>6.80×10−5,因此,朴素贝叶斯分类器将测试样本“测1”判别为“好瓜”。
2.3算法类型
有监督
2.4算法适用
分类问题,可以二分类也可以多分类
2.5涉及的相关概念
EM算法
LR逻辑回归算法
概率图模型
2.6优缺点
优点:
1.空间开销小 ,
- 只需要带入公式计算即可 ,首先看空间,模型的参数非常少,只需要在内存中存储要计算的边缘概率是条件概率就好
2.训练预测的时间开销小 - 对于有监督的机器学习,都是需要不断的训练来调节参数的,需要耗费时间,而朴素贝叶斯的参数是直接通过统计得来的。预测的时间是直接导入公式计算的来的(只要0.0几毫秒),而有些算法的决策函数是比较复杂的,还有一些集成算法在预测过程也是很耗费时间的
缺点:
简化的假设
因为假设了条件的独立性,但是在实际中是很少有条件完全独立的情况的,这样也就造成这个算法的精度是不够的,精度提升就收到限制。
2.7对样本的适配性质:
大样本更好
2.8关键问题/面试问题:
1.训练/预测阶段做了什么?
训练:生成统计概率值
预测:直接带入公式计算
2.朴素的含义是什么?
特征的条件独立性假设
3.为什么不需要计算分母?
分母是一个常量
3.特征是连续值,还能用吗?
1>分桶离散化 (做特征工程,比如年龄可以分为1-18,19-30,30-50… )
- 可以基于业务来分桶,也可以等距分桶,等频分桶,具体哪个好要通过做实验来确定
- 分桶的好处是对于一些少样本就可以对他进行聚合和粘连
- 分桶的坏处是不在是一个连续的高斯分布。
- 所以选不选择分桶,以及选择何种分桶,还是要通过试来确定。
2>正态分布-高斯分布的概率估计
概率密度函数的输入是连续型的随机变量,输出是对应的概率
4.概率的估计:极大似然估计
频率派与贝叶斯学派(计数 vs 似然公式求极值)
- 概率派是通过概率统计的方式得到概率,但是不符合现在主流的一个思路
- 更加主流或者说更加符合概率论的思想是贝叶斯学派,贝叶斯学派里面有一些参数,这些参数就是我们要求的。
- 举个例子,现在有一些球,我想知道出现红球的概率,我们可以通过一次次的抽取实验来进行极大似然估计得到的。
- 下面描述概率派和贝叶斯派的区别,概率派我们想知道一堆球里红球的概率,我们可以做十次抽取,然后基于出现的频率得到一个结果,不过这个结果是静态的方法。贝叶斯学派站:袋子里有一堆球,我们不知道这些球或者非红色的概率分布,这是我们要求的参数,在这些参数的指导下我去做一个实验再做一个实验的结果是不一样的,假设实验一是抽取了十个球,有三个红球在里面,实验二是抽了十个球,两个红球在里面,实验三是抽了十个球,一个红球在里面,贝叶斯学派的视角:这些实验概率受控于袋子里红球实际概率(本质概率)参数影响下的一些实验现象,然后就提出了一个方法,用极大似然估计求袋子里红球真实概率的公式。
在朴素贝叶斯算法中,两种学派得到的结果是一样的,所以在代码实现上就没必要适用似然函数求极值,还是基于统计来求,但是他的本质还是极大似然估计。
5.概率的拉普拉斯平滑 (给一个很小的概率)
防止0概率的连乘效应
其中ajl,代表第j个特征的第l个选择,Sj代表第j个特征的个数,K代表标签种类的个数。lamda是一个可以调节的参数。
如果从0实现一个朴素贝叶斯的话是需要写的,但是我们调用库的话,这些其实是已经写好的,直接调用就好。
比如还是西瓜的问题,现在我们拿到一个瓜皮是红色的西瓜,这个特征在样本中没有出现过,我们该怎么判断他是一个好瓜或者坏瓜呢?一种是直接让这个数据失效,也是可以的,但是我们不会那样做,我们一般是会通过上面的公式给这个样本一个非常小的概率值,防止0概率的出现,这样就避免了0概率的连乘效应,造成最终的计算结果为0.
6.[变形试题]各种概率计算问题
7.贝叶斯公式的两大核心:
贝叶斯公式的转化,特征的条件独立性假设
2.9企业中的应用案例:
推荐:
基于用户标签的资源推荐
P(资源|标签) = P(标签|资源)* P(资源)/P(标签)
NLP:
文本分类最快最简单的版本
例如:
1>反作弊:广告识别/水军识别
2>拼写检查
3>新闻分类
4>情感分析
三.图解极大似然估计
极大似然估计的原理,用一张图片来说明,如下图所示:
例:有两个外形完全相同的箱子,1号箱有99只白球,1只黑球;2号箱有1只白球,99只黑球。在一次实验中,取出的是黑球,请问是从哪个箱子中取出的?
一般的根据经验想法,会猜测这只黑球最像是从2号箱取出,此时描述的“最像”就有“最大似然”的意思,这种想法常称为“最大似然原理”。
3.1极大似然估计原理
总结起来,最大似然估计的目的就是:利用已知的样本结果,反推最有可能(最大概率)导致这样结果的参数值。比如我们现在抽取了10次,出现了三次红球这样一个样本结果,反推最有可能的实际的红球概率。结合下面提到的似然函数,极大似然估计就是求得一个合适的 θ ⃗ \vec\theta θ来使似然函数(联合概率)最大。
极大似然估计是建立在极大似然原理的基础上的一个统计方法。极大似然估计提供了一种给定观察数据来评估模型参数的方法,即:“模型已定,参数未知”。通过若干次试验,观察其结果,利用试验结果得到某个参数值能够使样本出现的概率为最大,则称为极大似然估计。
由于样本集中的样本都是独立同分布,可以只考虑一类样本集 D D D,来估计参数向量 θ ⃗ \vec\theta θ。记已知的样本集为:
D = x ⃗ 1 , x ⃗ 2 , . . . , x ⃗ n D=\vec x_{1},\vec x_{2},...,\vec x_{n} D=x1,x2,...,xn
似然函数(likelihood function):联合概率密度函数 p ( D ∣ θ ⃗ ) p(D|\vec\theta ) p(D∣θ)称为相对于 x ⃗ 1 , x ⃗ 2 , . . . , x ⃗ n \vec x_{1},\vec x_{2},...,\vec x_{n} x1,x2,...,xn的 θ ⃗ \vec\theta θ的似然函数。
l ( θ ⃗ ) = p ( D ∣ θ ⃗ ) = p ( x ⃗ 1 , x ⃗ 2 , . . . , x ⃗ n ∣ θ ⃗ ) = ∏ i = 1 n p ( x ⃗ i ∣ θ ⃗ ) l(\vec\theta )=p(D|\vec\theta ) =p(\vec x_{1},\vec x_{2},...,\vec x_{n}|\vec\theta )=\prod_{i=1}^{n}p(\vec x_{i}|\vec \theta ) l(θ)=p(D∣θ)=p(x1,x2,...,xn∣θ)=i=1∏np(xi∣θ)
如果 θ ⃗ ^ \hat{\vec\theta} θ^是参数空间中能使似然函数 l ( θ ⃗ ) l(\vec\theta) l(θ)最大的 θ ⃗ \vec\theta θ值,则 θ ⃗ ^ \hat{\vec\theta} θ^应该是“最可能”的参数值,那么 θ ⃗ ^ \hat{\vec\theta} θ^就是 θ \theta θ的极大似然估计量。它是样本集的函数,记作:
θ ⃗ ^ = d ( D ) = arg max θ ⃗ l ( θ ⃗ ) \hat{\vec\theta}=d(D)= \mathop {\arg \max}_{\vec\theta} l(\vec\theta ) θ^=d(D)=argmaxθl(θ)
上面公式可以解释为求得一个合适的 θ ⃗ ^ \hat{\vec\theta} θ^使得 l ( θ ⃗ ) l(\vec\theta ) l(θ)最大,以后我们讲到的算法的损失函数就是用似然函数的变体推导过去的。
θ ⃗ ^ ( x ⃗ 1 , x ⃗ 2 , . . . , x ⃗ n ) \hat{\vec\theta}(\vec x_{1},\vec x_{2},...,\vec x_{n}) θ^(x1,x2,...,xn)称为极大似然函数估计值。
3.2举例理解极大似然
扔硬币。判断一个硬币是不是均匀的硬币
扔10次硬币,出现5次“花”朝上的概率为(抛硬币遵循二项分布)
我们实验的结果是,10次抛硬币,有6次是“花”:
使用0.5估计:
使用0.6估计(意思就是抛一次硬币花朝上的实际概率是0.6):
似然函数公式:
似然函数图像: