最大熵
I(pi)=−log(pi)
H(X)=−i=1∑np(xi)log(p(xi))=−x∑p(x)log(p(x))
H(X,Y)=−x,y∑p(x,y)logp(x,y)
H(Y∣X)=−x,y∑p(x,y)logp(y∣x)
H(p,q)=x∑p(x)logq(x)
DKL(p∣∣q)=H(p,q)−H(p)
相对熵=某个策略的交叉熵-信息熵
I(X;Y)=H(X)−H(X∣Y)=H(Y)−H(Y∣X)
I(X;Y)=x,y∑p(x,y)logp(x)p(y)p(x,y)
- 模型输入
从人工标注的训练数据中抽取的训练样本集
T={(x1,y1),⋯,(xn,yn)},其中
(xi,yi)表示语料库中出现
yi时其上下文信息为
xi
- 经验分布:
所谓经验概率分布是指通过在训练数据集T上进行统计得到的分布用
p~表示
p~(x,y)=Ncount(x,y),其中
count(x,y)是
(x,y)在语料中出现的次数,N为总词数
- 数学推导
特征
f是指x与y之间存在某种特定关系,用二值函数表示
fi(x,y){1 ,如果x,y满足某种条件0 ,否则
特征函数关于经验分布
P~(X,Y)的期望
Ep~(f)=∑x,yp~(x,y)f(x,y)
特征函数关于模型
P(Y∣X)与经验分布
P~(X)的期望值
Ep(f)=∑x,yP~(x)P(y∣x)f(x,y)
定义最大熵模型
选择一个最好的分类模型,对于任意给定的输入
x∈X,可以以概率
p(y∣x)输出
y∈Y
假设满足所有约束条件的模型集合为:
C={P∈D∣Ep(fi)=EP~(fi)}
定义在谈条件概率分布
P(Y∣X)上的条件熵为:
H(P)=−x,y∑P~(x)P(y∣x)logP(y∣x)
- 最大熵模型的学习
熵模型的学习等价约束条件
p∈CmaxH(P)=−x,y∑P~(x)P(y∣x)logP(y∣x)
约束条件为:
EP(fi)=EP~(fi),i=1,2,⋯,n
y∑P(y∣x)=1
引入拉格朗日乘子
L(P,w)=−H(P)+w0[1−y∑P(y∣x)]+i=1∑nwi(EP~(fi)−EP(fi))
=x,y∑P~(x)P(y∣x)logP(y∣x)+w0[1−y∑P(y∣x)]
+i=1∑nwi[x,y∑P~(x,y)fi(x,y)−x,y∑P~(x)P(y∣x)fi(x,y)]
最优化问题
p∈CminwmaxL(P,w)
对偶问题为
wmaxP∈CminL(P,w)
先求极小值得到
Pw(y∣x)=Zw(x)1exp(i=1∑nwifi(x,y))
Zw(x)=y∑exp[i=1∑nwifi(x,y)]
求极大值
表现为求以下方法的极大值
ψ(w)=x,y∑P~(x,y)i=1∑nwifi(x,y)+x∑P~(x)logZw(x)
极大化似然估计法求解
待求解的概率模型
P(Y∣X)的似然函数为
LP~(Pw)=logx,y∏P(y∣x)P~(x,y)=x,y∑P~(x,y)logP(y∣x)
将
Pw(y∣x)代入可以得到
LP~(Pw)=x,y∑logP(y∣x)
=x,y∑P~(x,y)i=1∑nwifi(x,y)−x∑P~(x)logZw(x)
EM算法
- 目的
主要用来进行参数的估计
- EM路线图
K-means ->高斯混合模型->EM方法
最大似然方式(ML)->下边界(Q函数)->EM算法
- 两种特殊变量
可观测变量
Y={y1,y2,y3,⋯,yn}
不可观测变量
Z={z1,z2,z3,⋯,zn}
- 最大似然
P(x1,x2,x3,⋯,xn)=j=1∏Np(yj)
则最大似然函数
L(θ)=j=1∏Np(yj)
- 含隐式变量的最大似然
L(θ)=j=1∏Npθ(yi)=j=1∏Nz∑pθ(yj∣z)pθ(z)
- 解释
在对数中有加和项时难以求得解析解,则我们会求一个近似最优解
- 求解
ln(L(θ))=j=1∑Nln[z∑pθ(yj∣z)pθ(z)]
=j=1∑Nln[z∑Q(z)pθ(yj∣z)pθ(z)Q(z)]
≥j=1∑Nz∑Q(z)lnQ(z)pθ(yj∣z)pθ(z)
约束条件为:
z∑Q(z)=1
即可理解为:
ln(L(θ))≥j=1∑Nz∑Q(z)lnQ(z)pθ(yj∣z)pθ(z)=LowBound(θ)
假设当前参数
θ(t),在下界上求出最大似然函数的参数为
θ(t+1)则有:
ln(L(θ(t+1)))≥LowBound(θ(t+1))≥LowBound(θ(t))
此时下边界函数有很多取法,但为了最终使等号成立则必须有以下条件:
Q(z)pθ(yj∣z)pθ(z)=c即左式为与z无关的常数
又因为约束条件,所以有:
c=z∑pθ(yj∣z)pθ(z)
Q(z)=pθ(yj)pθ(yj,z)=pθ(z∣yj)
设定:
Q(Z)=Q(Z,θ)则设定
因此定义每次的计算方式为:
a、先根据上一次的
θn计算
Q(Z)
b、根据上式的
Q(Z),求出含有
θ的似然函数的下界并最大化,得到新的参数
θ并以此不断迭代
GMM
- 理念
使用线性高斯模型构建混合模型
使用EM算法优化混合模型
- 模型定义
max[i=1∑Nj=1∑KπjN(xi;μj,δj)]
备注:
K表示混合高斯模型中组件的个数
πj代表
xi由第
j个组件产生的概率
N(xi;μj,δj)代表
xi由第
j个组件产生的情况下生成的概率
- 理解
在以上理解的基础上可以使用EM算法优化模型