统计学习方法——第6章 逻辑斯谛回归与最大熵模型(个人笔记)
参考《统计学习方法》(第二版)李航
逻辑斯谛回归模型与最大熵模型都属于对数线性模型。
6.1 逻辑斯谛回归模型
6.1.1 逻辑斯谛分布
定义6.1 (逻辑斯谛分布)
设X是连续随机变量,X服从逻辑斯谛分布是指X具有下列分布函数和密度函数:
其中,为位置参数,为形状参数。
6.1.2 二项逻辑斯谛回归模型
定义6.2 (逻辑斯谛回归模型)
二项逻辑斯谛回归模型条件概率分布如下:
其中,Y是输出,w为权重,b为偏置。
6.1.3 模型参数估计
逻辑斯谛回归模型学习时,应用最大似然估计法估计模型参数,从而得到模型估计。
设:
,
似然函数为
对数似然函数为
求导,求L(w)的极大值,得到w的估计值。
6.1.4 多项逻辑斯谛回归
公式如下
6.2 最大熵模型
最大熵模型就是取熵最大的模型
6.2.1 最大熵原理
熵的公式为
原理:在学习概率模型时,在所有可能的概率模型中,熵最大的模型是最好的模型,通常用约束条件来确定概率模型的集合,所有也表述为,在满足约束条件下的模型集合中取熵最大的模型。
6.2.2 最大熵模型的定义
给定训练数据集
其联合分布P(X,Y)和边缘分布P(X)为
其中,v(X=x,Y=y)表示样本(x,y)出现的频数,v(X=x)表示x出现的频数,N为训练样本数。
令特征函数为f(x,y):
x,y满足某一事实。
特征函数f关于P(X,Y)的期望值:
特征函数f关于P(Y|X)与P(X)的期望值:
如果两个期望值相等,则作为模型学习的约束条件。
定义 6.3(最大熵模型)
假设满足所有约束条件的模型集合为
定义在条件概率分布P(Y|X)上的条件熵为
则当H(P)为最大时,称为最大熵模型。
6.2.3 最大熵模型的学习
最大模型的学习等价于最优化问题:
改写为最小值问题
首先,引入拉格朗日乘子,定义拉格朗日函数为
最优化的原始问题是
对偶问题是
对偶问题跟原始问题是等价的,求解对偶问题
先求,极小化问题,记为
再求极大化问题,记为
极小化对求导,极大化对求导。
例子
6.2.4 极大似然估计
对偶函数极大化等价于最大熵模型的极大似然估计。
6.3 模型学习的最优化算法
改进的迭代尺度法,梯度下降法,牛顿法,或拟牛顿法。
这里不做详细介绍。