第6章 逻辑斯谛回归与最大熵模型
6.1 逻辑斯谛回归模型
- 逻辑斯谛分布:
- 二项逻辑斯谛回归模型:一种分类模型,P(Y|X)表示;
- 模型参数估计:问题转变为以对数似然函数为目标函数的最优化问题,梯度下降法及拟牛顿法;
- 多项逻辑斯谛回归:
6.2 最大熵模型
- 最大熵原理:学习概率模型时,在所有可能的概率模型分布中,熵最大的模型是最好的模型;也可以表述为在满足约束条件的模型集合中选取熵最大的模型;此原理认为要满足约束条件,在没有更多信息的情况下,那些不确定的部分是“等可能的”,通过熵的最大化来表示等可能性,熵是一个可优化的数值目标;
- 几何解释:用最大熵原理进行概率模型选择,如下图所示;
- 特征函数:
- 最大熵模型的学习:即求解最大熵模型的过程,可形式化为约束最优化问题;最终归结为对偶函数的极大化(详见PDF101)
- 对偶函数的极大化:等价于最大熵模型的极大似然估计(详见PDF103);
- 模型学习:指在给定的训练数据条件下对模型进行极大似然估计或正则化的极大似然估计;
6.3 模型学习的最优化算法
详见PDF104;