统计学习方法——第6章逻辑斯谛回归与最大熵模型（个人笔记） - 代码天地

统计学习方法——第6章逻辑斯谛回归与最大熵模型（个人笔记）

企业开发 2023-12-18 07:15:51 阅读次数: 0

统计学习方法——第6章逻辑斯谛回归与最大熵模型（个人笔记）

参考《统计学习方法》（第二版）李航

逻辑斯谛回归模型与最大熵模型都属于对数线性模型。

6.1 逻辑斯谛回归模型

6.1.1 逻辑斯谛分布

定义6.1 （逻辑斯谛分布）

设X是连续随机变量，X服从逻辑斯谛分布是指X具有下列分布函数和密度函数：

$F(x)=P(X\leq x)=\frac{1}{1+e^{-(x-\mu )/\gamma }}$

$f(x)={F}'(x)=\frac{e^{-(x-\mu)/\gamma }}{\gamma (1+e^{-(x-\mu)/\gamma })^2}$

其中， $\mu$ 为位置参数， $\gamma$ 为形状参数。

6.1.2 二项逻辑斯谛回归模型

定义6.2 （逻辑斯谛回归模型）

二项逻辑斯谛回归模型条件概率分布如下：

$P(Y=1|x)=\frac{\exp(w\cdot x +b)}{1+\exp(w\cdot x +b)}$

$P(Y=0|x)=\frac{1}{1+\exp(w\cdot x +b)}$

其中，Y是输出，w为权重，b为偏置。

6.1.3 模型参数估计

逻辑斯谛回归模型学习时，应用最大似然估计法估计模型参数，从而得到模型估计。

设：

$P(Y=1|x)=\pi(x)$ , $P(Y=0|x)=1-\pi(x)$

似然函数为

$\prod_{i=1}^{N}[\pi(x_i)]^{y_i}[1-\pi(x_i)]^{1-y_i}$

对数似然函数为

$L(w)=\sum_{i=1}^{N}[y_i\log\pi(x_i)+(1-y_i)\log(1-\pi(x_i))]$

$=\sum_{i=1}^{N}[y_i\log\frac{\pi(x_i)}{1-\pi(x_i)}+\log(1-\pi(x_i))]$

$=\sum_{i=1}^{N}[y_i(w\cdot x_i)]-\log(1+\exp(x_i))]$

求导，求L(w)的极大值，得到w的估计值。

6.1.4 多项逻辑斯谛回归

公式如下

$P(Y=k|x)=\frac{\exp(w_k\cdot x )}{1+\sum_{k=1}^{K-1}\exp(w_k\cdot x )}$

$P(Y=K|x)=\frac{1}{1+\sum_{k=1}^{K-1}\exp(w_k\cdot x )}$

6.2 最大熵模型

最大熵模型就是取熵最大的模型

6.2.1 最大熵原理

熵的公式为

$H(P)=-\sum_xP(x)\log P(x)$

原理：在学习概率模型时，在所有可能的概率模型中，熵最大的模型是最好的模型，通常用约束条件来确定概率模型的集合，所有也表述为，在满足约束条件下的模型集合中取熵最大的模型。

6.2.2 最大熵模型的定义

给定训练数据集

$T=\left \{ (x_1,y_1),\cdots,(x_N,y_N) \right \}$

其联合分布P(X,Y)和边缘分布P(X)为

$\hat{P}(X=x,Y=y)=\frac{v(X=x,Y=y)}{N}$

$\hat{P}(X=x)=\frac{v(X=x)}{N}$

其中，v(X=x,Y=y)表示样本(x,y)出现的频数，v(X=x)表示x出现的频数，N为训练样本数。

令特征函数为f(x,y):

$f(x,y)=\left\{\begin{matrix} 1, &x,y \\ 0,&other \end{matrix}\right.$

x,y满足某一事实。

特征函数f关于P(X,Y)的期望值：

$E_{\hat{p}}(f)=\sum_{x,y}\hat{P}(x,y)f(x,y)$

特征函数f关于P(Y|X)与P(X)的期望值：

$E_{p}(f)=\sum_{x,y}\hat{P}(x)P(y|x)f(x,y)$

如果两个期望值相等，则作为模型学习的约束条件。

定义 6.3（最大熵模型）

假设满足所有约束条件的模型集合为

$C={P|E_p(f_i)=E_{\hat{p}}(f_i)$

定义在条件概率分布P(Y|X)上的条件熵为

$H(P)=-\sum_{x,y}\hat{P}(x)P(y|x)\log P(y|x)$

则当H(P)为最大时，称为最大熵模型。

6.2.3 最大熵模型的学习

最大模型的学习等价于最优化问题：

$\max_{P} H(P)=-\sum_{x,y}\hat{P}(x)P(y|x)logP(y|x)$

$s.t. E_p(f_i)=E_{\hat{P}}(f_i)$

$\sum_y P(y|x)=1$

改写为最小值问题

$\min_{P} -H(P)=\sum_{x,y}\hat{P}(x)P(y|x)logP(y|x)$

$s.t. E_p(f_i)-E_{\hat{P}}(f_i)=0$

$\sum_y P(y|x)=1$

首先，引入拉格朗日乘子，定义拉格朗日函数为

$L(P,w)\equiv -H(P)+w_0(1-\sum_y P(y|x))+\sum_{i=1}^{n}w_i(E_{\hat{P}}(f_i)-E_P(f_i))$

$=\sum_{x,y}\hat{P}(x)P(y|x)logP(y|x)+w_0(1-\sum_y P(y|x))+\\\sum_{i=1}^{n}w_i(\sum_{x,y}\hat{P}(x,y)f(x,y)-\sum_{x,y}\hat{P}(x)P(y|x)f(x,y))$

最优化的原始问题是

$\min_P\max_wL(P,w)$

对偶问题是

$\max_w\min_PL(P,w)$

对偶问题跟原始问题是等价的，求解对偶问题

先求，极小化问题 $\min_PL(P,w)$ ，记为

$\psi (w)=\min_PL(P,w)=L(P_w,w)$

再求极大化问题 $\max_wL(P,w)$ ，记为

$\psi (w)=\max_wL(P,w)=L(P_w,w)$

极小化对 $P(y|x)$ 求导，极大化对 $w$ 求导。

例子

6.2.4 极大似然估计

对偶函数极大化等价于最大熵模型的极大似然估计。

6.3 模型学习的最优化算法

改进的迭代尺度法，梯度下降法，牛顿法，或拟牛顿法。

这里不做详细介绍。

猜你喜欢

转载自blog.csdn.net/pk296256948/article/details/124188172

统计学习方法——第6章逻辑斯谛回归与最大熵模型（个人笔记）

统计学习方法笔记（十）逻辑斯谛回归与最大熵模型

统计学习方法笔记-逻辑斯谛回归与最大熵模型

统计学习方法【6】-逻辑斯谛回归与最大熵模型

《统计学习方法》——第6章逻辑斯蒂回归与最大熵模型

李航《统计学习方法》第2版第6章 Python编程逻辑斯谛回归与最大熵模型实现mnist数据集分类

统计学习方法　李航　逻辑斯谛回归与最大熵模型

统计学习方法 --- 逻辑斯谛回归与最大熵模型

【统计学习方法-李航-笔记总结】六、逻辑斯谛回归和最大熵模型

《统计学习方法》第六章逻辑斯谛回归与最大熵模型

李航·统计学习方法笔记·第6章 logistic regression与最大熵模型（1）·逻辑斯蒂回归模型

《统计学习方法（李航）》逻辑斯蒂回归与最大熵模型学习笔记

《统计学习方法》—— 6. 逻辑斯特回归与最大熵模型（Python实现）

《统计学习方法》笔记（五）逻辑斯蒂回归与最大熵模型

《统计学习方法》第六章: 逻辑斯蒂回归与最大熵模型读书笔记

统计学习方法第6章逻辑斯蒂回归

李航·统计学习方法笔记·第6章 logistic regression与最大熵模型（2）·最大熵模型

机器学习原理及公式推导（六）逻辑斯谛回归与最大熵模型

统计学习方法：逻辑斯蒂回归与最大熵模型 (六)

统计学习方法——逻辑斯蒂回归与最大熵模型

《统计学习方法》——逻辑斯蒂回归和最大熵模型

统计学习方法读书笔记（六）-逻辑斯蒂回归与最大熵模型（迭代尺度法（IIS））

统计学习方法——第1章（个人笔记）

李航《统计学习方法》——第六章逻辑斯谛回归模型

李航《统计学习方法》第2版第6章编程实现逻辑斯谛回归（梯度下降算法）调用sklearn模块实现逻辑斯谛回归（梯度下降算法，牛顿、拟牛顿算法）

统计学习方法（第1章）学习笔记

机器学习入门之《统计学习方法》笔记整理——逻辑斯谛回归

第6章逻辑斯蒂回归与最大熵模型

统计学习方法——第4章朴素贝叶斯法（个人笔记）

李航《统计学习方法》第2版第6章中如何理解最大熵模型中的特征函数？

今日推荐

周排行

Access的四舍五入取整

8.23 前端学习过程

入门学习过程方向与漏洞复现总结：

操作分布式文件之八：如何批量并行读写远程文件和事务补偿处理

应邀出个教程（搭建tensorflow跑网络环境）

Kubernetes之Pod控制器应用进阶

14-[mysql内置功能]--

HDU6212 区间dp 好题

VS2015生成代码图

验证手机号的工具类

每日归档

更多

2024-10-21(0)

2024-10-20(0)

2024-10-19(0)

2024-10-18(0)

2024-10-17(0)

2024-10-16(0)

2024-10-15(0)

2024-10-14(0)

2024-10-13(0)

2024-10-12(0)