逻辑斯谛回归与最大熵模型

主要用于统计学习中的经典分类方法

逻辑斯谛回归模型

1、定义：设X是连续随机变量，其具有的分布函数和密度函数：
$F(x) = P(X \le x) = \frac{1}{{1 + {e^{ - (x - \mu )/\gamma }}}}$
$f(x) = F'(x) = \frac{{{e^{ - (x - \mu )/\gamma }}}}{{\gamma {{(1 + {e^{ - (x - \mu )/\gamma }})}^2}}}$
其中， $\mu$ 为位置参数， $\gamma>0$ 为形状参数
其曲线以点 $(\mu ,\frac{1}{2})$ 为中心对称
这里写图片描述
如图所示，曲线在中心增长较快，在两端增长速度较慢。
2、二项逻辑斯谛回归模型
定义：如下的条件概率分布：
$P(Y = 1|x) = \frac{{\exp (w \cdot x + b)}}{{1 + \exp (w \cdot x + b)}}$
$P(Y = 0|x) = \frac{1}{{1 + \exp (w \cdot x + b)}}$
有时为了方便，将权值向量与输入向量加以扩充，模型变为：
$P(Y = 1|x) = \frac{{\exp (w \cdot x)}}{{1 + \exp (w \cdot x)}}$
$P(Y = 0|x) = \frac{1}{{1 + \exp (w \cdot x)}}$
几率的定义：发生的概率与不发生的概率的比值。
对逻辑斯谛回归而言，其对数几率为：
$\log \frac{{P(Y = 1|x)}}{{1 - P(Y = 1|x)}} = w \cdot x$
这意味着，输出Y=1的对数几率是输入x的线性模型。
换一个角度思考，针对对输入x进行分类的线性函数 $w \cdot x$ ,显然，可以利用逻辑斯谛模型将其转换为概率，即
$P(Y = 1|x) = \frac{{\exp (w \cdot x)}}{{1 + \exp (w \cdot x)}}$
很明显，当x趋向于正无穷是，其概率值接近一，趋向于负无穷时，其概率值接近零。
3、模型参数估计
显然，如果已知参数w，我们可以根据逻辑斯谛回归模型，来计算条件概率分布，根据条件概率的分布的大小来决定分类，故关键在于未知参数w的估计。采用极大似然估计的方法来推导。
做如下假设： $P(Y = 1|x) = \pi (x)$ $P(Y = 0|x) = 1 - \pi (x)$
其极大似然函数为：
$\prod\limits_{i = 1}^N {{{[\pi ({x_i})]}^{{y_i}}}{{[1 - \pi ({x_i})]}^{1 - {y_i}}}}$
其对数似然函数为：
$\begin{array}{c} L(w) = \sum\limits_{i = 1}^N {[{y_i}\log \pi ({x_i}) + (1 - {y_i})\log (1 - \pi ({x_i}))]} \ = \sum\limits_{i = 1}^N {[{y_i}\log \frac{{\pi ({x_i})}}{{1 - \pi ({x_i})}} + \log (1 - \pi ({x_i}))]} \ = \sum\limits_{i = 1}^N {[{y_i}(w \cdot {x_i}) - \log (1 + \exp (w \cdot {x_i}))]} \end{array}$
对上式求极大值解w即可。如果将w的估计值记为 $\widehat w$ 则逻辑斯谛模型为
$\begin{array}{l} P(Y = 1|x) = \frac{{\exp (\widehat w \cdot x)}}{{1 + \exp (\widehat w \cdot x)}}\ P(Y = 0|x) = \frac{1}{{1 + \exp (\widehat w \cdot x)}} \end{array}$
4、推广到多项分类
其多项逻辑斯谛回归模型为：
$P(Y = k|x) = \frac{{\exp ({w_k} \cdot x)}}{{1 + \sum\limits_{k = 1}^{K - 1} {\exp ({w_k} \cdot x)} }},k = 1,2, \cdots ,K - 1$
$P(Y = K|x) = \frac{1}{{1 + \sum\limits_{k = 1}^{K - 1} {\exp ({w_k} \cdot x)} }}$
其中Y的取值集合为1到K

最大熵模型

1、最大熵的原理：
最大熵原理认为，在所有可能的概率模型中，熵最大的模型是最好的模型，故而，最大熵原理也可以表述为在满足约束条件下选取熵最大的模型。
熵的定义： $H(P) = - \sum\limits_x {P(x)\log P(x)}$
其满足不等式： $0 \le H(P) \le \log |X|$
当且仅当X的分布时均匀分布时右边的等号才成立，即当X满足均匀分布时熵最大。
结合上面的不等式，当给定约束条件下，熵最大也就代表了未知信息的等可能性。
2、最大熵模型定义：
假设分类模型是一个条件概率分布 $P(Y|X)$
确定联合概率分布以及边缘分布：
$\widetilde P(X = x,Y = y) = \frac{{v(X = x,Y = y)}}{N}$
$\widetilde P(X = x) = \frac{{v(X = x)}}{N}$
其中， $v$ 代表样本出现的频数，N代表样本容量。
定义一个特征函数来判断是否满足分类，定义如下
当x与y满足某一事实时， $f(x,y)$ 等于1，否则等于0。
其期望为：
${E_{\widetilde P}}(f) = \sum\limits_{x,y} {\widetilde P(x,y)f(x,y)}$
特征函数关于模型 $P(Y|X)$ 与经验分布 $\widetilde P(X)$ 的期望为：
${E_P}(f) = \sum\limits_{x,y} {\widetilde P(x)P(y|x)f(x,y)}$
如果模型能够获取训练数据中的信息，可以假设这两个期望相等，即有：
$\sum\limits_{x,y} {\widetilde P(x)P(y|x)f(x,y)} = \sum\limits_{x,y} {\widetilde P(x,y)f(x,y)}$
将其作为约束条件，另外，有几个特征函数就有几个约束条件。
3、最大熵模型
假设所有满足约束条件的模型集合为：
${\cal C} \equiv \{ P \in {\cal P}|{E_{{P_i}}}(f) = {E_{\widetilde {{P_i}}}}(f),i = 1,2, \cdots ,n\}$
则定义在条件概率分布上的条件熵为：
$H(P) = - \sum\limits_{x,y} {\widetilde P(x)P(y|x)\log P(y|x)}$
至此，最大熵模型定义完毕
4、最大熵的学习
最大熵的学习就是约束最优的问题，我们要求条件熵的最大值，按照最优化问题的习惯，将其转化为等价的最小值问题：
$\mathop {\min }\limits_{P \in C} - H(P) = \sum\limits_{x,y} {\widetilde P(x)P(y|x)\log P(y|x)}$
$s.t.\;\;\;{E_{{P_i}}}(f) - {E_{\widetilde {{P_i}}}}(f){\rm{ = }}0\;\;i = 1,2, \cdots ,n$
$\sum\limits_y {P(y|x)} = 1$
对约束最优化问题的求解这里不多做叙述，可以参考《统计学习方法》第84页的求解过程。
5、最大熵模型的对偶函数极大化等价于最大熵模型的极大似然估计。

模型学习的最优化算法

最大熵模型学习最终可以归结为以似然函数为目标函数的最优问题，这时的目标函数是光滑的凸函数，有多种最优化的方法适用，常用的有改进的迭代尺度法、梯度下降法、牛顿法以及拟牛顿法。
1、改进的迭代尺度法
已知最大熵模型
${P_w}(y|x) = \frac{1}{{{Z_w}(x)}}\exp (\sum\limits_{i = 1}^n {{w_i}{f_i}(x,y)} )$
其中， ${Z_w}(x) = \sum\limits_y {\exp ({w_i}{f_i}(x,y))}$
对数似然函数为：
$L(w) = \sum\limits_{x,y} {\widetilde P(x,y)} \sum\limits_{i = 1}^n {{w_i}{f_i}(x,y)} - \sum\limits_x {\widetilde P(x)\log } {Z_w}(x)$
目标是求对数似然函数的极大值 $\widehat w$
此种算法的思想是给定一个参数w，假设其有一个增量 $\delta$ ，更新后其似然函数值增大，随着参数w不断增大，直至找到对数似然函数的最大值。
参数从w到 $w +\delta$ ，对数似然函数的改变量是：

\begin{matrix} L (w + δ) - L (w) = \sum_{x, y} \tilde{P} (x, y) \log P_{w + δ} (y | x) - \sum_{x, y} \tilde{P} (x, y) \log P_{w} (y | x) \\ = \sum_{x, y} \tilde{P} (x, y) \sum_{i = 1}^{n} δ_{i} f_{i} (x, y) - \sum_{x} \tilde{P} (x) \log \frac{Z_{w + δ} (x)}{Z_{w} (x)} \end{matrix}

$\begin{array}{c} L(w + \delta ) - L(w) = \sum\limits_{x,y} {\widetilde P(x,y)} \log {P_{w + \delta }}(y|x) - \sum\limits_{x,y} {\widetilde P(x,y)} \log {P_w}(y|x)\\ = \sum\limits_{x,y} {\widetilde P(x,y)} \sum\limits_{i = 1}^n {{\delta _i}{f_i}(x,y)} - \sum\limits_x {\widetilde P(x)\log \frac{{{Z_{w + \delta }}(x)}}{{{Z_w}(x)}}} \end{array}$
利用不等式

- \log α \geq 1 - α

$- \log \alpha \ge 1 - \alpha$ ，可以得到

L (w + δ) - L (w) \geq \sum_{x, y} \tilde{P} (x, y) \sum_{i = 1}^{n} δ_{i} f_{i} (x, y) + 1 - \sum_{x} \tilde{P} (x) \sum_{y} P_{w} (y | x) \exp \sum_{i = 1}^{n} δ_{i} f_{i} (x, y)

$L(w + \delta ) - L(w) \ge \sum\limits_{x,y} {\widetilde P(x,y)\sum\limits_{i = 1}^n {{\delta _i}{f_i}(x,y)} + 1 - \sum\limits_x {\widetilde P(x)\sum\limits_y {{P_w}(y|x)\exp \sum\limits_{i = 1}^n {{\delta _i}{f_i}(x,y)} } } }$
将右端记为

A (δ | w)

$A(\delta |w)$ ，则有：

L (w + δ) - L (w) \geq A (δ | w)

$L(w + \delta ) - L(w) \ge A(\delta |w)$
如果能找到适合的

δ

$\delta$ 使得

A (δ | w)

$A(\delta |w)$ 能不断的提高，也就实现了我们的目的，然而

δ

$\delta$ 是一个向量，含有多个变量，不易同时优化，故每次只优化一个变量而固定其他变量。引入如下函数：

f^{#} (x, y) = \sum_{i} f_{i} (x, y)

${f^\# }(x,y) = \sum\limits_i {{f_i}(x,y)}$
其中

f_{i}

${{f_i}}$ 是二值函数，代表特征。经过推导，有：

\sum_{x, y} \tilde{P} (x) P_{w} (y | x) f_{i} (x, y) \exp (δ_{i} f^{#} (x, y)) = E_{\tilde{P}} (f_{i})

$\sum\limits_{x,y} {\widetilde P(x){P_w}(y|x){f_i}(x,y)\exp ({\delta _i}{f^\# }(x,y))} = {E_{\widetilde P}}({f_i})$
详细推导过程见第90页。

统计学习方法笔记（十）逻辑斯谛回归与最大熵模型

逻辑斯谛回归与最大熵模型

逻辑斯谛回归模型

最大熵模型

模型学习的最优化算法

猜你喜欢