机器学习常用算法：最大熵模型

最大熵原理

学习概率模型时，在所有可能的概率模型中，熵最大的模型是最好的模型。
假设离散随机变量 $X$ 的概率分布是 $P(X)$ ，则其熵为

H (P) = - \sum_{x} P (x) log P (x)

$H(P) = - \sum_x P(x) \text{log} P(x)$

且满足如下不等式：

0 \leq H (P) \leq log | X |

$0 \le H(P) \le \text{log} |X|$

式中， $|X|$ 是 $X$ 的取值个数，当且仅当 $X$ 的分布是均匀分布时，右边等号成立，即当 $X$ 服从均匀分布时，熵最大。

最大熵原理可简述为按照满足约束条件下求等概率的方法估计概率分布。

最大熵模型

1.最大熵模型是由以下条件概率分布表示的分类模型，可用于二类或多分类问题。

P_{w} (y | x) = \frac{1}{Z_{w} (x)} exp (\sum_{i = 1}^{n} w_{i} f_{i} (x, y))

$P_w(y|x) = {1 \over Z_w(x)} \text{exp} (\sum_{i=1}^n w_if_i(x,y))$

Z_{w} (x) = \sum_{y} exp (\sum_{i = 1}^{n} w_{i} f_{i} (x, y))

$Z_w(x) = \sum_y \text{exp} (\sum_{i=1}^n w_if_i(x,y))$
其中，

Z_{w} (x)

$Z_w(x)$ 是规范化因子；

w_{i}

$w_i$ 是特征权值；

f_{i} (x, y)

$f_i(x,y)$ 是特征函数，描述输入

x

$x$ 和输出

y

$y$ 之间的某一个事实，其定义为

f (x, y) = {\begin{cases} 1, & x 与 y 满足某一事实 \\ 0, & 否则 \end{cases}

$f(x,y) = \begin{cases} 1, & \text{$x$ 与 $y$ 满足某一事实} \\ 0, & \text{否则} \end{cases}$

这是一个二值函数。

2.对于给定的训练集 $T = \{ (x_1,y_1),(x_2,y_2),...,(x_N,y_N)\}$ 和特征函数 $f_i(x,y), i = 1,2,...,n$ ，应用最大熵原理于分类模型中，得到以下约束最优化问题：

min - H (P) = \sum_{x, y} \tilde{P} (x) P (y | x) log P (y | x)

$\text{min} -H(P) = \sum_{x,y} \tilde{P}(x)P(y |x) \text{log} P(y|x)$

s . t . E_{P} (f_{i}) - E_{\tilde{P}} (f_{i}) = 0, i = 1, 2, . . ., n

$s.t. E_P(f_i) - E_{\tilde{P}}(f_i) = 0, i=1,2,...,n$

\sum_{y} P (y | x) = 1

$\sum_{y} P(y |x) = 1$

求解此最优化问题的无约束最优化对偶问题可得到最大熵模型，即最大熵模型的学习可归结为对偶函数 $\Psi(w)$ 的极大化。

对偶函数 $\Psi(w)$ 为

Ψ (w) = min_{P \in C} L (P, w) = L (P_{w}, w)

$\Psi(w) = \min_{P \in C } L(P, w) = L(P_w, w)$
其中，

L (P, w)

$L(P, w)$ 为引入拉格朗日乘子

w

$w$ 后的拉格朗日函数

\begin{aligned} L (P, w) & = - H (P) + w_{0} (1 - \sum_{y} P (y | x)) + \sum_{i = 1}^{n} w_{i} (E_{\tilde{P}} (f_{i}) - E_{P} (f_{i})) \\ = \sum_{x, y} \tilde{P} (x) P (y | x) log P (y | x) + w_{0} (1 - \sum_{y} P (y | x)) \\ + \sum_{i = 1}^{n} w_{i} (\sum_{x, y} \tilde{P} (x, y) f_{i} (x, y) - \sum_{x, y} \tilde{P} (x) P (y | x) f_{i} (x, y)) \end{aligned}

$\begin{split} L(P,w) & = -H(P) +w_0(1- \sum_y P(y|x)) + \sum_{i=1}^n w_i(E_{\tilde P}(f_i)-E_P(f_i)) \\ & = \sum_{x,y} \tilde{P}(x)P(y |x) \text{log} P(y|x) +w_0(1-\sum_y P(y|x)) \\ & + \sum_{i=1}^n w_i( \sum_{x,y} \tilde{P}(x,y)f_i(x,y) - \sum_{x,y} \tilde{P}(x)P(y|x)f_i(x,y)) \\ \end{split}$

3.对偶函数的极大化等价于最大熵模型的极大似然估计。
(1).已知训练数据的经验概率分布 $\tilde{P}(X,Y)$ ，条件概率分布 $P(Y|X)$ 的对数似然函数为

\begin{aligned} L_{\tilde{P}} (P_{w}) & = log \prod_{x, y} P (y | x)^{\tilde{P} (x, y)} = \sum_{x, y} \tilde{P} (x, y) log P (y | x) \\ = \sum_{x, y} \tilde{P} (x, y) \sum_{i = 1}^{n} w_{i} f_{i} (x, y) - \sum_{x, y} \tilde{P} (x, y) log Z_{w} (x) \\ = \sum_{x, y} \tilde{P} (x, y) \sum_{i = 1}^{n} w_{i} f_{i} (x, y) - \sum_{x} \tilde{P} (x) log Z_{w} (x) \end{aligned}

$\begin{split} L_{\tilde{P}}(P_w) &= \text{log} \prod_{x,y}P(y|x)^{\tilde{P}(x,y)} = \sum_{x,y} \tilde{P}(x,y) \text{log} P(y|x) \\ & = \sum_{x,y} \tilde{P}(x,y) \sum_{i=1}^n w_i f_i(x,y) - \sum_{x,y} \tilde{P}(x,y) \text{log}Z_w(x) \\ & = \sum_{x,y} \tilde{P}(x,y) \sum_{i=1}^n w_i f_i(x,y) - \sum_{x} \tilde{P}(x) \text{log}Z_w(x) \\ \end{split}$

最后一步用到 $\sum_{y} \tilde{P}(y) = 1$ .
(2).对偶函数 $\Psi(w)$

\begin{aligned} Ψ (w) & = L (P_{w}, w) \\ = \sum_{x, y} \tilde{P} (x) P_{w} (y | x) log P_{w} (y | x) + \sum_{i = 1}^{n} w_{i} (\sum_{x, y} \tilde{P} (x, y) f_{i} (x, y) - \sum_{x, y} \tilde{P} (x) P_{w} (y | x) f_{i} (x, y)) \\ = \sum_{x, y} \tilde{P} (x, y) \sum_{i = 1}^{n} w_{i} f_{i} (x, y) + \sum_{x, y} \tilde{P} (x) P_{w} (y | x) (log P_{w} (y | x) - \sum_{i = 1}^{n} w_{i} f_{i} (x, y)) \\ = \sum_{x, y} \tilde{P} (x, y) \sum_{i = 1}^{n} w_{i} f_{i} (x, y) - \sum_{x, y} \tilde{P} (x) P_{w} (y | x) log Z_{w} (x) \\ = \sum_{x, y} \tilde{P} (x, y) \sum_{i = 1}^{n} w_{i} f_{i} (x, y) - \sum_{x} \tilde{P} (x) log Z_{w} (x) \end{aligned}

$\begin{split} \Psi(w) &= L(P_w, w) \\ & = \sum_{x,y} \tilde{P}(x)P_w(y |x) \text{log} P_w(y|x) + \sum_{i=1}^n w_i( \sum_{x,y} \tilde{P}(x,y)f_i(x,y) - \sum_{x,y} \tilde{P}(x)P_w(y|x)f_i(x,y)) \\ & = \sum_{x,y} \tilde{P}(x,y) \sum_{i=1}^n w_i f_i(x,y) + \sum_{x,y} \tilde{P}(x)P_w(y|x)(\text{log} P_w(y|x) - \sum_{i=1}^n w_i f_i(x,y) ) \\ & = \sum_{x,y} \tilde{P}(x,y) \sum_{i=1}^n w_i f_i(x,y) - \sum_{x,y} \tilde{P}(x)P_w(y|x) \text{log} Z_w(x) \\ & = \sum_{x,y} \tilde{P}(x,y) \sum_{i=1}^n w_i f_i(x,y) - \sum_{x} \tilde{P}(x) \text{log} Z_w(x) \\ \end{split}$

最后一步用到 $\sum_{y} P(y|x) = 1$ .

(3).比较可得，

Ψ (w) = L_{\tilde{P}} (P_{w})

$\Psi(w) = L_{\tilde{P}}(P_w)$

即最大熵模型的学习问题可转换为求解对数似然函数极大化或对偶函数极大化的问题。

结论

优点：
1、准确率较高。
2、可以灵活地设置约束条件，从而调节模型对未知数据的适应度和对已知数据的拟合程度
缺点：
1.由于约束函数数量和样本数目有关系，导致迭代过程计算量巨大，实际应用较难。

参考资料

统计学习方法，李航著，清华大学出版社
最大熵模型原理小结