最大熵模型 - 最大熵模型的学习

对于给定的训练数据集 $T=\{(x_{1},y_{1}),(x_{2},y_{2}),\cdot\cdot\cdot,(x_{N},y_{N})\}$ 以及特征函数 ${f_{i}(x,y)}$ ，最大熵模型的学习等价于约束最优化问题：

\begin{aligned} max_{p \in C} H (p) & = - \sum_{x, y} \tilde{p} (x) p (y | x) l o g p (y | x) \\ s . t . E_{p} (f_{i}) & = E_{\tilde{p}} (f_{i}) \\ \sum_{y} p (y | x) & = 1 \end{aligned}

$\begin{align*} \max_{p \in C} \quad H(p)\quad\quad&=-\sum_{x,y}\widetilde{p}(x)p(y|x)logp(y|x) \\ s.t. \quad E_{p}(f_{i})\quad\quad&=E_{\widetilde{p}}(f_{i}) \\ \sum_{y}p(y|x)&=1 \end{align*}$
将求最大值改为等价求最小值问题：

\begin{aligned} min_{p \in C} - H (p) & = s u m_{x, y} \tilde{p} (x) p (y | x) l o g p (y | x) \\ s . t . E_{p} (f_{i}) & = E_{\tilde{p}} (f_{i}) \\ \sum_{y} p (y | x) & = 1 \end{aligned}

$\begin{align*} \min_{p \in C} \quad -H(p)\quad\quad&=sum_{x,y}\widetilde{p}(x)p(y|x)logp(y|x) \\ s.t. \quad E_{p}(f_{i})\quad\quad&=E_{\widetilde{p}}(f_{i}) \\ \sum_{y}p(y|x)&=1 \end{align*}$
引进拉格朗日乘子

w_{0}, w_{1}, \cdot \cdot \cdot, w_{N}

$w_0,w_1,\cdot\cdot\cdot,w_N$ ，定义拉格朗日函数：

\begin{aligned} L (P, w) & = - H (p) + w_{0} (1 - \sum_{y} p (y | x)) + \sum_{i = 1}^{n} w_{i} (E_{\tilde{p}} (f_{i}) - E_{p} (f_{i})) \\ = \sum_{x, y} \tilde{p} (x) p (y | x) l o g p (y | x) + w_{0} (1 - \sum_{y} p (y | x)) + \sum_{i = 1}^{n} w_{i} (\sum_{x, y} \tilde{p} (x, y) f_{i} (x, y) - \sum_{x, y} \tilde{p} (x) p (y | x) f_{i} (x, y)) \end{aligned}

$\begin{align*} L(P,w) &= -H(p) + w_0(1-\sum_{y}p(y|x)) + \sum_{i=1}^{n}w_i(E_{\widetilde{p}}(f_{i})-E_{p}(f_{i})) \\ &= \sum_{x,y}\widetilde{p}(x)p(y|x)logp(y|x) + w_0(1-\sum_{y}p(y|x)) + \sum_{i=1}^{n}w_i(\sum_{x,y}\widetilde{p}(x,y)f_i(x,y)-\sum_{x,y}\widetilde{p}(x)p(y|x)f_i(x,y)) \end{align*}$
最优化问题的原始问题是：

min_{P \in C} max_{w} L (P, w)

$\min_{P \in C}\max_{w}L(P,w)$
对偶问题为：

max_{w} min_{P \in C} L (P, w)

$\max_{w}\min_{P \in C}L(P,w)$
因为拉格朗日函数

L (P, w)

$L(P,w)$ 是

P

$P$ 的凸函数，原始问题与对偶问题的解是等价的。
首先计算内部计算极小值，拉个朗日函数

L (P, w)

$L(P,w)$ 对

P (Y | X)

$P(Y|X)$ 的偏倒数：

\begin{aligned} \frac{\partial L (P, w)}{\partial P} & = \sum_{x, y} \tilde{p} (x) (1 + l o g p (y | x)) - w_{0} - \sum_{i = 1}^{n} w_{i} (\sum_{x, y} \tilde{p} (x) f_{i} (x, y)) \\ = \sum_{x, y} \tilde{p} (x) (1 + l o g p (y | x)) - \sum_{x, y} \tilde{p} (x) w_{0} - \sum_{x, y} \tilde{p} (x) (\sum_{i = 1}^{n} w_{i} f_{i} (x, y)) \\ = \sum_{x, y} \tilde{p} (x) (1 + l o g p (y | x) - w_{0} - \sum_{i = 1}^{N} w_{i} f_{i} (x, y)) \end{aligned}

$\begin{align*} \frac{\partial L(P,w)}{\partial P} &= \sum_{x,y}\widetilde{p}(x)(1+logp(y|x)) - w_0 - \sum_{i=1}^{n}w_i(\sum_{x,y}\widetilde{p}(x)f_i(x,y)) \\ &= \sum_{x,y}\widetilde{p}(x)(1+logp(y|x)) -\sum_{x,y}\widetilde{p}(x) w_0 - \sum_{x,y}\widetilde{p}(x)(\sum_{i=1}^{n}w_if_i(x,y)) \\ &= \sum_{x,y}\widetilde{p}(x)(1+logp(y|x)-w_0 - \sum_{i=1}^{N}w_if_i(x,y)) \end{align*}$
注： $w_0=w_0 \times 1 = w_0 \sum_{x}\widetilde{p}(x)= \sum_{x,y}\widetilde{p}(x) w_0$
令偏导数为0，在

\tilde{p} (x) > 0

$\widetilde{p}(x) \gt 0$ 的情况下，有：

p (y | x) = e x p (\sum_{i = 1}^{n} w_{i} f_{i} (x, y) + w_{0} - 1) = \frac{e x p (\sum_{i = 1}^{n} w_{i} f_{i} (x, y))}{e x p (1 - w_{0})}

$p(y|x) = exp(\sum_{i=1}^{n}w_if_i(x,y) + w_0 -1)=\frac{exp(\sum_{i=1}^{n}w_if_i(x,y))}{exp(1-w_0)}$
由于

\sum_{y} p (y | x) = 1

$\sum_{y}p(y|x)=1$ ，得：
于

\sum_{y} \frac{e x p (\sum_{i = 1}^{n} w_{i} f_{i} (x, y))}{e x p (1 - w_{0})} = 1

$\sum_{y}\frac{exp(\sum_{i=1}^{n}w_if_i(x,y))}{exp(1-w_0)}=1$
则:

e x p (1 - w_{0}) = \sum_{y} e x p (\sum_{i = 1}^{n} w_{i} f_{i} (x, y))

$exp(1-w_{0}) = \sum_{y}exp(\sum_{i=1}^{n}w_if_i(x,y))$
内部极大值得解为：

P_{w} (y | x) = \frac{1}{Z_{w}} e x p (\sum_{i = 1}^{n} w_{i} f_{i} (x, y)))

$P_{w}(y|x) =\frac{1}{Z_{w}}exp(\sum_{i=1}^{n}w_if_i(x,y)))$
其中：

Z_{w} (x) = \sum_{y} e x p (\sum_{i = 1}^{n} w_{i} f_{i} (x, y))

$Z_{w}(x)=\sum_{y}exp(\sum_{i=1}^{n}w_if_i(x,y))$

Z_{w} (x)

$Z_{w}(x)$ 称为规范化因子；

f_{i} (x, y)

$f_i(x,y)$ 为特征值函数；

w_{i}

$w_{i}$ 为特征权值；

P_{w} (y | x)

$P_{w}(y|x)$ 为最大熵模型。之后再求解外部极大值，用

w^{*}

$w^*$ 表示其解，即：

w^{*} = a r g max_{w} Ψ (w)

$w^* = arg\max_w\Psi(w)$

最大熵模型（二）

最大熵模型 - 最大熵模型的学习

猜你喜欢