自然语言处理中数学基础（信息论）

01.熵(entropy)

如果 $X$ 是一个离散性随机变量，其概率分布为: $P(x) = P(X = x){\rm{ }} x \in X$ ， $X$ 的熵 $H(X)$ 为：
$H(X) = - \sum\limits_{x \in X} {P(x){{\log }_2}P(x)}$
$H(X)$ 也可以写成 $H(p) (bit)$
熵又称为自信息（self-information）,表示信源 $x$ 每一个符号（不论发出什么符号）所提供的平均信息量。

02.联合熵(joint entropy)

如果 $X,Y$ 是一对离散随机变量（ $X,Y$ 有一定的关系）， $X,Y$ 的联合熵 $H(X,Y)$ 为：
${\rm{H(X,Y) = - }}\sum\limits_{x \in X} {\sum\limits_{y \in Y} {P(x,y)\log P(x,y)} }$
联合熵实际上就是描述一对随机变量平均所需要的信息量。

03.条件熵(conditional entropy)

给定随机变量 $X$ 的情况下，随机变量 $Y$ 的条件熵定义为：
${\rm{H(Y|X) = - }}\sum\limits_{x \in X} {P(x)H(Y|X = x) = {\rm{ - }}\sum\limits_{x \in X} {P(x)[ - \sum\limits_{y \in Y} {P(y|x)\log (P(y|x)} ] = - \sum\limits_{x \in X} {\sum\limits_{y \in Y} {P(x,y)\log {\rm{P}}(y|x)} } } }$
在此我们也可以做进一步的推导：
${\rm{H}}({\rm{X}},{\rm{Y}}){\rm{ = - }}\sum\limits_{x \in X} {\sum\limits_{y \in Y} {P(x,y)\log P(x,y)} } {\rm{ = - }}\sum\limits_{x \in X} {\sum\limits_{y \in Y} {P(x,y)\log [P(x)P(y|x)]} } = {\rm{ - }}\sum\limits_{x \in X} {\sum\limits_{y \in Y} {P(x,y)\log P(x) - \sum\limits_{x \in X} {\sum\limits_{y \in Y} {P(x,y)\log P(y|x)(} } } } Notice:\sum\limits_{y \in Y} {P(x,y) = P(x)} ) = - \sum\limits_{x \in X} {P(x)\log (P(x))} - \sum\limits_{x \in X} {\sum\limits_{y \in Y} {P(x,y)\log P(y|x) = H(X) + H(Y|X)} }$
为了更加便于理解以上概念，博主在网上搜了一道例题供大家参考：
一个二进制信源 $X$ 发出符号集{0，1}，经过离散无记忆新的传输，信道输出用 $Y$ 表示，由于信道正存在噪声，接收端除收到0和1的符号外，还有不确定符号“2”，已知 $X$ 的先验概率：
$P(x_0)=2/3$ , $P(x_1)=1/3$ ;
符号的转移概率： $P(y_0|x_0)=3/4$ ; $P(y_2|x_0)=1/4$ ; $P(y_1|x_1)=1/2$ ; $P(y_2|x_1)=1/2$
其对应的图形有：
这里写图片描述
那么根据这些信息可以计算出：
1.信息熵： $H(X)$
$H(X)=H(2/3,1/3)=-2/3log(2/3)-1/3log(1/3)=0.92bit$
2.条件熵： $H(Y|X)$
由 ${\rm{P}}({x_i}{y_j}) = P({x_i})P({y_j}|{x_i}) = P({y_j})P({x_i}|{y_j})$ （这里使用条件概率公式可以推导）
进而有：联合概率：
${\rm{P}}({x_0}{y_0}) = P({x_0})P({y_0}|{x_0}) = \frac{2}{3}*\frac{3}{4}=\frac{1}{2}$
${\rm{P}}({x_0}{y_1}) = P({x_0})P({y_1}|{x_0}) = 0$
${\rm{P}}({x_0}{y_2}) = P({x_0})P({y_2}|{x_0}) = \frac{2}{3}*\frac{1}{4}=\frac{1}{6}$
${\rm{P}}({x_1}{y_0}) = P({x_1})P({y_0}|{x_1}) = 0$
${\rm{P}}({x_1}{y_1}) = P({x_1})P({y_1}|{x_1}) = \frac{1}{3}*\frac{1}{2}=\frac{1}{6}$
${\rm{P}}({x_1}{y_2}) = P({x_1})P({y_2}|{x_1}) = \frac{1}{3}*\frac{1}{2}=\frac{1}{6}$
进而有：
$H(Y|X) = - \sum\limits_{i,j} {P({x_i}{y_j})\log P({y_j}|{x_i})} = - \frac{1}{2}\log \frac{3}{4} - \frac{1}{3}\log \frac{1}{4} - \frac{1}{6}\log \frac{1}{2} - \frac{1}{6}\log \frac{1}{2} = 0.88bit$
3.联合熵: $H(XY)$
由条件熵中的推导可知：
$H(XY) = H(X) + H(Y|X) = 1.8bit/符号$
4.信源输出熵: $H(Y)$
由全概率公式有： $\sum\limits_{i = 1}^n {P({x_i}{y_j}) = } P({y_j})$ 、 $\sum\limits_{j = 1}^m {P({x_i}{y_j}) = } P({x_i})$
得：
$P({y_0}) = \sum {P({x_i}{y_0}) = P({x_0}{y_0})} + P({x_1}{y_0}) = \frac{1}{2} + 0 = \frac{1}{2}$
$P({y_1}) = \sum {P({x_i}{y_1}) = P({x_0}{y_1})} + P({x_1}{y_1}) =0+\frac{1}{6} = \frac{1}{6}$
$P({y_2}) = \sum {P({x_i}{y_2}) = P({x_0}{y_2})} + P({x_1}{y_2}) =\frac{1}{6}+\frac{1}{6} = \frac{1}{3}$
故有： $H(Y) = H(\frac{1}{2},\frac{1}{3},\frac{1}{6}) = - \frac{1}{2}\log \frac{1}{2} - \frac{1}{3}\log \frac{1}{3} - \frac{1}{6}\log \frac{1}{6}=1.47bit$
5.条件熵： $H(X|Y)$
这里就介绍思路，具体步骤可以参照以上；依然是根据条件概率和全概率公式计算，先求得y条件下的x的概率，然后再结合条件概率公式求解即可。结果为 $0.33bit$