信息熵、交叉熵、相对熵

熵，热力学中表征物质状态的参量之一，用符号S表示，其物理意义是体系混乱程度的度量。
信息熵，描述信源的不确定度。

信息熵越大，越无序，越随机，信息量(的期望)越大，要消除不确定性所需信息量越大。

考虑把信息量存储下来需要多大空间/存储代价
(用存储空间表示信息熵(不确定性越高所需存储空间越大))

举例：表示天气情况的 $P=[p_1,p_2,p_3,p_4]$ ，通常做法表示为[00,01,10,11]，共2bit

S = \sum_{i = 1}^{4} (P_{i} \times F (P_{i}))

$S=\sum_{i=1}^{4}(P_i\times F(P_i))$

$F(P_i)$ 表示存储空间， $P_i$ 表示事件i的概率，公式表示各个事件需要的存储空间期望和

概率越大，存储空间越小(哈夫曼编码)

F (P_{i}) = \frac{1}{P_{i}}; F (P_{i}) = \log_{a} (\frac{1}{P_{i}})

$F(P_i)=\frac{1}{P_i};F(P_i)=\log_a(\frac{1}{P_i})$
取对数：消除乘除法、约束为正态分布/更稳定
所以，信息熵公式为

H (P) = \sum_{i} \log_{a} \frac{1}{P (i)} = - \sum_{i} P (i) \log_{a} P (i)

$H(P)=\sum_{i} \log_a \frac{1}{P(i)}=-\sum_{i}P(i)\log_aP(i)$

因此，对于不同天气概率时，信息熵如表所示。如Q，信息熵为1.75，需要存储空间1.75/天，与P的2相比，Q可以通过编码节省空间。类似于哈夫曼编码，Q中分别编码为[10,110,0,111]，则存储空间为 $\frac{1}{4}*2+\frac{1}{8}*3+\frac{1}{2}*1+\frac{1}{8}*3=\frac{7}{4}=1.75$

天气[阴晴雨雪]	信息熵
$P=[\frac{1}{4},\frac{1}{4},\frac{1}{4},\frac{1}{4}]$	$H(P)=2$
$Q=[\frac{1}{4},\frac{1}{8},\frac{1}{2},\frac{1}{8}]$	$H(Q)=1.75$
$Z=[\frac{1}{8},\frac{1}{16},\frac{3}{4},\frac{1}{16}]$	$H(Z)=1.29$
$W=[0,0,0,1$	$H(W)=0$

交叉熵，用来衡量在给定的真实分布下，使用非真实分布指定的策略消除系统的不确定性所需要付出努力的大小；
就是用预估的存储策略，来存储未知变量，得到在此策略下消耗的存储空间，在P和Q分布一致下，交叉熵=信息熵

H (P, Q) = \sum_{i} P (i) \log_{a} \frac{1}{Q (i)}

$H(P,Q)=\sum_{i} P(i) \log_a \frac{1}{Q(i)}$

H (P, Q) >= H (P)

$H(P,Q)>=H(P)$

这里写图片描述

交叉熵可以作为损失函数，衡量p和q的相似性

相对熵，衡量两个概率分布之间的差异，也称为KL散度，值越低，训练出来的概率Q接近样本概率P，越准确，两者一致就是0

D_{K L} (P | | Q) = H (P, Q) - H (P) = \sum_{i} P (i) \log_{a} \frac{P (i)}{Q (i)}

$D_{KL}(P||Q)=H(P,Q)-H(P)=\sum_{i}P(i)\log_a \frac{P(i)}{Q(i)}$

底数a，使用2进制编码用2，用正态分布用e，10是万金油。。。

信息熵、交叉熵、相对熵

猜你喜欢