这个属于香农信息论中的东西,在《PRML》书中1.6 信息论小节中有具体说明。真正碰到应用还是在洛桑联邦理工的POM文章中(概率占用图)。作者使用自己产生的估计Q来去逼近未知分布P,其中P是一个后验概率分布。这篇博文旨在明确KL散度的定义以及用途,以备后用。
香农大神:
KL散度是两个概率分布间差异的非对称性度量,是一些优化算法(例如最大期望算法EM)的损失函数,参与计算的一个概率分布是真实分布,另一个是拟合分布。相对熵表示使用理论分布拟合真实分布时产生的信息损耗。
设有未知分布,使用估计概率分布逼近未知分布,则KL散度定义为:
离散情况下写为:
1. 不对称性:KL散度的两个概率分布不可以随意调换位置,是有向的。
2. 并且,只有在时才取等号。
放一个离散型KL散度的运算实例: