1. 信息熵
熵表示随机变量不确定性的度量。设 是一个取有限值的离散随机变量,其概率分布为
那么随机变量 的信息熵为
当 时,信息熵 取最大。
1.1 证明
要求 最大
首先构造拉格朗日公式,
然后对 求导,得到 为一常数,所以结论成立。
2. 条件熵
条件熵 表示已知随机变量 的条件下,随机变量 的不确定性,定义为
其中,
3. 信息增益
特征 对训练集 的信息增益 是,集合 的经验熵 与给定特征 的条件下 的经验条件熵 之差,即
一般地,熵 与条件熵 之差称为互信息。
信息增益表示特征 对训练集 的分类不确定性的减少程度。
4. 信息增益比
特征 对训练集 的信息增益比的定义是