参考链接:
- 什么是信息增益(Information Gain)?
- 信息熵到底是什么
首先建立一棵决策树。信息增益是一个统计量,用来描述一个属性区分数据样本的能力。信息增益越大,那么决策树就会越简洁。这里信息增益的程度用信息熵的变化程度来衡量。
假如我们所做的决策是是否出去玩,属性有风力、潮湿度等等。
那么在有统计样本S的情况下,计算某属性信息增益的步骤如下:
- 计算不用属性区分的情况下,决策属性在整体样本中的信息熵。
Entropy(S)=−p+∗log(p+)−p−∗log(p−)
其中,p+、p-分别指代的是正例(决策取1,即出去玩)和负例占总记录的比例。系统中各种随机性的概率越均等,信息熵越大,反之越小。
- 计算按照该属性把样本分开之后,决策属性在样本中的信息熵。
以风力属性为例,区分为Weak和Strong,比例分别为
Pweak和
PStrong
那么:
Gain(Wind)=Entropy(S)−Pweak∗Entropy(Weak)−PStrong∗Entropy(Strong)
最终我们选择信息熵最大的作为根节点,子节点同样。