Day	Outlook	Temperature	Humidity	Wind	PlayTennis
$D_1$	Sunny	Hot	High	Weak	No
$D_2$	Sunny	Hot	High	Strong	No
$D_3$	Overcast	Hot	High	Weak	Yes
$D_4$	Rain	Mild	High	Weak	Yes
$D_5$	Rain	Cool	Normal	Weak	Yes
$D_6$	Rain	Cool	Normal	Strong	No
$D_7$	Overcast	Cool	Normal	Strong	Yes
$D_8$	Sunny	Mild	High	Weak	No
$D_9$	Sunny	Cool	Normal	Weak	Yes
$D_{10}$	Rain	Mild	Normal	Weak	Yes
$D_{11}$	Sunny	Mild	Normal	Strong	Yes
$D_{12}$	Overcast	Mild	High	Strong	Yes
$D_{13}$	Overcast	Hot	Normal	Weak	Yes
$D_{14}$	Rain	Mild	High	Strong	No

如表1所示，目标值是：PlayTennis，也就是是否打球。
表1中有四个特征，分别是天气（Outlook）、温度（Temperature）、湿度（Humidity）以及风（Wind）。

1. 信息熵

信息熵的公式：
$\sum_{x \in X} p(x) \log p(x)$
顺带一提，
$\leq H(X) \leq \log n$

以表1为例，设是否打球这一随机变量为 $Y$ ，则
$\text{Yes}) = \frac{9}{14}$
$\text{No}) = \frac{5}{14}$
所以，
$\begin{aligned} H(Y) &= - \sum_{y \in Y} p(y) \log p(y) \\ &= - ( p(Y=\text{Yes}) \ast \log p(Y=\text{Yes}) + p(Y=\text{No}) \ast \log p(Y=\text{No}) ) \\ &= - ( \frac{9}{14} \ast \log_2 \frac{9}{14} + \frac{5}{14} \ast \log_2 \frac{5}{14}) \\ &= 0.9403 \end{aligned}$

2. 条件熵

条件熵表示在条件 $X$ 下 $Y$ 的信息熵。
公式如下：
$\sum_{x \in X} p(x) H(Y|X=x)$

在表1的例子中，设湿度（Humidity）为随机变量 $X$ ，则：
$p(X=\text{High}) = \frac{7}{14} = \frac{1}{2}$

$p(X=\text{Normal}) = \frac{7}{14} = \frac{1}{2}$
所以，
$\begin{aligned} H(Y|X) &= \sum_{x \in X} p(x) H(Y|X=x) \\ &= p(X=\text{High}) \ast H(Y|X=\text{High}) + p(X=\text{Normal}) \ast H(Y|X=\text{Normal}) \end{aligned}$

接下来计算 $H(Y|X=\text{High})$ 和 $H(Y|X=\text{Normal})$ 。

根据信息熵的计算方法可得：
$\begin{aligned} H(Y|X=\text{High}) &= - \sum_{y \in Y} p(y) \log p(y) \\ &= - ( p(Y=\text{Yes} | X=\text{High}) \ast \log p(Y=\text{Yes} | X=\text{High} ) \\ &+ p(Y=\text{No} | X=\text{High}) \ast \log p(Y=\text{No} | X=\text{High} ) \\ &= - ( \frac{3}{7} \ast \log_2 \frac{3}{7} + \frac{4}{7} \ast \log_2 \frac{4}{7} ) \\ &= 0.9852 \end{aligned}$

$\begin{aligned} H(Y|X=\text{Normal}) &= - \sum_{y \in Y} p(y) \log p(y) \\ &= - ( p(Y=\text{Yes} | X=\text{Normal}) \ast \log p(Y=\text{Yes} | X=\text{Normal}) \\ &+ p(Y=\text{No} | X=\text{Normal}) \ast \log p(Y=\text{No} | X=\text{Normal}) \\ &= - ( \frac{6}{7} \ast \log_2 \frac{6}{7} + \frac{1}{7} \ast \log_2 \frac{1}{7} ) \\ &= 0.5917 \end{aligned}$

因此，
$\begin{aligned} H(Y|X) &= \sum_{x \in X} p(x) H(Y|X=x) \\ &= p(X=\text{High}) \ast H(Y|X=\text{High}) + p(X=\text{Normal}) \ast H(Y|X=\text{Normal}) \\ &= \frac{1}{2} \ast 0.9852 + \frac{1}{2} \ast 0.5917 \\ &= 0.7884 \end{aligned}$

3. 参考文章

什么是信息熵、条件熵和信息增益

信息熵和条件熵的计算

目录

1. 信息熵

2. 条件熵

3. 参考文章

猜你喜欢