《Interpretable machine learning》 Christophm
一个决策树:
1. 模型解释性
解释决策树很简单,从根节点开始,根据边的判断,转到下一个子集,直到走到叶节点,得到结果。所有的边都由AND连接。
解释模板可以是:如果特征x比阈值c[大/小] AND …那么预测结果是该叶子节点中所有实例y的平均值。
衡量特征重要性:
计算方法:
遍历使用该特征的所有划分点,计算它与父节点相比降低了多少(比例)结果的方差或基尼指数。另一方面也说明,每个特征的重要性都可以理解为整个模型解释性的一部分。
树分解(单实例解释):
书上写了一大段,整合一下就是,还原该实例经过的路径,累加经过节点(特征)的贡献。
2. 例子
预测自行车租赁量的小决策树:
树的结构显示温度和时间趋势都被用于划分,但没有量化哪个特征更重要。于是用方差做了量化分析:
根据结果,时间趋势远比温度重要。
3. 优缺点
优点:
- 适合捕捉特征间的交互信息。
- 解释非常简单。
- 树的结构直接可视化模型。
- 产生的解释对人类很友好。
缺点:
- 没法处理线性关系。
- 不稳定, 由于树的层次性,训练集不同会导致完全不一样的决策树。
- 不平滑,特征值一点小变化可能影响分类结果。
- 深度增加,叶子节点数量剧增。