机器学习-关键词：正则化、过拟合、决策树

过拟合

过拟合是指学习时选择的模型所包含的参数过多，以至于出现这一对已知数据预测得很好，但对位置数据预测得含茶的现象。即对训练数据预测得好，对测试数据预测得差的现象。
过拟合出现的情况：
1：样本容量很小时，
2：选择的模型所包含的参数过多。

两种常用的模型选择方法：正则化、交叉验证。
正则化是模型结构风险最小化策略的实现。
正则化项一般是模型复杂度的单调递增函数，模型越复杂，正则化值就越大。
正则化的作用是选择经验风险与模型复杂度同时较小的模型。

交叉验证：

给定的样本数据充足时，将样本分成三部分：训练集、验证集、测试集。
训练集用于训练模型，验证集用于模型的选择，测试机用于最终对学习方法的评估。但是在实际应用中数据是不充足的，为了选择好的模型，可以采用交叉验证的方法。

决策树：

决策树的学习通常包括三个步骤：特征选择、决策树的生成、决策树的修剪。
ID3算法、C4.5、CART算法。
其中，ID3算法：用信息增益来选择特征；只有树的生成，容易产生过拟合。
C4.5对ID3算法进行了改进，在生成的过程中国，用信息增益比来选择特征。

特征选择：选取对训练数据具有分类能力的特征。目的：提高决策树学习的效率。
通常的特征选择的准则是信息增益或信息增益比。
信息增益：

熵（entropy）

是表示随机变量不确定性的度量。
设随机变量X是一个取有限个值的离散随机变量，其概率分布为：

$P(X=x_i)=p_i$ , $i=1,2,...,n$

则随机变量X的熵的定义为：

$H(X)=- \sum\limits_{{\rm{i = }}1}^n {{p_i}\log {p_i}}$

式中对数以2为底或以e为底，这时熵的单位分别称作比特（bit) 或者纳特（nat）.
有定义可知，熵只依赖于X的分布，而与X的取值无关，所以也可以将X的熵记作 $H(p)$ ,即：

$H(p)=- \sum\limits_{{\rm{i = }}1}^n {{p_i}\log {p_i}}$

熵越大，随机变量的不确定性就越大。从定义可以验证：

$0 \le H(p) \le \log n$

当随机变量只取两个值，例如1，0时，X的分布为：

$P(X=1)=p$ , $\;\;\;\;\;P(X=0)=1-p$ , $\;\;\;\;\;0 \le p\le 1$

熵为：

$H(p)=-plog_2p-(1-p)log_2(1-p)$

这时，熵 $H(p)$ 随概率p的变化曲线如图(单位为bit)：

当 $p=0$ 或 $p=1$ 时，随机变量完全没有不确定性。
当 $p=0.5$ 时， $H(p)=1$ ,熵取值最大，随机变量不确定性最大。

信息增益：

特征A对训练数据集D的信息增益 $g(D,A)$ ,定义为集合D的经验熵 $H(D)$ 与特征A给定条件下D的经验条件熵 $H(D/A)$ 值差。即：

$g(D,A)=H(D)-H(D/A)$

信息增益的算法：

输入：训练数据集D和特征A;
输出：特征A对训练数据集D的信息增益 $g(D,A)$
(1) 计算数据集D的经验熵 $H(D)$

$H({\rm{D}}) = - \sum\limits_{k = 1}^K {\frac{{\left| {C{}_k} \right|}}{{\left| D \right|}}} {\log _2}\frac{{\left| {C{}_k} \right|}}{{\left| D \right|}}$

(2)计算特征A对数据集D的经验条件熵 $H(D/A)$

$H({\rm{D/A}}) = \sum\limits_{i = 1}^n {\frac{{\left| {D{}_i} \right|}}{{\left| D \right|}}} H({D_i}) = - \sum\limits_{i = 1}^n {\frac{{\left| {D{}_i} \right|}}{{\left| D \right|}}\sum\limits_{k = 1}^K {\frac{{\left| {D{}_{ik}} \right|}}{{\left| {{D_i}} \right|}}} {{\log }_2}\frac{{\left| {D{}_{ik}} \right|}}{{\left| {{D_i}} \right|}}}$

(3)计算信息增益：

$g(D,A)=H(D)-H(D/A)$

ID3算法：用信息增益来选择特征；只有树的生成，容易产生过拟合。

信息增益比

(信息增益比定义)特征A对训练数据集D的信息增益比 $g_R(D,A)$ 定义为其信息增益 $g(D,A)$ 与训练数据集D关于特征A的值得熵 $H_A(D)$ 之比，即

${g_R}(D,A) = \frac{{g(D,A)}}{{{H_A}(D)}}$
其中， $H_A({\rm{D}}) = - \sum\limits_{i = 1}^n {\frac{{\left| {C{}_i} \right|}}{{\left| D \right|}}} {\log _2}\frac{{\left| {C{}_i} \right|}}{{\left| D \right|}}$

C4.5对ID3算法进行了改进，在生成的过程中，用信息增益比来选择特征。

决策树的剪枝（pruning）

决策树的修剪：自下而上地进行剪枝，将树变得简单，从而使它具有更好的泛化能力。——解决过拟合问题。
决策树的剪枝一般通过极小化决策树整体的损失函数（loss function）/代价函数（cost function）来实现。
设树T的结点个数为 $|T|$ , $t$ 是树T的结点，该叶结点有 $N_t$ 个样本点，其中 $k$ 类的样本点有 $N_{ik}$ 个， $k=1,2,...,K$ , $H_t(T)$ 为叶结点 $t$ 上的经验熵， $\alpha \ge0$ 为参数，则决策树学习的损失函数可以定义为：

${{\rm{C}}_\alpha }(T) = \sum\limits_{i = 1}^{|T|} {{N_t}{H_t}(T) + \alpha |T|}$ （1）

其中经验熵为：

${H_t}(T) = - \sum\limits_k {\frac{{{N_{ik}}}}{{{N_t}}}} \log \frac{{{N_{ik}}}}{{N{}_t}}$ （2）

在损失函数中，将（1）式右端的第一项记作：

${\rm{C}}(T) = \sum\limits_{i = 1}^{|T|} {{N_t}{H_t}(T) = } - \sum\limits_{i = 1}^{|T|} {\sum\limits_{k = 1}^K {{N_{ik}}\log \frac{{{N_{ik}}}}{{N{}_t}}} }$

这时有：

${{\rm{C}}_\alpha }(T) = {\rm{C}}(T) + \alpha |T|$ （3）

式（3）中， $C(T)$ 表示模型对训练数据的预测误差，即模型与训练数据的拟合程度， $|T|$ 表示模型复杂度，参数 $\alpha \ge0$ 控制两者之间的影响，较大的 $\alpha$ 促使选择较简单的模型（树），较小的 $\alpha$ 促使选择较复杂的模型。 $\alpha=0$ 意味着只考虑模型与训练数据的拟合程度，不考虑模型的复杂度。

CART算法

分类树与回归树（classification and regression tree,CART）模型由Beriman等人在1984年提出，是应用广泛的决策树学习方法。CART由特征选择、树的生成、剪枝组成。既可以用于分类也可以用于回归。
CART算法：决策树生成+剪枝。
对回归树用平方误差最小化准则，对分类树用基尼指数（Geni index）最小化准则，进行特征选择，生成二叉树。