过拟合
过拟合是指学习时选择的模型所包含的参数过多,以至于出现这一对已知数据预测得很好,但对位置数据预测得含茶的现象。 即对训练数据预测得好,对测试数据预测得差的现象。
过拟合出现的情况:
1:样本容量很小时,
2:选择的模型所包含的参数过多。
两种常用的模型选择方法:正则化、交叉验证。
正则化是模型结构风险最小化策略的实现。
正则化项一般是模型复杂度的单调递增函数,模型越复杂,正则化值就越大。
正则化的作用是选择经验风险与模型复杂度同时较小的模型。
交叉验证:
给定的样本数据充足时,将样本分成三部分:训练集、验证集、测试集。
训练集用于训练模型,验证集用于模型的选择,测试机用于 最终对学习方法的评估。但是在实际应用中数据是不充足的,为了选择好的模型,可以采用交叉验证的方法。
决策树:
决策树的学习通常包括三个步骤:特征选择、决策树的生成、决策树的修剪。
ID3算法、C4.5、CART算法。
其中,ID3算法:用信息增益来选择特征;只有树的生成,容易产生过拟合。
C4.5对ID3算法进行了改进,在生成的过程中国,用信息增益比来选择特征。
特征选择:选取对训练数据具有分类能力的特征。目的:提高决策树学习的效率。
通常的特征选择的准则是信息增益或信息增益比。
信息增益:
熵(entropy)
是表示随机变量不确定性的度量。
设随机变量X是一个取有限个值的离散随机变量,其概率分布为:
,
则随机变量X的熵的定义为:
式中对数以2为底或以e为底,这时熵的单位分别称作比特(bit) 或者纳特(nat).
有定义可知,熵只依赖于X的分布,而与X的取值无关,所以也可以将X的熵记作
,即:
熵越大,随机变量的不确定性就越大。从定义可以验证:
当随机变量只取两个值,例如1,0时,X的分布为:
, ,
熵为:
这时,熵
随概率p的变化曲线如图(单位为bit):
当
或
时,随机变量完全没有不确定性。
当
时,
,熵取值最大,随机变量不确定性最大。
信息增益:
特征A对训练数据集D的信息增益 ,定义为集合D的经验熵 与特征A给定条件下D的经验条件熵 值差。即:
信息增益的算法:
输入:训练数据集D和特征A;
输出:特征A对训练数据集D的信息增益
(1) 计算数据集D的经验熵
(2)计算特征A对数据集D的经验条件熵
(3)计算信息增益:
ID3算法:用信息增益来选择特征;只有树的生成,容易产生过拟合。
信息增益比
(信息增益比定义)特征A对训练数据集D的信息增益比 定义为其信息增益 与训练数据集D关于特征A的值得熵 之比,即
其中,
C4.5对ID3算法进行了改进,在生成的过程中,用信息增益比来选择特征。
决策树的剪枝(pruning)
决策树的修剪:自下而上地进行剪枝,将树变得简单,从而使它具有更好的泛化能力。——解决过拟合问题。
决策树的剪枝一般通过极小化决策树整体的损失函数(loss function)/代价函数(cost function)来实现。
设树T的结点个数为
,
是树T的结点,该叶结点有
个样本点,其中
类的样本点有
个,
,
为叶结点
上的经验熵,
为参数,则决策树学习的损失函数可以定义为:
(1)
其中经验熵为:
(2)
在损失函数中,将(1)式右端的第一项记作:
这时有:
(3)
式(3)中, 表示模型对训练数据的预测误差,即模型与训练数据的拟合程度, 表示模型复杂度,参数 控制两者之间的影响,较大的 促使选择较简单的模型(树),较小的 促使选择较复杂的模型。 意味着只考虑模型与训练数据的拟合程度,不考虑模型的复杂度。
CART算法
分类树与回归树(classification and regression tree,CART)模型由Beriman等人在1984年提出,是应用广泛的决策树学习方法。CART由特征选择、树的生成、剪枝组成。既可以用于分类也可以用于回归。
CART算法:决策树生成+剪枝。
对回归树用平方误差最小化准则,对分类树用基尼指数(Geni index)最小化准则,进行特征选择,生成二叉树。