(1)树回归
决策树算法主要是不断将数据切分成小数据集,直到所有目标变量完全相同,或者数据不能再切分为止。它是一种贪心算法,并不考虑能否达到全局最优。前面介绍的用ID3构建决策树的算法每次选取当前最佳的特征来分割数据,并按照该特征的所有可能取值来划分,这种切分过于迅速,且不能处理连续性特征。另外一种方法是二元切分法,每次把数据集切成两份,如果数据的某特征等于切分所要求的值,那么这些数据就进入树的左子树,反之右子树。二元切分法可处理连续型特征,节省树的构建时间。
这里依然使用字典来存储树的数据结构,该字典将包含以下4个元素:
- 待切分的特征
- 待切分的特征值
- 右子树,不需切分时,也可是单个值
- 左子树,右子树类似
将利用二元切分法构建两种树:第一种是回归树(regression tree),其每个叶节点包含单个值;第二种是模型树(model tree),其每个叶节点包含一个线性方程。
(2)Python 实现
2.1--回归树
## 1、回归树 import numpy as np def loadDataSet(fileName): ''' 读取一个一tab键为分隔符的文件,然后将每行的内容保存成一组浮点数 ''' dataMat = [] fr = open(fileName) for line in fr.readlines(): curLine = line.strip().split('\t') fltLine = map(float,curLine) dataMat.append(fltLine) return dataMat def binSplitDataSet(dataSet, feature, value): ''' 数据集切分函数----根据特征及特征值切分为左右分支 ''' mat0 = dataSet[np.nonzero(dataSet[:,feature] > value)[0],:] mat1 = dataSet[np.nonzero(dataSet[:,feature] <= value)[0],:] return mat0,mat1 def regLeaf(dataSet): '''负责生成叶节点''' #当chooseBestSplit()函数确定不再对数据进行切分时,将调用本函数来得到叶节点的模型。 #在回归树中,该模型其实就是目标变量的均值。 return np.mean(dataSet[:,-1]) def regErr(dataSet): ''' 误差估计函数,该函数在给定的数据上计算目标变量的平方误差,这里直接调用均方差函数 总方差等于均方差乘以数据集中样本点的个数得到 ''' return np.var(dataSet[:,-1]) * np.shape(dataSet)[0]#返回总方差 def createTree(dataSet, leafType=regLeaf, errType=regErr, ops=(1,4)): ''' 树构建函数 leafType:建立叶节点的函数 errType:误差计算函数 ops:包含树构建所需其他参数的元组 (容许的误差下降值,切分的最少样本数) ''' #选择最优的划分特征 #如果满足停止条件,将返回None和某类模型的值 #若构建的是回归树,该模型是一个常数;如果是模型树,其模型是一个线性方程 feat, val = chooseBestSplit(dataSet, leafType, errType, ops) if feat == None: return val # retTree = {} retTree['spInd'] = feat retTree['spVal'] = val #将数据集分为两份,之后递归调用继续划分 lSet, rSet = binSplitDataSet(dataSet, feat, val) retTree['left'] = createTree(lSet, leafType, errType, ops) retTree['right'] = createTree(rSet, leafType, errType, ops) return retTree def chooseBestSplit(dataSet, leafType=regLeaf, errType=regErr, ops=(1,4)): ''' 用最佳方式切分数据集和生成相应的叶节点 ''' #ops为用户指定参数,用于控制函数的停止时机 tolS = ops[0]; tolN = ops[1] #如果所有值相等则退出 if len(set(dataSet[:,-1].T.tolist()[0])) == 1: return None, leafType(dataSet) m,n = np.shape(dataSet) S = errType(dataSet) bestS = np.inf; bestIndex = 0; bestValue = 0 #在所有可能的特征及其可能取值上遍历,找到最佳的切分方式 #最佳切分也就是使得切分后能达到最低误差的切分 for featIndex in range(n-1): for splitVal in set(dataSet[:,featIndex]): mat0, mat1 = binSplitDataSet(dataSet, featIndex, splitVal) if (np.shape(mat0)[0] < tolN) or (np.shape(mat1)[0] < tolN): continue newS = errType(mat0) + errType(mat1) if newS < bestS: bestIndex = featIndex bestValue = splitVal bestS = newS #如果误差减小不大则退出 if (S - bestS) < tolS: return None, leafType(dataSet) mat0, mat1 = binSplitDataSet(dataSet, bestIndex, bestValue) #如果切分出的数据集很小则退出 if (np.shape(mat0)[0] < tolN) or (np.shape(mat1)[0] < tolN): return None, leafType(dataSet) #提前终止条件都不满足,返回切分特征和特征值 return bestIndex,bestValue if __name__ == "__main__": myData = loadDataSet('ex00.txt') myMat = np.mat(myData) print(createTree(myMat))
2.2----模型树
## 2、模型树 import numpy as np def loadDataSet(fileName): ''' 读取一个一tab键为分隔符的文件,然后将每行的内容保存成一组浮点数 ''' dataMat = [] fr = open(fileName) for line in fr.readlines(): curLine = line.strip().split('\t') fltLine = map(float,curLine) dataMat.append(fltLine) return dataMat def binSplitDataSet(dataSet, feature, value): ''' 数据集切分函数----根据特征及特征值切分为左右分支 ''' mat0 = dataSet[np.nonzero(dataSet[:,feature] > value)[0],:] mat1 = dataSet[np.nonzero(dataSet[:,feature] <= value)[0],:] return mat0,mat1 def modelLeaf(dataSet): '''负责生成叶节点模型''' ws,X,Y = linearSolve(dataSet) return ws def modelErr(dataSet): '''误差计算函数''' ws,X,Y = linearSolve(dataSet) yHat = X * ws return sum(np.power(Y - yHat,2)) def createTree(dataSet, leafType=modelLeaf, errType=modelErr, ops=(1,4)): ''' 树构建函数 leafType:建立叶节点的函数 errType:误差计算函数 ops:包含树构建所需其他参数的元组 (容许的误差下降值,切分的最少样本数) ''' #选择最优的划分特征 #如果满足停止条件,将返回None和某类模型的值 #若构建的是回归树,该模型是一个常数;如果是模型树,其模型是一个线性方程 feat, val = chooseBestSplit(dataSet, leafType, errType, ops) if feat == None: return val # retTree = {} retTree['spInd'] = feat retTree['spVal'] = val #将数据集分为两份,之后递归调用继续划分 lSet, rSet = binSplitDataSet(dataSet, feat, val) retTree['left'] = createTree(lSet, leafType, errType, ops) retTree['right'] = createTree(rSet, leafType, errType, ops) return retTree def chooseBestSplit(dataSet, leafType=modelLeaf, errType=modelErr, ops=(1,4)): ''' 用最佳方式切分数据集和生成相应的叶节点 ''' #ops为用户指定参数,用于控制函数的停止时机 tolS = ops[0]; tolN = ops[1] #如果所有值相等则退出 if len(set(dataSet[:,-1].T.tolist()[0])) == 1: return None, leafType(dataSet) m,n = np.shape(dataSet) S = errType(dataSet) bestS = np.inf; bestIndex = 0; bestValue = 0 #在所有可能的特征及其可能取值上遍历,找到最佳的切分方式 #最佳切分也就是使得切分后能达到最低误差的切分 for featIndex in range(n-1): for splitVal in set(dataSet[:,featIndex]): mat0, mat1 = binSplitDataSet(dataSet, featIndex, splitVal) if (np.shape(mat0)[0] < tolN) or (np.shape(mat1)[0] < tolN): continue newS = errType(mat0) + errType(mat1) if newS < bestS: bestIndex = featIndex bestValue = splitVal bestS = newS #如果误差减小不大则退出 if (S - bestS) < tolS: return None, leafType(dataSet) mat0, mat1 = binSplitDataSet(dataSet, bestIndex, bestValue) #如果切分出的数据集很小则退出 if (np.shape(mat0)[0] < tolN) or (np.shape(mat1)[0] < tolN): return None, leafType(dataSet) #提前终止条件都不满足,返回切分特征和特征值 return bestIndex,bestValue def linearSolve(dataSet): '''将数据集格式化成目标变量Y和自变量X,X、Y用于执行简单线性回归''' m,n =np. shape(dataSet) X = np.mat(np.ones((m,n))); Y = np.mat(np.ones((m,1))) X[:,1:n] = dataSet[:,0:n-1]; Y = dataSet[:,-1]#默认最后一列为Y xTx = X.T*X #若矩阵的逆不存在,抛异常 if np.linalg.det(xTx) == 0.0: raise NameError('This matrix is singular, cannot do inverse,\n\ try increasing the second value of ops') ws = xTx.I * (X.T * Y)#回归系数 return ws,X,Y if __name__ == "__main__": myData = loadDataSet('exp2.txt') myMat = np.mat(myData) print(createTree(myMat,modelLeaf,modelErr,(1,10)))
##说明:原文代码均在Python2的环境下运行,此程序在Python3 环境下遇到一个错误,未能解决,若有大神解决了,望不吝赐教!!