XGBoost的设置残差一般有三种:一般参数,提升参数和学习参数
一般参数 取决于提升器,通常是树或者线性模型
提升参数 取决于选择的提升器的相关参数
学习参数 取决于指定学习任务和相应的学习指标
一般参数(general parameters)
booster:选择提升器,默认为tree
silent:是否打印信息,默认0不打印
nthread:线程数,默认为最大可用线程数
num_pbuffer: 缓冲大小,默认为训练实例的数量
num_feature:特征纬度,默认为特征的最高纬度。
提升参数(booster parameters)
eta:学习率,范围[0,1],默认为0.3. 该参数越小,计算速度越慢;该参数越大,有可能无法收敛
gamma:控制叶子个数的参数,范围为[0,+无穷],默认为0.该参数越大,越不容易过拟合
max_depth:每棵树的最大深度,范围为0到正无穷,默认为6,该参数越大,越容易过拟合。
min_child_weight:每个叶子里面的最小权重和,范围为0到正无穷,默认为1,该参数越大,越不容易过拟合。
subsample:样本采样比率,范围0-1,默认为1,如果取0.5代表随机用50%的样本来进行训练。
colsample_bytree:列采样比率,范围0-1,默认为1.对每棵树的生成用的特征进行列采样,类似于随机森林的列采样
lambda:L2正则化参数,范围为0到正无穷,默认为1.该参数越大,越不容易过拟合。
alpha:L1 正则化参数,范围0到正无穷,默认为0,该参数越大,越不容易过拟合。
学习参数(learning parameters)
objective:损失函数,默认为线性。其他常见类型有:
reg:logistic-二分类
binary:logistic-二分类概率
multi:softmax-多分类
multi:softprob-多分类概率
rank:pairwise-排序
- base_score:预测分数,默认为 0.5。最初每个样例的预测分数。
- eval_metric:评估指标。该指标用在验证集上,比如回归任务默认的是rmse,分类人物默认为error;排序任务默认为map.其他的常见类型有:
-
- rmse – root mean square error
- mae – mean absolute error
- logloss – negative log-likelihood
-
- error – binary classification error rate
- merror – multiclass classification error rate
- mlogloss – multiclass logloss
- auc – area under the curve
- map – mean average precision
- seed:随机种子,默认为0,用于产生可复现的结果。,