Sklearn模型应用场景

Sklearn常见模型

knn:简单有效,适合作为基准模型

linearRegression: 运用最小二乘法实现的线性模型,当数据量大时计算效率不高

lasso: 添加L1正则化的线性模型,易获得权重的稀疏解,用于筛选特征

ridge: 添加L2正则化的线性模型,易获得权重的平滑解

poly: 多项式回归,容易过拟合,必须配合正则化使用

logisticRegression: 自带正则化实现,需要调节C控制正则化程度,较简单的分类模型

linearSVC: 线性支持向量机,自带正则化实现

SVC: 核支持向量机,默认是'rbf'核,调节C与gamma

decisionTree: max_depth控制过拟合

当模型过拟合时,增大alpha或者减小C;当模型欠拟合时,减小alpha或者增大C;

扫描二维码关注公众号,回复: 4597274 查看本文章

对特征归一化

某些机器学习算法要求输入数据必须有相同的范围:

  • regularized regression
  • logistic
  • knn
  • svm
  • neural networks

优缺点对比

  优点 缺点
线性模型
  • 简单易于训练;
  • 预测快速;
  • 对于稀疏数据来说效果同样好;
  • 预测的原因容易解释;
  • 对于低维数据,其他模型可能表现得更好;
  • 对于分类问题,不一定是线性可分的
核支持向量机
  • 在很多数据集上表现良好;
  • 功能多样:可以指定不同的内核函数,也可以为特定的数据类型定义自定义内核。
  • 适用于低维和高维数据。
  • 不适用于大样本的情况(>50000);
  • 需要对数据进行归一化;
  • 不提供直接的概率估计;
  • 预测的结果很难解释原因;
决策树
  • 易可视化与解释;
  • 不需要特征缩放;
  • 特征可以是多个类别的数据(比如连续值,类别)
  • 容易过拟合;

猜你喜欢

转载自blog.csdn.net/Ahead_J/article/details/85111560