1.分类就是学习一个决策边界
2.过拟合和正则化(减缓过拟合的方法)
3.最大间隔分类器SVM,本身是线型切分,想变化成非线型切分是需要加入核函数,低纬度没办法切开所以要映射到高纬度当中切分。
4.决策树 ID3,c4.5,cart选特征,对应的筛选指标信息增益、增益率、基尼系数。
5.随机森林,选择部分特征,放回抽样。
6.分桶时间numpy.digitize(x,bin)取到桶的id
7.数据可能在不一样的段,采取不一样的模型,区分对待。
8.多项式特征,组合特征。
9.不要数据一对丢进来就做one-hot,先看分布情况。