下面数据的处理方式参考:威斯康辛乳腺癌数据集
1.将数据标签化
也就是将一列数据映射成range范围内的值(标签个数-1)
参考:sklearn.preprocessing.LabelEncoder
2.将数据分成训练集和测试集
参考:sklearn.model_selection.train_test_split
3.数据属性对结果的影响:特征重要性
类标签的影响因素可能有很多属性,但是不同属性对最终结果的影响程度不一样。
在随机森林算法中,有一个参数(feature_importances_)可以通过训练出的模型来显示出每一列对最终结果的影响程度,这个参数只有在以决策树为基础的算法中存在
参考:feature_importances_
4.删除数据中的列
调用pandas包中的drop进行删除,注意调用该函数时,里面的参数inplace,默认情况下是false:不会在原表上进行改变,而是创建一个原表的副本;True:直接改变原表
参考:pandas的drop函数
5.转变数据类型
参考:astype
6.查看该列中都有哪些数据
参考:unique
7.将数组转化成列表
参考:tolist
8.对缺失数据进行填充
参考:fillna
9.取出序列中最大元素的索引
参考:np.argmax