机器学习之数据预处理-构造好的训练数据集 - 代码天地

机器学习之数据预处理-构造好的训练数据集

其他 2018-06-07 09:07:36 阅读次数: 2

一缺失数据的处理

df.isnull().sum() 得到每列缺失值数量

（1）将存在缺失值的特征或样本删除

df.dropna()删除数据集中包含缺失值的行

df.dropna(axis=1)删除数据集中至少包含一个NAN值得列

（2）缺失数据填充

常用的插值技术之一就是均值插补，即使用相应的特征均值来替换缺失值。可以使用sklearn中的Impute类实现此方法。

二处理类别数据

类别数据包括标称特征（举例：T恤的颜色）和有序特征（举例：衣服的尺寸，XL>L>M）。

（1）有序特征的映射

我们可以将类别字符串转换为整数。

（2）类标的编码

类标并不是有序的，对于特定的字符串类标，赋予哪个整数值对我们来说并不重要。我们可以采用枚举的方式从0开始设定类标。

（3）标称特征上的独热编码（举例：color特征将转换为新的特征:blue,green,red,可以使用二进制编码）

三将数据集划分为训练数据集和测试数据集

这里调用sklearn中的train_test_split函数可以实现。

四将特征的值缩放到相同的区间

两种常用的方法为：归一化和标准化。归一化指的是将特征的值缩放到区间[0,1],它是最小-最大缩放的一个特例。但在大部分机器学习算法中，标准化的方法却更实用。前者可以调用MinMaxScaler类实现，后者可以调用StandardScaler类实现。

五选择有意义的特征

六通过随机森林判定特征的重要性

利用RandomForestClassifier类实现

猜你喜欢

转载自blog.csdn.net/qq_27584277/article/details/80346731

机器学习之数据预处理-构造好的训练数据集

sklearn机器学习包中的对原始数据的预处理及训练集、测试集的分割

机器学习之数据预处理

python 机器学习之数据预处理

Python机器学习之数据预处理

机器学习：数据预处理之LabelBinarier()

机器学习之数据预处理——降噪

Python机器学习数据预处理：读取txt数据文件并切分为训练和测试数据集

机器学习数据预处理

机器学习--数据预处理

数据预处理-机器学习

机器学习 —— 数据预处理

机器学习—数据预处理

机器学习：数据预处理

机器学习之数据预处理，Pandas读取excel数据

机器学习数据预处理：数据降维之PCA

深度学习数据集预处理之打标签

机器学习 --2 特征预处理之数据将维

机器学习之特征工程-数据预处理

机器学习数据预处理之One-Hot Encoding

机器学习sklearn之数据预处理及特征选择

【机器学习之特征工程】数据预处理02

机器学习之数据预处理——缺失值

机器学习之数据预处理——缺失值填充

(二)机器学习笔记之数据预处理

数据集的预处理

深度学习对数据集的预处理

机器学习-数据预处理（Python实现）

机器学习sklearn—数据的特征预处理

机器学习-常见的数据预处理

今日推荐

周排行

Leetcode简单题61~80

解决zookeeper磁盘IO高的问题

多线程相关方法详解

Maven-setting.xml文件详解

Maven 项目的 classpath 理解

渊亭科技大数据笔试题

配置JVM内存分配

计算机网络个人学习笔记（三）网络层：第三部分连载

js中两个等号(==)和三个等号(===)的区别

用C程序自动打开电脑上的程序

每日归档

更多

2024-09-18(0)

2024-09-17(0)

2024-09-16(0)

2024-09-15(0)

2024-09-14(0)

2024-09-13(0)

2024-09-12(0)

2024-09-11(0)

2024-09-10(0)

2024-09-09(0)