第3章 特征增强:清洗数据
主要内容:
识别数据中的缺失值;
删除有害数据;
输入(填充)缺失值;
对数据进行归一化/标准化;
构建新特征;
手动或自动选择(移除)特征;
使用数学矩阵计算将数据集转换到不同的维度。
3.1 识别数据中的缺失值
查看数据集中是否有数据点是空的,用pandas dataframe内置的isnull()方法:
dataname.isnull().sum() 统计缺失值的数量
3.2处理数据集中的缺失值
主要的两种处理方法:
删除缺少值的行 dataname.dropna()
填充缺失值 dataname['列名'].fillna(['列名'].mean(),inplace = True) 也可以用sklearn预处理类的Imputer模块(填充器)进行缺失值填充
数据集的每列均值: dataname.mean() 某列的均值 datanamme['列名'].mean()