scikit-learn处理输入数据缺失值的类：Imputer

其他 2018-12-15 23:26:33 阅读次数: 0

可选参数

strategy: 'mean'(默认的)， ‘median’中位数，‘most_frequent’出现频率最大的数
axis: 0(默认)， 1
copy: True(默认)， False

输出

numpy数组，之后可转化为DataFrame形式

属性：

Imputer.statistics_可以查看每列的均值/中位数

特别说明：最好将imputer应用于整个数据集。因为虽然现在可能只有某一个属性存在缺失值，但是在新的数据中（如测试集）可能其他的属性也存在缺失值

from sklearn.preprocessing import Imputer
imputer=Imputer(strategy='median') #将每列属性的缺失值替换为中位数
imputer.fit(x_train)
X=imputer.transform(x_train) #转换结果X是一个numpy数组
x_train=pd.DataFrame(X,columns=x_train.columns) #将numpy数组转化为dataframe

print(imputer.statistics_) #查看每个属性的中位数

猜你喜欢

转载自blog.csdn.net/yzy__zju/article/details/84258088

scikit-learn处理输入数据缺失值的类：Imputer

Python scikit-learn，数据的预处理，缺失值处理，Imputer

Scikit-learn 发布 0.20版本！新增处理缺失值、合并Pandas等亮点功能

scikit-learn 新增功能：标签编码、决策树缺失值处理等众多新特性

scikit-learn数据预处理

数据预处理（Python scikit-learn）

数据预处理 Scikit-learn Preprocessing

scikit-learn与数据预处理

【Scikit-Learn 中文文档】处理文本数据 - scikit-learn 教程 | ApacheCN

Scikit-learn数据预处理分类变量编码之多标签二值化

Scikit-learn数据预处理分类变量编码之标签二值化

Scikit-learn 数据预处理之最大绝对值MaxAbsScaler

scikit-learn的线性回归模型利用pandas处理数据

［scikit-learn学习笔记］数据处理

python 使用scikit-learn对数据进行预处理

[译]处理文本数据(scikit-learn 教程3)

Scikit-learn数据预处理之范数缩放NormalizerScaler

Scikit-learn Preprocessing 预处理

使用scikit-learn进行预处理

scikit-learn中的DBSCAN类

【Scikit-Learn】Scikit-Learn实战

scikit-learn内置数据集

数据标准化——scikit-learn

机器学习 scikit-learn 数据集

SciKit-Learn 加载数据集

数据的特征工程之Scikit-learn

scikit-learn一般实例之六:构建评估器之前进行缺失值填充

使用sklearn中preprocessing.Imputer实现对缺失值的处理

scikit-learn使用

scikit-learn入门

今日推荐

周排行

成为C++高手之宏与枚举

在CAD二次开发中使用进度条

Js插件ECharts，HighCharts学习网址整理

Celery提交任务出错(on windows.)

cephfs内核客户端性能追踪

thinkphp中PHPExcel用法

EntityFramework动态组合多排序字段

汇编语言（八）实验9 根据材料编程

安装ubuntu后必须做的事情（对我而言）

JS函数式编程

每日归档

2024-10-22(0)

2024-10-21(0)

2024-10-20(0)

2024-10-19(0)

2024-10-18(0)

2024-10-17(0)

2024-10-16(0)

2024-10-15(0)

2024-10-14(0)

2024-10-13(0)