Day 1_Data PreProcessing

其他 2018-08-14 21:42:23 阅读次数: 0

100-Days-Of-ML-Code 评注版

Day 1_Data PreProcessing

本文主要介绍数据预处理中的一些基础知识, 分别以Python、R、Julia三种语言进行介绍
-- 引用自 Day 1_Data PreProcessing

Info-graphs

导入数据

dataset = pd.read_csv('Data.csv')
X = dataset.iloc[ : , :-1].values
Y = dataset.iloc[ : , 3].values

处理缺失数据

Country	Age	Salary	Purchased
France	44	72000	No
Spain	27	48000	Yes
Germany	30	54000	No
Spain	38	61000	No
Germany	40		Yes
France	35	58000	Yes
Spain		52000	No
France	48	79000	Yes
Germany	50	83000	No
France	37	67000	Yes

通过观察，可以发现导入的数据中存在部分缺失，这样的数据必须处理后才能进行数据分析，这个过程被称为数据清理。一般来说数据清理主要处理缺失值和噪声数据。<<数据挖掘概念与技>>中对数据清理有详细的描述。这里作者用了比较通用的方法，分别用Age、Salary两列的平均值来填充缺失值。

from sklearn.preprocessing import Imputer
imputer = Imputer(missing_values = "NaN", strategy = "mean", axis = 0)
imputer = imputer.fit(X[ : , 1:3])
X[ : , 1:3] = imputer.transform(X[ : , 1:3])

分离变量编码

from sklearn.preprocessing import LabelEncoder, OneHotEncoder
labelencoder_X = LabelEncoder()
X[ : , 0] = labelencoder_X.fit_transform(X[ : , 0])

onehotencoder = OneHotEncoder(categorical_features = [0])
X = onehotencoder.fit_transform(X).toarray()
labelencoder_Y = LabelEncoder()
Y =  labelencoder_Y.fit_transform(Y)

划分测试数据集和训练数据集

from sklearn.cross_validation import train_test_split
X_train, X_test, Y_train, Y_test = train_test_split( X , Y , test_size = 0.2, random_state = 0)

特征规约

from sklearn.preprocessing import StandardScaler
sc_X = StandardScaler()
X_train = sc_X.fit_transform(X_train)
X_test = sc_X.fit_transform(X_test)

参考资料

猜你喜欢

转载自www.cnblogs.com/elixir/p/9477991.html

Day 1_Data PreProcessing

Day 1 Preprocessing data

Day1--Data Preprocessing

preprocessing

data preprocessing ——time series clip

Preprocessing data数据预处理

data-sklearn数据预处理 Preprocessing

机器学习-数据预处理(Data Preprocessing)

Maltab-机器学习-Importing and Preprocessing Data

Transformers数据预处理：Preprocessing data

C1W1-07_preprocessing

sklearn库学习笔记1——preprocessing库

[Machine Learning with Python] My First Data Preprocessing Pipeline with Titanic Dataset

Top 5 Open Source Tools for Data Preprocessing in AI an

FXC Preprocessing

The sklearn preprocessing

Sklearn用户手册学习笔记 -- Transformers for data preprocessing

13_Loading and Preprocessing Data from multiple CSV with TensorFlow_custom training loop_TFRecord

【DeepLearning 文本分类实战】IMDB Data Preprocessing数据预处理

【hackerrank】-Day 1: Data Types

Data Analysis Day1

使用preprocessing将一些变化幅度较大的特征化到[-1,1]之内。

preprocessing模块的sklearn.preprocessing.scale()方法

13_Loading & Preprocessing Data with TF 3_TF Datasets_images[index, ...,0]_plt images_profiling data

preprocessing数据预处理

sklearn.preprocessing.LabelBinarizer

sklearn.preprocessing.Imputer()

Sklearn-preprocessing.PolynomialFeatures

sklearn.preprocessing.Imputer

数据预处理——preprocessing

今日推荐

周排行

四大线程池详解

如何高效使用Vim

Mogodb的常用操作总结

Spyder默认页面布局调整

SAR日志分析

OAuth是一个关于授权（authorization）的开放网络标准，在全世界得到广泛应用，目前的版本是2.0版。本文对OAuth 2.0的设计思路和运行流程，做一个简明通俗的解释，主要参考材料为R

WebService中注解开发，CXF，Spring整合，Rest风格

2019考研英语一 Text1分析

windows下安装docker详细步骤

CentOS 7/6系统升级内核版本到5.2.2

每日归档

更多

2024-08-05(0)

2024-08-04(0)

2024-08-03(0)

2024-08-02(0)

2024-08-01(0)

2024-07-31(0)

2024-07-30(0)

2024-07-29(0)

2024-07-28(0)

2024-07-27(0)