python学习笔记4_数据清洗与准备

一、处理缺失值

pandas使用浮点值NaN(Not a Number)来显示缺失值,并将缺失值称为NA(not available(不可用))。

NA常用处理方法:

dropna:根据每个标签的值是否是缺失数据来筛选轴标签,并根据允许丢失的数据量来确定阈值。

fillna:用某些值填充的数据或使用插值方法(如'ffill' 或'bfill')。

isnull:返回表明哪些值是缺失值的布尔值。

notnull:isnull的反函数。

1、过滤(data.dropna())

删除包含缺失值的行(默认):data.dropna()等价于data[data.notnull()],默认会删除包含缺失值的行

 

通过传入参数方式,可以

扫描二维码关注公众号,回复: 7799665 查看本文章

删除所有值均为NA的行:data.dropna(how=’all‘)

删除所有值均为NA的列 :data.dropna(axis=1,how=all)

 

 

保留包含一定数量的观察值的行:data.dropna(thresh=2)

2、补全(data.fillna())

二、数据转换

1、删除

2、转换

3、替代

三,字符串操作

1、字符串对象方法

2、正则表达式

3、向量化字符串函数

猜你喜欢

转载自www.cnblogs.com/dlp-527/p/11825672.html