pandas空值(缺省/失值)处理方式---数据清洗

本文目录:
1.None和np.nan的区别?
2.pandas空值介绍;
2.1excel表格制造数据;
2.2读取数据;
2.3缺失值介绍、产生原因、分类、属性、形式:
3.人为制造空值

4.空值操作

1.None和np.nan的区别?

2.pandas空值的操作:

涉及函数:any、all;isnull()、notnull()、dropna()、fillna()、isna()
https://www.douban.com/note/714022352/

2.1excel制造数据

在这里插入图片描述

2.2读取数据

以下操作是在jupyter notebook下打开的,终端打开命令:jupyter notebook
在这里插入图片描述
2.3缺失值介绍、产生原因、分类、属性、形式:
1.缺失值是缺失的数据;
2.原因:
机械原因:数据收集或保存的失败造成的数据缺失;
人为原因:人的主观失误、历史局限或有意隐瞒造成的数据缺失,在市场调查中被访人拒绝透露相关问题的答案,或者回答的问题是无效的,数据录入人员失误漏录了数据;
3.分类:
完全随机缺失:数据的缺失是随机的,数据的缺失不依赖于任何不完全变量或完全变量;
随机缺失:数据的缺失不是完全随机的,即该类数据的缺失依赖于其他完全变量;
完全非随机缺失:数据的缺失依赖于不完全变量自身;
4.属性:
单值缺失:所有的缺失值都是同一属性;
任意缺失:缺失值属于不同的属性;
单调缺失:于时间序列类的数据,可能存在随着时间的缺失;
5.形式:None、np.nan、NaT;

发布了73 篇原创文章 · 获赞 24 · 访问量 2570

猜你喜欢

转载自blog.csdn.net/weixin_44943394/article/details/103888907