pandas数据分析读书笔记（二）

pd.isnull(df)，返回空的值为True，非空值为False

最常用的数据加载函数有：Read_csv()与read_table()

Pd.read_table(sep=)，如果是csv文件，也可以用read_table函数来读取，只是需要设定分隔符sep

Pd.read_csv(header = None, name)

header参数，当文件没有标题行时，可以设置这个参数为None

Names参数，读取文件时，可以指定列名

Index_col参数，可以指定某列为DataFrame的索引，也可以传入一个列表，则会做成一个层次化索引，也可以是编号

skiprows跳过文件的某行，比如skiprows[0, 2, 3]，则跳过文件的第一行、第三行和第四行

Parse_dates，将数据解析为日期，默认为False，如果为True，则尝试解析所有列

Nrows，需要读取的行数

skip_footer，需要忽略的行数，从文件末尾处算起

Chunksize，逐块读取文件，该参数用于指定块大小，返回的是一个迭代器，每次都根据chunksize读取一小块

Df.to_csv()，这个函数用于将数据写到一个csv文件中。

参数如下：

Na_rep，将空字符串表示为别的标记值

Index，是否写入索引

Header，是否写入列名

Columns，传入列名列表，可以指定列输出的顺序

Json库

Json.loads()，将json字符串转化为python形式

Json.dumps()，将python对象转换为JSON形式

Pd.read_json()，将json文件读取为DataFrame

Df.to_json()，将数据输出到json

Pd.read_excel(sheet_name = )，读取excel文件，sheet_name参数是读取哪个sheet页

Frame.to_excel(sheet_name)，将数据存储到excel文件中

Df.isnull()，返回一个只有True和False的df，如果df的值为空，则对应的为True

Df.notnull()，与isnull的反义词

Df.dropna(axis = 0, how = )，删除缺失值，如果是DdataFrame对象，那会删除含有空的行或者烈，默认是丢弃含有缺失值的行，当传入axis = 1时，删除有空的列，how=’all’只删除全部为空的那些行，

Df.fillna(value = , method=, inplace = , axis = 0, inpalce = False, limit)，填充缺失数据，可以通过method进行填充，可以用ffil和bfill，ffil是向前填充，bfill是向后填充，还可以传入一个字典，实现根据不同的列填充不同的值，还可以传入inplace参数为True，即对现有的对象进行本地修改，还可以传入平均数等等

Df.duplicated()，返回一个布尔型的Series，表示各行是否有重复行

Df.drop_duplicates()，删除重复的行，也根据某列获多列删除重复项，传入列名即可

pandas数据分析读书笔记（二）

猜你喜欢