pd.isnull(df),返回空的值为True,非空值为False
最常用的数据加载函数有:Read_csv()与read_table()
Pd.read_table(sep=),如果是csv文件,也可以用read_table函数来读取,只是需要设定分隔符sep
Pd.read_csv(header = None, name)
header参数,当文件没有标题行时,可以设置这个参数为None
Names参数,读取文件时,可以指定列名
Index_col参数,可以指定某列为DataFrame的索引,也可以传入一个列表,则会做成一个层次化索引,也可以是编号
skiprows跳过文件的某行,比如skiprows[0, 2, 3],则跳过文件的第一行、第三行和第四行
Parse_dates,将数据解析为日期,默认为False,如果为True,则尝试解析所有列
Nrows,需要读取的行数
skip_footer,需要忽略的行数,从文件末尾处算起
Chunksize,逐块读取文件,该参数用于指定块大小,返回的是一个迭代器,每次都根据chunksize读取一小块
Df.to_csv(),这个函数用于将数据写到一个csv文件中。
参数如下:
Na_rep,将空字符串表示为别的标记值
Index,是否写入索引
Header,是否写入列名
Columns,传入列名列表,可以指定列输出的顺序
Json库
Json.loads(),将json字符串转化为python形式
Json.dumps(),将python对象转换为JSON形式
Pd.read_json(),将json文件读取为DataFrame
Df.to_json(),将数据输出到json
Pd.read_excel(sheet_name = ),读取excel文件,sheet_name参数是读取哪个sheet页
Frame.to_excel(sheet_name),将数据存储到excel文件中
Df.isnull(),返回一个只有True和False的df,如果df的值为空,则对应的为True
Df.notnull(),与isnull的反义词
Df.dropna(axis = 0, how = ),删除缺失值,如果是DdataFrame对象,那会删除含有空的行或者烈,默认是丢弃含有缺失值的行,当传入axis = 1时,删除有空的列,how=’all’只删除全部为空的那些行,
Df.fillna(value = , method=, inplace = , axis = 0, inpalce = False, limit),填充缺失数据,可以通过method进行填充,可以用ffil和bfill,ffil是向前填充,bfill是向后填充,还可以传入一个字典,实现根据不同的列填充不同的值,还可以传入inplace参数为True,即对现有的对象进行本地修改,还可以传入平均数等等
Df.duplicated(),返回一个布尔型的Series,表示各行是否有重复行
Df.drop_duplicates(),删除重复的行,也根据某列获多列删除重复项,传入列名即可