使用pandas也可以画图
- plot方法
-data.cumsum().plot()
,plt.show()
- plot方法
pandas读取数据
- 常用的数据类型是 .csv,.h5(hdf5)
- 读取.csv文件:
pandas.read_csv(文件路径,sep=',', name=列索引名子(默认None),usecols=指定读取的列名(默认None))
- 读取.h5文件:
pandas.read_hdf(文件路径,key=读取的键,mode=打开的方式,**kwargs)
hdf5
- hdf5是一种文件类型,适合存储大量的数据,支持存储多个键值。特点是支持压缩,跨平台。
pandas保存文件
- 保存文件到.csv格式。
DateFrame.to_csv()
- 保存文件到.h5格式:
DataFrame.to_hdf()
- 保存文件到.csv格式。
pandas的数据处理
基本处理
- 缺失值
判断数据是否为nan:pd.isnull(),pd.notnull() 处理方式: 1.存在缺失值nan: 1.1:删除存在的缺失值:dropna(axis=‘rows’) 1.2:替换缺失值:fillna() 2.不存在缺失值nan 2.1先替换:df.replace() 2.2再进行缺失值的处理
- 日期
数据的离散化
- 数据的类型:连续型:在一个区间内可以无限划分;离散型:分成若干个类,每个类不能再划分
pd.get_dummies()
数据的合并
- 沿轴合并:
pd.concat
- 按照索引合并:
pd.join
- 按照指定列进行合并:
pd.merge
- 沿轴合并:
交叉表与透视表
- 交叉表:用于计算分组个数,寻找两个列之间的关系 .
pd.crosstab(value1, value2)
- 透视表:
DateFrame.pivot_table([],index=[])
- 交叉表:用于计算分组个数,寻找两个列之间的关系 .
数据的分组与聚合
- 分组:
DataFranme.groupby(by='')
- 分组后,可以用一些函数再将数据聚合起来:
- 函数有:count,sum,mean,median,std,var,min,max…
- 分组: