1.基本数据结构
基本的数据结构Series和DataFrame。
DataFrame数据用Numpy的array保存,可通过DataFrame.values查看原始数据
DataFrame的每一行和每一列都是一个Series
(1)创建
pd.Series([4,2,3,4])
pd.DataFrame([np.random.randn(6,4),columns=list('ABCD'))
(2)访问
df.iloc[0]
df.A
df.shape(属性)
头几行和后几行
df.head(3)
df.tail(2)
访问行索引和列索引
df.index
df.columns
统计信息
df.describe()
2.数据排序
(1)名称排序
df.sort_index(axis=1,ascending=False)
(2)数值排序
df.sort_values(by='B')
3.数据访问
(1)访问行
df[3:5]
(2)访问列
df[['A','B','D']]
(3)某个元素
df.loc[3,'A']
df.iloc[3,0]
(4)布尔
df[df.C>0]
(5)添加
df['TAG']=['cat','dog','cat','cat','cat','dog']
(6)分组统计
df.groupby('TAG').sum()
4.时间序列
5.数据可视化
6.文件读写
(1)保存
df.to_csv()
(2)读取
pd.read_csv('data.csv',index_col=0)