1 pandas两个常用数据类型:series和dataframe
2 创建一个series
s=pd.Series([1,2,np.nan,8])
3 创建一个dataframe
通过数列创建:
dates=pd.date_range(‘20130301’,periods=6)
df=pd.DataFrame(np.random.randn(6,3),index=dates,columns=’ABC’)
通过字典创建:
df2=pd.DataFrame({‘A’:1,
‘B’:pd.Timestamp(‘20130301’),
‘C’:pd.Series(1,index=list(range(4)),dtype=’float32’),
‘D’:np.array([3]*4,dtype=’int32’),
‘E’:’foo’})
4 查看数据(以df2为例说明)
查看前n行:df2.head(n)
查看尾部n行:df2.tail(n)
查看值:df2.values
查看统计描述:df2.describle()
转置:df2.T
按列的倒序排序:df2.sort_index(axis=1,ascending=False)\
按某一列的值排序:df2.sort_values(by=’C’)
5 选择数据
选择列:df2[‘A’]
通过索引:df2.loc
通过数字标签:df2.iloc[1,2]
布尔值索引:df2[df2[‘A’]>2]
6 缺失值处理
df2.dropna(how=’any’)
df2.fillna(value=5)
7 数学统计
df2.mean(axis=0)
应用函数:df2.apply(np.consum)
数量统计:s.value_counts()
8 合并
pd.concat([df1,df2,df3],axis=1)
9 增加行
df2.append(s)
10 分组
df2.group(‘A’).sum()
11 数据透视表
pd.pivot_table(df2,value=’A’,index=[‘B’,’C’],columns=’D’)
12 时间序列
t1=pd.date_range(‘1/1/2017’,periods=12,freq=’T’)