数据科学库-day2

1 pandas两个常用数据类型：series和dataframe

2 创建一个series

s=pd.Series([1,2,np.nan,8])

3 创建一个dataframe

通过数列创建：

dates=pd.date_range(‘20130301’,periods=6)

df=pd.DataFrame(np.random.randn(6,3),index=dates,columns=’ABC’)

通过字典创建：

df2=pd.DataFrame({‘A’:1,

‘B’:pd.Timestamp(‘20130301’),

‘C’:pd.Series(1,index=list(range(4)),dtype=’float32’),

‘D’:np.array([3]*4,dtype=’int32’),

‘E’:’foo’})

4 查看数据（以df2为例说明）

查看前n行：df2.head(n)

查看尾部n行：df2.tail(n)

查看值：df2.values

查看统计描述：df2.describle()

转置：df2.T

按列的倒序排序：df2.sort_index(axis=1,ascending=False)\

按某一列的值排序：df2.sort_values(by=’C’)

5 选择数据

选择列：df2[‘A’]

通过索引：df2.loc

通过数字标签：df2.iloc[1,2]

布尔值索引:df2[df2[‘A’]>2]

6 缺失值处理

df2.dropna(how=’any’)

df2.fillna(value=5)

7 数学统计

df2.mean(axis=0)

应用函数:df2.apply(np.consum)

数量统计:s.value_counts()

8 合并

pd.concat([df1,df2,df3],axis=1)

9 增加行

df2.append(s)

10 分组

df2.group(‘A’).sum()

11 数据透视表

pd.pivot_table(df2,value=’A’,index=[‘B’,’C’],columns=’D’)

12 时间序列

t1=pd.date_range(‘1/1/2017’,periods=12,freq=’T’)