数据科学库-day2

1 pandas两个常用数据类型:series和dataframe

2 创建一个series

    s=pd.Series([1,2,np.nan,8])

3 创建一个dataframe

    通过数列创建:

dates=pd.date_range(‘20130301’,periods=6)

                  df=pd.DataFrame(np.random.randn(6,3),index=dates,columns=’ABC’)

    通过字典创建:

df2=pd.DataFrame({‘A’:1,

‘B’:pd.Timestamp(‘20130301’),

‘C’:pd.Series(1,index=list(range(4)),dtype=’float32’),

‘D’:np.array([3]*4,dtype=’int32’),

‘E’:’foo’})

4 查看数据(以df2为例说明)

    查看前n行:df2.head(n)

    查看尾部n行:df2.tail(n)

    查看值:df2.values

    查看统计描述:df2.describle()

    转置:df2.T

    按列的倒序排序:df2.sort_index(axis=1,ascending=False)\

    按某一列的值排序:df2.sort_values(by=’C’)

5 选择数据

    选择列:df2[‘A’]

    通过索引:df2.loc

    通过数字标签:df2.iloc[1,2]

布尔值索引:df2[df2[‘A’]>2]

6 缺失值处理

    df2.dropna(how=’any’)

    df2.fillna(value=5)

7 数学统计

    df2.mean(axis=0)

应用函数:df2.apply(np.consum)

数量统计:s.value_counts()

8 合并

    pd.concat([df1,df2,df3],axis=1)

9 增加行

    df2.append(s)

10 分组

    df2.group(‘A’).sum()

11 数据透视表

   pd.pivot_table(df2,value=’A’,index=[‘B’,’C’],columns=’D’)

12 时间序列

    t1=pd.date_range(‘1/1/2017’,periods=12,freq=’T’)

猜你喜欢

转载自www.cnblogs.com/zhuome/p/11595112.html