文章目录
Pandas介绍
Pandas是Python里分析结构化数据的工具集
基础是 numpy:高性能矩阵运算
图形库 matplotlib:提供数据可视化
ipython工具
使用命令行打开
Pandas核心数据结构
Series创建
Series是一维带标签的数组,数组里可以放任意的数据(整数,浮点数,字符串,Python Object)
基本格式:
s=pd.Series(data,index=index)
其中, index是一个列表,用来作为数据的标签。data可以是不同的数据类型:Python字典,ndarray对象,一个标量值。
Series对象的性质:
类ndarray对象,类dict对象,标签对齐操作。
DataFrame创建
DataFrame是二维带行标签和列标签的数组,可以是Excel表格、SQL数据库的表格、Series对象字典。它是Pandas中最常用的数据结构。
基本格式:
df=pd.DataFrame(data,index=index,columns=columns)
其中,index是行标签,columns是列标签,data可以为:一维numpy数组、list和Series构成的字典,二维numpy数组,一个Series,DataFrame对象。
1.创建一维日期
创建二维数组
2.创建字典
Pandas基础运算
查看元素
- 查看前几行的数据
直接查找数据的区间的方式效率较低
效率高的方式
- 查看某一列的数据
- 查看数据的行标签、列标签和属性
数据的转秩
排序
数据按行、列、具体的某一个标签排序
数值判断
数据中的元素进行数值判断
对数据进行拷贝和修改元素