作者:禅与计算机程序设计艺术
1.简介
Pandas是一个开源的数据分析包,具有DataFrame数据结构,可以简单高效地处理表格型或结构化数据的特征。本文从数据预处理、数据清洗、数据可视化三个方面对pandas进行介绍。
2. 基本概念术语说明
DataFrame 数据框
数据框(DataFrame)是pandas中的一种数据类型,它类似于电子表格中的表格,包含多个不同列,每一列可以是不同的类型(数值、字符串、布尔值等),也可以包含一组数据。DataFrame中包含的行称之为索引(Index)。一般情况下,数据框中的索引是唯一标识每行的数据。每个数据框都有一个shape属性,表示有多少行和列。
import pandas as pd
data = {'name': ['Alice', 'Bob'],
'age': [25, 30],
'gender':['F','M']}
df = pd.DataFrame(data)
print(df)
name age gender
0 Alice 25 F
1 Bob 30 M
Series 序列
Series是pandas中的一种数据类型,它类似于一维数组,但拥有自己的索引(index),并且支持不同数据类型的存储。Series可以看成是一维的DataFrame。一个Series通常由单个列组成,并且可以通