pandas For working with tabular data.

作者:禅与计算机程序设计艺术

1.简介

Pandas是一个开源的数据分析包,具有DataFrame数据结构,可以简单高效地处理表格型或结构化数据的特征。本文从数据预处理、数据清洗、数据可视化三个方面对pandas进行介绍。

2. 基本概念术语说明

DataFrame 数据框

数据框(DataFrame)是pandas中的一种数据类型,它类似于电子表格中的表格,包含多个不同列,每一列可以是不同的类型(数值、字符串、布尔值等),也可以包含一组数据。DataFrame中包含的行称之为索引(Index)。一般情况下,数据框中的索引是唯一标识每行的数据。每个数据框都有一个shape属性,表示有多少行和列。

import pandas as pd

data = {'name': ['Alice', 'Bob'], 
        'age': [25, 30],
        'gender':['F','M']} 

df = pd.DataFrame(data) 
print(df)

              name  age gender
0          Alice   25      F
1            Bob   30      M

Series 序列

Series是pandas中的一种数据类型,它类似于一维数组,但拥有自己的索引(index),并且支持不同数据类型的存储。Series可以看成是一维的DataFrame。一个Series通常由单个列组成,并且可以通

猜你喜欢

转载自blog.csdn.net/universsky2015/article/details/132493543
今日推荐