我们创建一个DataFrame
import numpy as np
import pandas as pd
df = pd.DataFrame(np.arange(16).reshape(4,4),index=list('abcd'),columns=list('ABCD'))
In: df
Out:
A B C D
a 0 1 2 3
b 4 5 6 7
c 8 9 10 11
d 12 13 14 15
pandas中loc和iloc方法,loc是location,二者区分于i,即integer整数。
二者区分如下:
loc
works on labels in the index.iloc
works on the positions in the index (so it only takes integers)也就是 iloc方法只能使用数值作为索引
loc方法在选择列时只能使用字符索引
1.利用loc、iloc提取行数据
#提取第一行
df.loc['a']
df.iloc[0]
2. 利用loc、iloc提取列数据
#提取第一列
df.loc[:,['A']]
df.iloc[:,[0]]
3.利用loc、iloc提取指定行、指定列数据
#提取1,2行的3,4列
df.loc[['a','b'],['C','D']]
df.iloc[0:2,2:5]
4.利用loc根据某个条件提取行
#提取A列大于5
df.loc[df['A'] > 5]
#提取A列大于5且B列小于10
df.loc[(df['A'] > 5) & (df['B'] < 10)]
#同时这样也可提取数据所在的行
df[df['A'] > 5]
利用loc函数的时候,当index相同时,会将相同的Index全部提取出来,优点是:如果index是人名,数据框为所有人的数据,那么我可以将某个人的多条数据提取出来分析;缺点是:如果index不具有特定意义,而且重复,那么提取的数据需要进一步处理,可用.reset_index()函数重置index.