python--学习笔记8 数据规整化,清理、转换、合并、重塑

合并数据集

pandas.merge可根据一个或多个键将不同的DataFrame中的行连接起来。

pandas.concat可以沿着一条轴将多个对象堆叠到一起。

combine_first可以将重复数据编接在一起,用一个对象中的值去填充另一个对象中的缺失值,有点像数据库中的全外连接。

数据集的合并(merge)或连接(join)运算时通过一个或多个键将行链接起来的。这些运算时关系型数据库的核心。

1 import pandas as pd
2 from pandas import DataFrame
3 
4 df1 = DataFrame({'key':['b','b','a','c','a','a','b'],'data1':range(7)})
5 df2 = DataFrame({'key':['a','b','d'],'data2':range(3)})
6 pd.merge(df1,df2 ,on ='key')

如果两个对象的列名不同,也可以通过 left_on,right_on来分别指定。

默认merge做的是Inner连接,也可以用 how='outer'取外连接,左外 'left' 右外 ' right '等。


轴向连接

连接 concatenation,绑定 binding 或者堆叠 stacking。Numpy有一个用于合并原始Numpy数组的concatenation函数:

猜你喜欢

转载自www.cnblogs.com/yzhnm/p/10307111.html