随机打乱数据框DataFrame中行的顺序

数据框(DataFrame)是pandas中一种重要的数据结构,你可以将其想象为一个关系型数据表格,其中包含多个行和已命名的列。可以通过字典的方式创建DataFrame,示例代码如下:

import pandas as pd

city_names = pd.Series(['San Francisco', 'San Jose', 'Sacramento'])
population = pd.Series([852469, 1015785, 485199])

cities = pd.DataFrame({ 'City name': city_names, 'Population': population })

我们打印cities,可以看到DataFrame的内容如下:

print(citys)
       City name  Population
0  San Francisco      852469
1       San Jose     1015785
2     Sacramento      485199

下面进入本次介绍的主要内容。DataFrame有一个属性被称为index,该属性会向DataFrame的每一行赋一个标识符值。默认情况下,在构造DataFrame时,pandas会赋给每一行0,1,2,3··· 这样的索引值。而且索引值在创建后是稳定的,也就是说,它们不会因为数据重新排序而发生改变。

通过上面一番解释,我们就会明白索引值与相应行的内容在一开始就绑定好了,所以我们要想随机对行进行排序,只需要打乱索引值的顺序即可。我们可以这样做:

cities.reindex([2, 0, 1])

通过DataFrame的reindex方法实现改变行的排序。但是通过这种方法只能实现特定方式的排序,并不能任意打乱,要实现随机任意排序,还需要借助numpy中的 random.permutation 函数。

import numpy as np

cities.reindex(np.random.permutation(cities.index))

最后还需要注意一点,通过上面的命令只是输出了乱序之后的中间数据框,并非cities本身,要实现彻底改变cities本身的行排序,不要忘记还需要将乱序后的中间DataFrame赋值给cities,如下:

cities = cities.reindex(np.random.permutation(cities.index))

猜你喜欢

转载自blog.csdn.net/gaishi_hero/article/details/81433528