随机打乱数据框DataFrame中行的顺序

数据框(DataFrame)是pandas中一种重要的数据结构，你可以将其想象为一个关系型数据表格，其中包含多个行和已命名的列。可以通过字典的方式创建DataFrame，示例代码如下：

import pandas as pd

city_names = pd.Series(['San Francisco', 'San Jose', 'Sacramento'])
population = pd.Series([852469, 1015785, 485199])

cities = pd.DataFrame({ 'City name': city_names, 'Population': population })

我们打印cities，可以看到DataFrame的内容如下：

print(citys)

       City name  Population
0  San Francisco      852469
1       San Jose     1015785
2     Sacramento      485199

下面进入本次介绍的主要内容。DataFrame有一个属性被称为index，该属性会向DataFrame的每一行赋一个标识符值。默认情况下，在构造DataFrame时，pandas会赋给每一行0，1，2，3··· 这样的索引值。而且索引值在创建后是稳定的，也就是说，它们不会因为数据重新排序而发生改变。

通过上面一番解释，我们就会明白索引值与相应行的内容在一开始就绑定好了，所以我们要想随机对行进行排序，只需要打乱索引值的顺序即可。我们可以这样做：

cities.reindex([2, 0, 1])

通过DataFrame的reindex方法实现改变行的排序。但是通过这种方法只能实现特定方式的排序，并不能任意打乱，要实现随机任意排序，还需要借助numpy中的 random.permutation 函数。

import numpy as np

cities.reindex(np.random.permutation(cities.index))

最后还需要注意一点，通过上面的命令只是输出了乱序之后的中间数据框，并非cities本身，要实现彻底改变cities本身的行排序，不要忘记还需要将乱序后的中间DataFrame赋值给cities，如下：

cities = cities.reindex(np.random.permutation(cities.index))

随机打乱数据框DataFrame中行的顺序

猜你喜欢