1.构造数组
import numpy
from pandas import DataFrame
df = DataFrame({
'data1':numpy.random.randn(5),
'data2':numpy.random.randn(5)
})
print (df)
#运行结果
data1 data2
0 2.080182 0.494148
1 -0.291509 -0.260024
2 -0.066761 0.793961
3 0.826279 1.269465
4 1.215479 -1.329569
2.比较数组的最值
2.1、比较所有列的最小值
- 当求df中的列最小值时,默认axis=0,可以忽略不写
df.apply(lambda x:min(x))#方法一
df.apply(lambda x:min(x),axis=0)#方法二
#运行结果
data1 -0.291509
data2 -1.329569
dtype: float64
2.2、比较所有行的最大值
- 当axis=1时,表示为所有行的数据
df.apply(lambda x:max(x),axis=1)
#运行结果
0 2.080182
1 -0.260024
2 0.793961
3 1.269465
4 1.215479
dtype: float64
3.比较数据
- 比较同一行数据中是否全部满足条件,全部满足条件时,返回True,否则返回False
df.apply(lambda x:numpy.all(x>0),axis=1)
#运行结果
0 True
1 False
2 False
3 True
4 False
dtype: bool
4.筛选出满足条件的数据
df[df.apply(lambda x:numpy.all(x>0),axis=1)]
#运行结果
data1 data2
0 2.080182 0.494148
3 0.826279 1.269465
5.去掉重复数据
5.1、导入数据
from pandas import read_csv
filename = "F:\\数据分析\\数据分析3\\章节4数据处理\\4\\4.3\\data.csv"
df = read_csv(filename,encoding="UTF-8")
print (df)
5.2、数据去重
df.drop_duplicates()
结果对比: