数据分析入门之numpy数组数据大小比较与筛选去重

1.构造数组

import numpy
from pandas import DataFrame
df = DataFrame({
    'data1':numpy.random.randn(5),
    'data2':numpy.random.randn(5)
})
print (df)
#运行结果
      data1     data2
0  2.080182  0.494148
1 -0.291509 -0.260024
2 -0.066761  0.793961
3  0.826279  1.269465
4  1.215479 -1.329569

2.比较数组的最值

2.1、比较所有列的最小值

  • 当求df中的列最小值时,默认axis=0,可以忽略不写
df.apply(lambda x:min(x))#方法一

df.apply(lambda x:min(x),axis=0)#方法二
#运行结果

data1   -0.291509
data2   -1.329569
dtype: float64

2.2、比较所有行的最大值

  • 当axis=1时,表示为所有行的数据
df.apply(lambda x:max(x),axis=1)
#运行结果

0    2.080182
1   -0.260024
2    0.793961
3    1.269465
4    1.215479
dtype: float64

3.比较数据

  • 比较同一行数据中是否全部满足条件,全部满足条件时,返回True,否则返回False
df.apply(lambda x:numpy.all(x>0),axis=1)
#运行结果

0     True
1    False
2    False
3     True
4    False
dtype: bool

4.筛选出满足条件的数据

df[df.apply(lambda x:numpy.all(x>0),axis=1)]
#运行结果

	data1	data2
0	2.080182	0.494148
3	0.826279	1.269465

5.去掉重复数据

5.1、导入数据

from pandas import read_csv
filename = "F:\\数据分析\\数据分析3\\章节4数据处理\\4\\4.3\\data.csv"
df = read_csv(filename,encoding="UTF-8")
print (df)

5.2、数据去重

df.drop_duplicates()

结果对比:
在这里插入图片描述

发布了62 篇原创文章 · 获赞 25 · 访问量 9309

猜你喜欢

转载自blog.csdn.net/ayouleyang/article/details/103757741