分布分析: 是指根据分析目的,将数据(定量数据)进行等距或者不等距的分组,进行各组分布规律的一种分析方法。
案例:
import pandas
data=pandas.read_csv(
'D:\\DATA\\pycase\\5.3\\data.csv'
)
# 查看年龄的分布情况
import numpy
aggResult=data.groupby(
by=['年龄']
)['年龄'].agg({
'人数': numpy.size
})
# 分组查看
# bins 分组的划分数组
bins=[
min(data.年龄)-1,20,30,40,max(data.年龄)+1
]
# 分组的自定义标签
labels=[
'20岁以及以下','21岁到30岁','31岁到40岁','41岁以上'
]
data['年龄分层']=pandas.cut(
data.年龄,
bins,
labels=labels
)
# 根据年龄分层进行分布分析
aggResult=data.groupby(
by=['年龄分层']
)['年龄'].agg({
'人数': numpy.size
})
# 使用百分比的形式进行数据的展示
# 第一种
pAggResult=round(
aggResult/aggResult.sum(),
2,
)*100
# 第二种
pAggResult['人数'].map('{:,.2f}%'.format)