(1)基本统计
基本统计分析:又叫描述性统计分析,一般统计某个变量的最小值、第一四分位值、中值、第三四分位值、以及最大值。
常用的统计指标:计数、求和、平均值、方差、标准差;
描述性统计分析函数:describe();
常用的统计函数:
(2)分组分析
分组分析:是指根据分组字段,将分析对象划分成不同的部分,以进行对比分析各组之间的差异的一种分析方法;
常用的统计指标:计数、求和、平均值;
分组统计函数:
groupby(by=[分组列1,分组列2,...])
[统计列1,统计列2,...]
.agg({统计列别名1:统计函数1,统计列别名2:统计函数2,...})
参数说明:
by:用于分组的列;
中括号:用于统计的列;
agg:统计别名显示统计值的名称,统计函数用于统计数据;
(3)分布分析
分布分析:是指根据分析目的,将数据(定量数据)进行等距或者不等距的分组,进行研究各组分布规律的一种分析方法。
(4)交叉分析
通常用于分析两个或两个以上,分组变量之间的关系,以交叉表形式进行变量间关系的对比分析;
定量、定量分组交叉;
定量、定性分组交叉;
定性、定性分组交叉。
交叉统计函数:
pivot_table(values,index,column,aggfunc,fill_value)
参数说明:
values:数据透视表中的值;
index:数据透视表中的行;
columns:数据透视表中的列;
aggfunc:统计函数;
fill_value:NA值的统一替换。
返回值说明:
数据透视表的结果。
(5)结果分析
结果分析:是在分组的基础上,计算各组成部分所占的比重,进而分析总体的内部特征的一种分析方法;
axis参数说明:
0 按列运算;
1 按行运算。
数据框的外运算函数:
add 加
sub 减
multiply 乘
div 除
数据框的内运算函数:
sum 求和
mean 均值
var 方差
sd 标准差
(6)相关分析
相关分析(correlation analysis):是研究现象之间是否存在某种依存关系,并对具体有依存关系的现象探讨其相关方向以及相关程度,是研究随机变量之间的相关关系的一种统计方法。
相关系数:可以用来描述定量变量之间的关系。
相关分析函数:
DataFrame.corr();
Series.corr(other);
函数说明:
如果由数据框调用corr方法,那么将会计算每个列两两之间的相似度;
如果由序列调用corr方法,那么只是计算该序列与传入的序列之间的相关度。
返回值:
DataFrame调用:返回DataFrame;
Series调用:返回一个数值型,大小为相关度。