《统计思维-程序员数学之概率统计》学习笔记
2.描述性统计量
2.1 均值
如果有一个包含n个值的样本
,那么它们的均值
等于这些值总和除以值的数量:
2.2 方差
均值是为了描述集中趋势,而方差则是描述分散情况。
一组值的方差为:
其中 叫做离均差(deviation from the mean),因此方差为该偏差的方均值。
2.3 分布
数据的分布(distribution)描述了各个值出现的频繁程度。
表现分布最常用的方法是直方图(histogram),这种图用于展示各个值出现的频数或概率。
在python中,计算频数最简单方式就是用字典。给定一个序列t
:
hist={}
for x in t:
hist[x]=hist.get(x,0)+1
得到的结果是一个将值映射到其频数的字典。
例如,一个序列t=[1,2,3,2,4,2,3,4,5,4,5,6,3,4]
,得到的结果为:
{1: 1, 2: 3, 3: 3, 4: 4, 5: 2, 6: 1}
将得到的结果除以n
你,就可以把频数转换成概率你,这称为归一化
。
n=float(len(t))
pmf={}
for x,freq in hist.items():
pmf[x]=freq/n
归一化之后的直方图称为PMF(Probability Mass Functionn,概率质量函数),这个函数是值到其概率的映射。
直方图可以非常直观的展现数据的以下特征:
- 众数
- 分布的形状
- 异常值(outlier):远离众数的值