版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
一.描述性统计量
- 均值(描述集中趋势),中位数,众数
- 标准差,方差(描述分散趋势)
- 标准差是离均差(x-u)平方和平均后的方根,用σ表示。
- 标准差是方差的算术平方根。
- 方差是标准差的平方;
- 分布
- 数据的分布,它描述了各个值出现的频繁程度;
- 表示分布最常用的方法是直方图;
- 频数指的是数据集中一个值出现的次数;
- 概率质量函数PMF
- 这个函数是值到其概率的映射;
- 概率是频数除以样本数量;
- 借助PMF,可以更清晰地看出分布的差异;
- 归一化:将频数除以样本数量得到概率的过程;
- 异常值
- 远离众数的值叫做异常值;
- 相对风险
- 两个概率的比值,通常用于衡量两个分布的差异;
- 条件概率
- 依赖于某一个条件的概率
二.累积分布函数CDF
- 百分位数
举例:
标准化考试的成绩一般会以两种形式呈现:
- 原始分数
- 百分等级;
在这里,百分等级就是原始分数不高于你的人在全部考试人数中所占的比例再乘以100;
所以,如果你在90百分位数,那就说你比90%的人成绩好,或者至少不比90%的考试人员差;
- 累积分布函数
- CDF函数就是值到其在分布中百分等级的映射;
- CDF是x的函数,其中x是分布中的某个值;
计算给定x的CDF(x),就是计算样本中小于等于x的值的比例;
如果x比样本中最小值还要小,那么CDF(x)就等于0;
如果x比样本中的最大值还要大,那么CDF(x)就是1;- CDF是一个阶跃函数,分布中的每个值都有其对应的映射;