泛统计理论初探——浅谈基本统计指标

统计学习-基本统计指标

浅谈描述性统计指标
在我们对统计最早的认知中,描述性统计是我们最早接触的概念,甚至有些概念在小学就有学到。常见的统计描述指标比如:平均数、众数、中位数、方差、标准差、变异系数、偏度、峰度。理解这些指标对于初学者学习统计和理解数据都大有帮助。
从传统的结构型数据来看,其实数据类型有四种:定类数据、定序数据、定距数据、定比数据。为了方便解释上述描述性指标,我们在下文中使用的数据例子和阐述概念时,会默认使用定距、定比数据进行举例。
当我们在拿到一组干净的数据时,会对数据进行一个整体性的观察,以此来大致了解数据整体的性质,方便后续分析。比如平均数这一指标,该指标是计算所有数据在某一维度的平均值,比如学生的平均身高、老师的平均体重。这种指标会较好的刻画一组数据的平均值,给分析者一个平均值可以了解到这个群体的身高平均水平。但是平均值这个指标其实容易被极端值所影响,因为这种指标是计算整个群体的一个算术平均,即数值平均。比如某公司员工的薪水均值是100万,而实际上90%的员工收入只有20万左右,其实是公司高管的收入1000万,剩下的员工只是“被平均”。这个时候应该使用中位数指标进行计算,会得到一个较为合理的值,比如某公司员工的薪水中位数是22万,这个值是较为合理的。中位数这个指标是不会被极端值所影响的,因为它是将所以数据按某一维度进行排序,然后取排序中间的值得到的。中位数指标和平均数指标其实都是反映一组数据的中心度的指标,如果一组数据极端值较少或是没有极端值,那么使用平均数用来刻画中心度要比中位数更准确。反之,如果一组数据中有一定数量的极端值,那么使用中位数去刻画中心度要比平均数更稳健。
上述两个指标中位数和平均数在一些分类数据中往往无法使用,而众数这个指标在任何数据类型中均可以使用。因为众数是反映数据频率的指标,它本身想刻画的是在一组数据中,出现次数最多的样本。而这种指标在离散数据往往是通过频率直方图进行展示,在连续数据中则是通过区间分割数据后,再对区间的数据量进行统计,最后得到频率值,出现最高的频率对应的区间中心或样本即为众数。在互联网的场景中,众数经常被使用,比如大家最喜欢买的某款商品,网友最喜欢听的某首歌曲。在一些经济问题中,使用均值、中位数较多,众数使用较少。
在这里插入图片描述
其实中位数和平均数放在一起应用是可以判断数据分布的偏态,我们看到上述三个图中,左图是中位数等于平均数,即是一种对称分布,现实生活中这种完美的对称分布是较少的。而中间的图,是中位数小于平均数,即左偏,之前讲的公司员工薪水就是这类情况。最右边的图是中位数大于平均数,即右偏。
总的来说,了解数据的中位数和平均数以及众数对数据理解有帮助,分析者可以直观的得到数据的大致分布,但数据的离群性和稀疏度还需要通过标准差、变异系数、偏度、峰度等指标来衡量。中位数、平均数是一阶指标,这种指标是最直观,计算方式最便捷的指标,在这个指标的基础上,还可以继续构建其他的指标,即二阶、三阶指标。所以中位数、平均数是基础,数据从业者必须要深刻理解它们,在工作和学习中会经常使用到。

发布了23 篇原创文章 · 获赞 24 · 访问量 4513

猜你喜欢

转载自blog.csdn.net/qq_26727101/article/details/102963399