LESSON 2
这一节课很简单,就是我们在中学中学习的均值,中位数,众数,这些概念主要是在上一节课中学到的数值数据这一分类中进行的。
下面把这些概念让我们再回顾一遍吧!
分析数值数据
数值数据的四个方面
分析数值数据有四个主要方面
- Center 集中趋势测量
- Spread 离散程度测量
- Shape 数据的形状
- Outliers 异常值
分析分类数据
尽管视频中并未讨论,但分析分类数据要考虑的部分较少。分类数据的分析方法通常是查看落入每个组的独立个体的数量或比例。例如,如果我们在看狗的品种,我们会关心每个品种有多少只狗,或者每个品种的狗的比例如何。
集中趋势测量
集中趋势测量的方式有三种:
Center 集中趋势测量:
- Mean 均值
- Median 中位数
- Mode 众数
均值
均值在数学中通常称为平均数或预期值。我们通过将所有值相加,然后除以数据集中所有测量值的个数来计算均值。如 1,4,6,7,2的均值为 4 .
中位数
中位数将我们的数据分为两部分,一半低于它,一半高于它。如何计算中位数取决于我们有偶数个还是奇数个观察值。
奇数个值的中位数
如果我们有奇数个观察值,中位数直接是中间的那个数字。例如,如果我们有 7 个观察值并按从小到大排列,则中位数是第四个值。如果我们有 9 个观察值,则中位数是第五个值。
偶数个值的中位数
如果我们有偶数个观察值,中位数是中间两个值的平均值。例如,如果我们有 8 个观察值并从小到大排列,则计算第四和第五个值的平均值。
要计算中位数,我们必须首先对值排序。
我们使用平均数还是中位数来描述数据集,很大程度上取决于我们数据集的 形状 以及是否有任何 异常值 。
众数
众数指一组数据中出现次数最多的数据值。
一个数据集中可能有多个众数,也可能没有众数。
无众数
如果数据集中的所有值出现的频数相同,则不存在众数。如果我们有一组数据集:
1, 1, 2, 2, 3, 3, 4, 4
则没有众数,因为所有观察值发生的次数相同。
多个众数
如果两个(或多个)数字出现的次数都是最多的,则有多个众数。如果我们有一组数据集:
1, 2, 3, 3, 3, 4, 5, 6, 6, 6, 7, 8, 9
其中有两个众数 3 和 6,因为这两个值都出现了三次,出现频率最高,而其他的值都只出现了一次。