第1章-数据探索(4)-数据的统计分析

简介

数据探索的第二个部分就是统计分析部分了。

根据第四章的知识，我们知道对于特征子集的筛选，即对变量的筛选，我们有两个大角度，一个角度是从统计角度来看，一个角度是从机器学习算法的角度(正则化)来看。站在第二个角度的立场，我们是不用进行这么复杂的统计分析的，直接跑模型即可。那么接下来的内容，我们主要是站在第一个角度的立场来看问题，顺便了解一些统计方法。

统计分析又可以分为描述性分析以及推断性分析两个小部分。描述性的分析，往往是通过数据可视化实现的。而推断性统计分析，融合了抽样、概率、假设检验等统计学理论，根据样本来推断中体的特性。

站在第一个角度的立场，对于统计学习部分的回归模型与算法，一般都需要择优选取一些与目标变量相关性较高的变量作为主要变量。在筛选这些主要变量时，会需要经过一些推断性分析，尤其要对其概率分布做出严格的要求的模型；而对于机器学习、人工智能中的其他非统计学习部分的模型与算法，一般仅仅通过描述性分析即可。

接下来我将分别介绍描述性统计与推断性统计分析。

正文

1，概述

（1）数据类型

在统计分析中，变量可分为分类变量与数值变量两大属性的变量类型，如下图所示。在不同类型的变量之间，其分析方式、统计方法也会有所差异。

在这里插入图片描述

（2）分析场景

通常，我们会对每个变量进行单变量分析，单变量分析主要是描述性统计，以及验证分布的推断性统计。

然后在进行两两变量之间的分析，并确定变量间有无相互影响，包括了描述性统计与验证相关性的推断性统计分析方法。

于是就会出现下面的五种场景。针对不同的场景，我们也会有不同的分析方法。

单变量分析	单变量分析方法与目标	双变量分析	双变量分析的方法
方法	描述性统计 + 统计分布的正态性检验	分类变量与分类变量	列联表、拟合优度、关系系数
数值变量	比如，是否需要把数值变量进行分组	分类变量与数值变量	方差分析、回归分析
分类变量	比如，把黑吉辽三个省的变量合并为东北地区，是否更有利于分析	数值变量与数值变量	相关分析、回归分析

2，描述性分析

（1）用于单变量分析的指标

我们先来看看，单变量分析中，常用的三类指标，包括，集中趋势、离散趋势、偏度与峰度。这些指标，都能用来描述一组数据的分布情况的，并且可以评价不同组之间的情况。

比如射击运动中，A运动员射击10次平均得到8环，而B运动员射击10次平均得到9环。此处的平均即是集中趋势的一种体现，用一个指标来表示一组数据的平均水平。显然从平均成绩来看，B运动员要优于A运动员。

然而，如果A运动员的标准差要是比B运动员小的话，说明B运动员发挥不如A运动员稳定。而综合两个指标，就形成了新的指标，差异系数或变异系数 = 标准差/平均值。接下来我们详细介绍一下，这三类指标。

集中趋势

指标名称	定义	说明
算数平均数	一组数据的总和与个数之比	最常用，但是容易受到极端值的影响，且只适用于数值变量
中位数	一组数据按大小排序，正中间位置的值即中位数(数据个数是偶数时，取正中间两个数据的平均值)	不易受极端值的影响，且常与四分之一分为数，四分之三分位数一起使用，适用于数值变量以及分类变量中的有序变量
众数	一组数据中，出现次数最多的数据，即为众数	众数不唯一，且适用于数值与分类变量

离散趋势

指标名称	定义	说明
方差	$s^2=E((x-μ)^2)=\frac{1}{n}{[(x_1-\overline{x})^2+(x_2-\overline{x})^2+...+(x_n-\overline{x})^2]}$	方差与标准差都能反应一组数据的离散程度
标准差	$S = \sqrt{S^2}$
极差	最大值减去最小值	易受极端值影响
四分位距(IQR)	四分之三分位数减去四分之一分位数	较稳定
变异系数	标准差/均值	可以跨组比较离散情况，适用于数值型
离异系数	样本量减去众数出现的频数后，与样本量的比 $\frac{n-f_(mod)}{n}$	适用于名义变量
Gini-Simpson指数	$G-S = 1- \sum_{i=1}^n{p_i^2}$	每个变量 $p_i$ 出现的概率越平均，趋于相等，则离散程度越小，G-s值越小
熵	$H = - \sum_{i=1}^n{p_i*lnp_i}$	物理学、信息学概念

对于离散趋势很严重的变量，尤其是分类变量，往往需要进行部分分类的合并，否则会影响建模。同时，对于集中趋势很明显的数值变量，也可能需要分组才能发挥变量更好的作用，或者该变量将不会产生太大的作用，可以将其剔除。

偏度与峰度

指标名称	定义	说明
偏度	skew = $E(\frac{x-μ}{σ})^3$	skew > 0 右偏，skew < 0 左偏，skew = 0 正态分布
峰度	kurt = $E(\frac{x-μ}{σ})^4$	kurt > 3 厚尾，kurt < 3 瘦尾，kurt = 3 正态分布

偏度与峰度可以用来初步判断，一个变量是否符合正态分布。

（2）用于单变量或双变量分析的可视化图表

描述性分析中，图表有很多种，下面仅举出一些具有代表性的图表

分类变量：频数/频率表、条形图、饼图、帕里托图
数值变量：概率密度图、直方图、箱线图、散点图、折线图、QQ图

重点需要区分一下条形图与直方图：

条形图，在统计了不同分类变量个数的基础上，用宽度相同的条形的高度或长短来表示数据多少的图形。条形图可以横置或纵置，纵置时也称为柱形图。
直方图，在对连续性变量进行分组后，对于不同的组进行统计的基础上，再用柱形图来表示。所以，分组(也叫分箱)的宽度对于直方图来说很重要，当分组宽度趋向于无穷小的时候，直方图就变成了概率密度图。

3，推断性分析

（1）单变量正态性检验

无论是用指标—偏度与峰度，还是用描述性分析—直方图与QQ图，都是定性的分析来判断分布是否接近正态分布。

精确的统计推断，需要用到假设检验。

拟合优度(Chi-square)检验
Kolmogorov-Smirnov(KS) 检验
Shapiro-Wilk检验法

（2）双变量相关性检验-分类变量与分类变量

列联表卡方检验
秩相关检验

（3）双变量相关性检验-分类变量与数值变量

把数值型的变量分组转成分类变量

（4）双变量相关性检验-数值变量与数值变量

相关分析
卡方检验

上一节：第1章-数据探索(3)-数据预处理之R实现
下一节：第1章-数据探索(5)-数据的统计分析之Python实现

第1章-数据探索(4)-数据的统计分析

简介

正文

猜你喜欢