数据分析与挖掘建模实战-单因子探索分析与可视化

first
在这里插入图片描述

理论铺垫:

在这里插入图片描述

集中趋势(数据聚拢的衡量)
- 均值：连续值的中位数：异样值衡量集中趋势分位数：和其他几个值综合使用众数：离散值
  Q1 = (n+1) * 0.25
  Q2 = (n+1) * 0.5
  Q3 = (n + 1) * 0.75
离中趋势
$\sigma = \sqrt{\frac{1}{N}\sum_{i=1}^{N}(x_{i} - \mu)^{2}}$
$\sigma$ 越小表示数据越聚拢越大数据越离散
查看正态分布表
正态分布表
数据分布
- 偏态与峰度
- 偏态系数与峰态系数
  - 偏态:数据偏离正态的衡量偏:平均值的偏
  - 正常:中位数和均值将接近甚至相等但是数据不一定对称分布中位数和均值有差别
coefficient of skew: $S = \frac{\frac{1}{n}\sum_{i=1}^{n}(x_{i} - \bar{x})^{3}}{(\frac{1}{n}\sum_{i=1}^{n}(x_{i} - \bar{x})^{2})^{\frac{3}{2}}}$
S为正正偏表示均值偏大 - 负偏均值小
Kurtosis coefficient(峰态系数) 数据分布集中强度衡量一般是3 若有个分布相差>2 判断不是正态分布了: $K = \frac{\frac{1}{n}\sum_{i=1}^{n}(x_{i} - \bar{x})^{-4}}{(\frac{1}{n}\sum_{i=1}^{n}(x_{i} - \bar{x})^{2})^{2}}$
K方分布χ2分布：设 X1,X2,…Xn相互独立, 都服从标准正态分布N(0,1), 则称随机变量 $χ^{2}=X_{1}^{2}+X_{2}^{2}+......+X_{n}^{2}$ 所服从的分布为自由度为 n 的χ2分布
t分布：设X1服从标准正态分布N(0,1)，X2服从自由度为n的χ2分布，且X1、X2相互独立，则称变量t=X1/（X2/n）1/2 所服从的分布为自由度为n的t分布。
F分布 :设X1服从自由度为m的χ2分布,X2服从自由度为n的χ2分布，且X1、X2相互独立，则称变量F=(X1/m)/(X2/n)所服从的分布为F分布，其中第一自由度为m,第二自由度为n
抽样理论（全量检验无法实现
可以完全随机抽样等差距抽样分类分层抽样会有误差重复抽样不重复抽样
- 抽样误差与精度
  - 抽样平均误差计算公式:
  - 重复抽样(放回抽样): $\mu_{x} = \sqrt{\frac{\sigma^{2}}{n}}$ $\sigma$ :总体方差 N:总体个数 n:抽样个数
  - 不重复抽样 $\mu_{x} = \sqrt{\frac{\sigma^{2}}{n}(\frac{N - n}{N - 1})}$
  - 估计总体时抽样数目的确定:
  - 重复抽样: $n = \frac{Z_{\alpha/2}\delta^{2}}{\Delta^{2}}$
  - 不重复抽样: $n = \frac{NZ_{\alpha/2}\delta^{2}}{N\Delta^{2} + Z_{\alpha/2}\Delta^{2}}$
  - $\delta^{2}$ : 总体方差 $Z_{\alpha}$ : 取到标准差相对于正值的距离均值 + - 2 $\sigma$ 范围 $\Delta^{2}$ :需要控制的方差
example:
- 保证在 95.45% 2 - 2 $\mu_{x}$ ,2 + 2 $\mu_{x}$

exp2

无放回抽样

数据分析与挖掘建模实战-单因子探索分析与可视化

理论铺垫:

猜你喜欢