01.数据分析中的理论知识

一、常用的数据概念

集中趋势：数据聚拢位置的一种衡量
均值：常用来分析连续值、分布比较均匀的值的趋势
中位数：用来分析存在异常值的数据，例如某些值特别大或特别小
众数：用来衡量离散值的集中趋势
分为数：与其他几个值共同作用。含义：将数据从小到大排列，切分成等分的数据点。常用到的是四分位数
- 四分位数的计算方法：
  - Q1的位置 = (n+1)*0.25
  - Q2的位置 = (n+1)*0.5
  - Q3的位置 = (n+1)*0.75
离中趋势：数据离散程度的衡量
标准差：值越大表示数据越离散，反之聚拢
正态分布：数据落在 -1倍标准差到+1倍标准差的概率是69%，-1.96到+1.96的概率是95%， -2.58到+2.58的概率是99%
数据分布：偏态与峰度
- 偏态系数与峰态系数
  - 偏态系数：数据平均值偏离状态的衡量。值为正，是正偏（均值比较大）。值为负，是负偏（均值比较小）。相对于中位数或平均数
  - 峰态系数：数据分布集中强度的衡量。值越大，顶部越尖。值越小，分布越平缓。正太分布的峰态系数一般为3。⚠️可以用来直接拒绝正太分布的假设。
正太分布与三大分布
- 卡方分布：几个变量都是标准正太分布（均值为0，方差为1），其平方和满足一个分布，则为卡方分布
- t分布：正太分布的一个随机变量除以一个符合卡方分布分布的变量就是t分布。常用来根据小样本来估计成正态分布且方差未知的总体的均值。
- f分布：是由两个服从卡方分布的随机变量的比构成的。
抽样理论（数据量大，全量计算的成本大）
- 抽样误差与精度
- 抽样方法：完全随机抽样、等差距抽样、分类分层抽样
- 重复抽样：有放回的抽样
- 非重复抽样：无放回的抽样

二、代码实现

均值 : some_data.mean()
中位数：some_data.median()
分位数(四分位数)：some_data.quantile(q=0.25)
众数：some_data.mode()
标准差：some_data.std()
方差：some_data.var()
求和：some_data.sum()
偏态系数：some_data.skew()
峰态系数：some_data.kurt()

正太分布：

import scipy.stats as ss
ss.norm
// mvsk
// m 均值
// v 方差
// s 偏态系数
// k 峰态系数
ss.norm.stats(moments='mvsk')
// 卡方分布
ss.chi2
// t分布
ss.t
// f分布
ss.f

抽样(n 随机抽取10个)：some_data.sample(n = 10)
抽样(frac 按照百分比抽样)：some_data.sample(frac=0.001)

猫哥的鱼库

发布了131 篇原创文章 · 获赞 211 · 访问量 27万+

私信关注

01.数据分析中的理论知识

一、常用的数据概念

二、代码实现

猜你喜欢