01.数据分析中的理论知识

一、常用的数据概念

  1. 集中趋势:数据聚拢位置的一种衡量
  2. 均值:常用来分析连续值、分布比较均匀的值的趋势
  3. 中位数:用来分析存在异常值的数据,例如某些值特别大或特别小
  4. 众数:用来衡量离散值的集中趋势
  5. 分为数:与其他几个值共同作用。含义:将数据从小到大排列,切分成等分的数据点。常用到的是四分位数
    • 四分位数的计算方法:
      • Q1的位置 = (n+1)*0.25
      • Q2的位置 = (n+1)*0.5
      • Q3的位置 = (n+1)*0.75
  6. 离中趋势:数据离散程度的衡量
  7. 标准差:值越大表示数据越离散,反之聚拢
  8. 正态分布:数据落在 -1倍标准差到+1倍标准差的概率是69%,-1.96到+1.96的概率是95%, -2.58到+2.58的概率是99%
  9. 数据分布:偏态与峰度
    • 偏态系数与峰态系数
      • 偏态系数:数据平均值偏离状态的衡量。值为正,是正偏(均值比较大)。值为负,是负偏(均值比较小)。相对于中位数或平均数
      • 峰态系数:数据分布集中强度的衡量。值越大,顶部越尖。值越小,分布越平缓。正太分布的峰态系数一般为3。⚠️可以用来直接拒绝正太分布的假设。
  10. 正太分布与三大分布
    • 卡方分布:几个变量都是标准正太分布(均值为0,方差为1),其平方和满足一个分布,则为卡方分布
    • t分布:正太分布的一个随机变量除以一个符合卡方分布分布的变量就是t分布。常用来根据小样本来估计成正态分布且方差未知的总体的均值。
    • f分布:是由两个服从卡方分布的随机变量的比构成的。
  11. 抽样理论 (数据量大,全量计算的成本大)
    • 抽样误差与精度
    • 抽样方法:完全随机抽样、等差距抽样、分类分层抽样
    • 重复抽样:有放回的抽样
    • 非重复抽样:无放回的抽样

二、代码实现

  1. 均值 : some_data.mean()
  2. 中位数:some_data.median()
  3. 分位数(四分位数):some_data.quantile(q=0.25)
  4. 众数:some_data.mode()
  5. 标准差:some_data.std()
  6. 方差:some_data.var()
  7. 求和:some_data.sum()
  8. 偏态系数:some_data.skew()
  9. 峰态系数:some_data.kurt()
  10. 正太分布:
    import scipy.stats as ss
    ss.norm
    // mvsk
    // m 均值
    // v 方差
    // s 偏态系数
    // k 峰态系数
    ss.norm.stats(moments='mvsk')
    // 卡方分布
    ss.chi2
    // t分布
    ss.t
    // f分布
    ss.f 
    
  11. 抽样(n 随机抽取10个):some_data.sample(n = 10)
  12. 抽样(frac 按照百分比抽样):some_data.sample(frac=0.001)
发布了131 篇原创文章 · 获赞 211 · 访问量 27万+

猜你喜欢

转载自blog.csdn.net/qq_26870933/article/details/103967352