01.数据分析中的理论知识
其他
2020-03-09 11:22:46
阅读次数: 0
一、常用的数据概念
- 集中趋势:数据聚拢位置的一种衡量
- 均值:常用来分析连续值、分布比较均匀的值的趋势
- 中位数:用来分析存在异常值的数据,例如某些值特别大或特别小
- 众数:用来衡量离散值的集中趋势
- 分为数:与其他几个值共同作用。含义:将数据从小到大排列,切分成等分的数据点。常用到的是四分位数
- 四分位数的计算方法:
- Q1的位置 = (n+1)*0.25
- Q2的位置 = (n+1)*0.5
- Q3的位置 = (n+1)*0.75
- 离中趋势:数据离散程度的衡量
- 标准差:值越大表示数据越离散,反之聚拢
- 正态分布:数据落在 -1倍标准差到+1倍标准差的概率是69%,-1.96到+1.96的概率是95%, -2.58到+2.58的概率是99%
- 数据分布:偏态与峰度
- 偏态系数与峰态系数
- 偏态系数:数据平均值偏离状态的衡量。值为正,是正偏(均值比较大)。值为负,是负偏(均值比较小)。相对于中位数或平均数
- 峰态系数:数据分布集中强度的衡量。值越大,顶部越尖。值越小,分布越平缓。正太分布的峰态系数一般为3。⚠️可以用来直接拒绝正太分布的假设。
- 正太分布与三大分布
- 卡方分布:几个变量都是标准正太分布(均值为0,方差为1),其平方和满足一个分布,则为卡方分布
- t分布:正太分布的一个随机变量除以一个符合卡方分布分布的变量就是t分布。常用来根据小样本来估计成正态分布且方差未知的总体的均值。
- f分布:是由两个服从卡方分布的随机变量的比构成的。
- 抽样理论 (数据量大,全量计算的成本大)
- 抽样误差与精度
- 抽样方法:完全随机抽样、等差距抽样、分类分层抽样
- 重复抽样:有放回的抽样
- 非重复抽样:无放回的抽样
二、代码实现
- 均值 :
some_data.mean()
- 中位数:
some_data.median()
- 分位数(四分位数):
some_data.quantile(q=0.25)
- 众数:
some_data.mode()
- 标准差:
some_data.std()
- 方差:
some_data.var()
- 求和:
some_data.sum()
- 偏态系数:
some_data.skew()
- 峰态系数:
some_data.kurt()
- 正太分布:
import scipy.stats as ss
ss.norm
// mvsk
// m 均值
// v 方差
// s 偏态系数
// k 峰态系数
ss.norm.stats(moments='mvsk')
// 卡方分布
ss.chi2
// t分布
ss.t
// f分布
ss.f
- 抽样(n 随机抽取10个):
some_data.sample(n = 10)
- 抽样(frac 按照百分比抽样):
some_data.sample(frac=0.001)
发布了131 篇原创文章 ·
获赞 211 ·
访问量 27万+
转载自blog.csdn.net/qq_26870933/article/details/103967352