统计学术语总结

  • 描述统计
  • 概率分布
  • 假设检验

一、描述统计

1、分类数据:反映事物类别的数据,是离散数据。分类属性具有有限个不同值,值之间无序。
2、数值数据:可以测量、进行计算的数据。分类数据可以与数值数据进行转化,例如评价可以转化为分数。
3、算术平均数:即均值。优点反应灵敏、确定严密、简明易解、计算简单、适合进一步演算和较小受抽样变化的影响。缺点是易受极端值影响。
4、几何平均数:几何平均数是n个变量值连乘积的n次方根。几何平均数受极端值的影响较算术平均数小;主要用于对比率、指数等进行平均、平均发展速度、平均年利率等。
5、众数:一组数据中占比例最多的那个数。
6、中位数:中数是按顺序排列的一组数据中居于中间位置的数,对比均值常用于存在异常大或者异常小数据的情况下。
7、总体:研究对象的全部
8、样本:实际观测或调查的一部分个体
9、方差/标准差:样本中各数据与样本平均数的差的平方和的平均数叫做样本方差;样本方差的算术平方根叫做样本标准差。方差和标准差衡量数据的离散程度。方差或标准差越大,数据波动就越大。
总体方差:

11098258-62277c79d2e178d8.png

样本方差:
11098258-18313d88e03a097b.png

Excel中的总体方差公式为VAR.P( ),如果是样本方差,则为VAR.S( )。
Excel中,标准差的计算函数为stdev.p( ),如果是样本数据,则为stdev.s( )。
10、 离差:数据与均值的差,亦称“离均差”
11、 标准化:将数据按比例缩放,使之落入一个小的特定区间。在某些比较和评价的指标处理中经常会用到,去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权。(在多指标评价体系中,由于各评价指标的性质不同,通常具有不同的量纲和数量级。当各指标间的水平相差很大时,如果直接用原始指标值进行分析,就会突出数值较高的指标在综合分析中的作用,相对削弱数值水平较低指标的作用。因此,为了保证结果的可靠性,需要对原始指标数据进行标准化处理。)
方法一:规范化方法,也叫离差标准化,是对原始数据的线性变换,使结果映射到[0,1]区间。
11098258-593e03ef314e85b4.png

方法二:正规化方法,z-score标准化方法
11098258-1c65995ddcb3546a.png

方法三:归一化方法
11098258-ccaea5ff2d2aeb60.png

12、 四分位数: 将数据升序排列,位于第25%位置的叫做第一四分位数Q1,位于第50%位置的叫做第二四分位数Q2,即中位数,位于第75%的叫做第三分位数Q3。这三个点,能辅助衡量数据的分布状态。Excel中是=QUARTILE.INC($D$3854:$D$4188,1)
13、 箱线图
11098258-eb1a7287f0eeff79.png

异常值:异常范围内的值,在上下限之外的值
上限:非异常范围内的最大值。四分位距IQR=Q3-Q1,那么上限=Q3+1.5IQR
下限:下限是非异常范围内的最小值。下限=Q1-1.5IQR
上四分位数:四分位数的第三分位数Q3
中位数:四分位数的第二分位数Q2
下四分位数:四分位数的第一分位数Q1

二、概率分布

1、计数法则
组合:从n个不同元素中每次取出m个不同元素的组合数

11098258-78b7b06ac2e3a9a7.png

排列:从n个不同元素中取出m个不同元素的所有不同排列的个数
11098258-66aec3cf20273ba1.png

2、 独立事件:事件A是否发生对事件B发生的概率没有影响,P(AB) =P(A)P(B)
3、 条件概率
某个事件A发生的可能性受到另外一个事件B的影响,此时A发生的可能性叫做条件概率,记作P(A|B)。表明我们是在B条件已经发生的条件下考虑A发生的可能性,统计学中称为给定条件B下事件A的概率。
11098258-6d58bb1bb1835e06.png

11098258-6d35fa86431b3aae.png

相反,某一事件完全不受另外事件的影响则为独立事件。如果事件A和事件B相互独立,则P(A|B)=P(A)。
4、 贝叶斯定理
11098258-97eecf6de755f9fe.png

其中P(B)是先验概率,后验概率是条件概率
相当于知道结果求某个因素的概率,前提是知道每个因素可能的概率和在该因素下得出结果的概率。
5、 期望:每次可能结果的概率乘以其结果的总和,反映随机变量平均取值的大小。
6、 期望迭代法则
11098258-286eb8452360ec1c.png

Y的条件期望本身就是一个X的随机变量
7、 协方差
11098258-34e1a733d8753a28.png

:在概率论和统计学中用于衡量两个变量的总体误差。而方差是协方差的一种特殊情况,即当两个变量是相同的情况。
8、 概率密度函数:连续型随机变量,描述在某个确定的取值点附近的可能性的函数。而随机变量的取值落在某个区域之内的概率则为概率密度函数在这个区域上的积分。当概率密度函数存在的时候,分布函数是概率密度函数的积分。
9、 分布函数:取值范围[0,1],用以计算某区间上的概率,求导为概率密度函数
10、 二项分布:离散型概率分布。在每次试验中只有两种可能的结果,并且相互独立,与其它各次试验结果无关,则这一系列试验总称为n重伯努利实验,当试验次数为1时,二项分布服从0-1分布。P(ξ=K)= C(n,k) * p^k * (1-p)^(n-k),其中C(n, k) =n!/(k!(n-k)!)记作ξ~B(n,p)期望:Eξ=np;方差:Dξ=npq;一般规定当p<q且np≥5,或p>q且nq≥5,n很大时,二项分布可以近似为正态分布。N(np,npq)
11098258-bc1d396aa29db992.png

11、 泊松分布离散型概率分布。主要用于估计某事件在特定时间或空间中发生的次数。比如一天内中奖的个数,一个月内某机器损坏的次数等。x代表发生x次,u代表发生次数的数学期望,概率函数为:
11098258-97bb98d4d147ef9c.png

期望和方差相同,均为u。
12、 无理数e:自然对数的底数,约等于2.718281828。求值过程可以看做为无限次分段利率。
11098258-59993c210a8a8a46.png

13、 正态分布:连续性概率分布。若随机变量X服从一个数学期望为μ、标准差为σ的正态分布,记为N(μ,σ^2)。
11098258-cda51f85f70f23a3.png

一个正态分布的经验法则:
正态随机变量有69.3%的值在均值加减一个标准差的范围内,95.4%的值在两个标准差内,99.7%的值在三个标准差内。
标准正态分布:将数据标准化后的数据分布,此时μ=0,σ=1 。
11098258-86380a0997e67b1c.png

14、 双峰分布:是分布中的两个分数附近集中着较多的次数,以致次数分布曲线有两个隆起的峰,故名双峰分布。
15、 长尾效应,“头”(head)和“尾”(tail)是两个统计学名词。正态曲线中间的突起部分叫“头”;两边相对平缓的部分叫“尾”。从人们需求的角度来看,大多数的需求会集中在头部,而这部分我们可以称之为流行,而分布在尾部的需求是个性化的,零散的小量的需求。而这部分差异化的、少量的需求会在需求曲线上面形成一条长长的“尾巴”,而所谓长尾效应就在于它的数量上,将所有非流行的市场累加起来就会形成一个比流行市场还大的市场。
长尾理论对二八法则的挑战在于,只要存储和流通的渠道足够大,80%的非主流元素形成的“长尾”不是仅占20%的份额,而是更多,可能达到甚至超过50%。
16、 自由度:指的是计算某一统计量时,取值不受限制的变量个数。通常df=n-k。其中n为样本数量,k为被限制的条件数或变量个数,或计算某一统计量时用到其它独立统计量的个数。例如:若存在两个变量 a,b,a+b=6,那么他的自由度为1。因为其实只有a才能真正的自由变化,b会被a选值的不同所限制。估计总体的平均数时,由于样本中的n个数都是相互独立的,任一个尚未抽出的数都不受已抽出任何数值的影响,所以自由度为 n。
17、 卡方分布:若n个相互独立的随机变量ξ₁,ξ₂,...,ξn ,均服从标准正态分布(也称独立同分布于标准正态分布),则这n个服从标准正态分布的随机变量的平方和构成一新的随机变量,其分布规律称为卡方分布。期望为自由度v,方差为2v。随着自由度的增大,χ2分布向正无穷方向延伸(因为均值越来越大),分布曲线也越来越低阔(因为方差越来越大)。期望E(χ2)=n,方差D(χ2)=2n
11098258-9b3567aaf72829d4.png

卡方分布表是依据自由度和P值找对应的横轴刻度值χ2 值(区别于标准正态分布表是根据刻度值找概率)
11098258-1b41a8542f8b59c6.png

18、 t分布:假设X服从标准正态分布N(0,1),Y服从自由度为n的卡方分布,
11098258-831da3f5514f55a2.png
的分布称为自由度为n的t分布,t分布是正态分布的小样本形态(也就是如果某变量服从正态分布,当样本容量小于30或小于50时,该变量呈t分布)。期望 E(T)=0,方差 D(T)=n/(n-2),n>2,可用于总体方差未知时的样本均值区间估计。
19、 F分布:设X1服从自由度为m的χ2分布,X2服从自由度为n的χ2分布,且X1、X2相互独立,则称变量F=(X1/m)/(X2/n)所服从的分布为F分布。期望E(F)=n/(n-2),方差D(F)=[2n^2 (m+n-2)] / [m(n-2)^2(n-4)] (n>4)
三大抽样分布一般是指卡方分布(χ2分布)、t分布和F分布,是来自正态总体的三个常用的分布。卡方分布主要是主要是列联分析,F分布主要是方差分析,T分布主要是小样本分析.
20、 相关系数:数值数据和数值数据之间的关联程度。为两个变量之间的协方差和标准差的商:
11098258-5c48189432979207.png

皮尔逊相关系数常用英文小写字母r代表:
11098258-97da23597a95fbf4.png

21、 相关比:数值数据和分类数据之间的关联程度。
22、 克莱姆相关系数:分类数据和分类数据之间的关联程度。

三、假设检验

1.AB测试

为Web或App界面或流程制作两个(A/B)或多个(A/B/n)版本,在同一时间维度,分别让组成成分相同(相似)的访客群组随机的访问这些版本,收集各群组的用户体验数据和业务数据,最后分析评估出最好版本正式采用。

2.抽样

抽样是一种应对方法,通过抽样获得样本来推断总体,抽样结果是对相应总体特征的估计。例如AB测试,即选取一部分人群验证运营策略或者产品改进。

3.点估计

在统计学中,把总体的平均值标准差等称为总体参数,把样本的种种指标称为点估计量。s是样本标准差,σ是总体标准差。n是样本,N是总体。点估计在原有的符号上加横线表示(读bo)。样本均值可以近似认为等于总体均值
无偏估计:点估计量的期望值等于总体参数时,称为无偏估计
样本均值:

11098258-2f91a25be0f6378c.png

样本方差(注意这里的σy^2 是偏样本方差,纠正后为无偏样本方差s^2):
11098258-7f04c9c7fafc409a.png

对于估计概率时,根据统计学中的中心极限定理,当样本数足够时(n>30),抽样分布可近似于正态分布。
求足够样本时的概率问题,可以把问题转换成求标准正态分布的概率求解。
11098258-c7fab6528b0d3852.png

例如,已知抽取30位用户对产品进行打分,总体均值7.5分,总体标准差为1分,求取得样本低于7.3分的概率。由上述可得样本标准差为0.18,z = (7.3-7.5)/0.18 = -1.11。于是P(x<=7.3)=P(z<=-1.1) = 13.3%。
4、 抽样分布:
其实当我们抽样的时候,我们抽取的每个样本的均值、方差、比率,可能都是不同的,如果我们把抽取一个简单的随机样本看作一次试验,那么(x拔)就有期望、方差、标准差和概率分布了((x拔)的概率分布也就是(x拔)的抽样分布)
(x拔)的数学期望:
11098258-1b947d481adb843f.png

其中u是总体的期望
(x拔)的标准差:
当样本容量占总体5%以上时,有求样本均值的标准差公式如下:
11098258-33e96044dda176f8.png

当样本容量占总体5%以下时,公式可以简化成:
11098258-a0a363ff6e4d4640.png

其中n是样本容量,N是总体容量,σ是总体标准差,σ(x拔)是样本标准差
如果总体服从正态分布时:任何样本容量下的(x拔)的抽样分布都是正态分布。
总体不服从正态分布时:
a.中心极限定理:从总体中抽取容量为n的简单随机样本,当样本的容量额很大时,样本均值(x拔)的抽样分布近似服从正态概率分布。
b.其实在大多数的应用中,样本容量大于30时,(x拔)的抽样分布近似服 从正态概率分布

5.区间估计

点估计是用于估计总体参数的样本统计量,我们不可能通过点估计就给出总体参数的一个精确值,更稳妥的方法是加减一个边际误差,通过一个区间值来估计。代表某个参数有多大可能落在这个区间内,其中多大可能称为置信水平,区间称为置信区间。置信区间越大置信水平越高。
主要是总体均值的区间的估计,分σ已知和未知的情况:
1)σ已知,使用z分布,要利用总体标准差σ计算边际误差:
举例:顾客购物消费额根据历史数据,σ=20美元,并且总体服正态分布。现在抽取n=100名顾客的简单随机样本,其样本均值(x拔)=82美元。求总体均值的区间估计
总体服从正态分布,所以样本均值的抽样分布也是正态分布。根据σ=20美元,得出

11098258-7d2d2c3c1b74c71b.png

所以x拔的抽样分布服从标准差为σ(x拔)=2的正态分布,任何正态分布的随机变量都有95%的值在均值附近加减1.96个标准差以内,σ(x拔)=2,(x拔)所有值的95%都落在
11098258-d29ce13ad14611d0.png

所以u的区间估计是(78.08,85.92),其中这个区间是在95%置信水平下建立的,置信系数为0.05。区间(78.08,85.92)为95%的置信区间。
z分布总体均值的区间估计公式(前提:已知总体标准差和样本个数):
11098258-2b70fe18425951fa.png

Zσ/2为置信水平的临界值,例如:随机变量都有95%的值落在均值附近1.96个标准差以内。其中临界值为1.96,置信水平为95%。
2) σ未知,使用t分布,要利用总体标准差σ计算边际误差:
由于σ未知,所以总体是否为正态分布未知,这里引入t分布进行估计,自由度越大,t分布与标准正态分布的差别越小;t分布的均值为0;
t分布总体均值的区间估计公式(前提:已知样本标准差和样本个数):
11098258-413c1542b554d409.png

举例:假设样本个数为200,样本均值7.5,样本标准差2,求总体均值的置信区间,求t分布的临界值需要自由度和置信水平两个参数。自由度=样本量-1,案例中的自由度为199,然后使用Excel的TINV( )函数计算,当置信水平为95%时,TINV(0.05,199)=1.97。代入公式:
11098258-0779aa7d04087b3e.png

得到区间[7.22,7.77],意思是在总体标准差未知的情况下,可以通过样本均值7.5和标准差2计算总体均值有95%的概率落在7.22~7.77之间。

6.假设检验

假设检验是对总体参数做一个尝试性的假设,该尝试性的假设称为原假设,然后定义一个和原假设完全对立的假设叫做备选假设。假设检验就是通过样本数据对两个对立假设进行检验。
主要是针对总体均值进行检验,分σ已知(正态分布)和未知情况(t分布)
① 确定假设和检验水平:H0,原假设;H1:备择假设;检验水准用α表示,α一般取0.05
② 确定检验统计量:指确定样本服从哪种分布,使用哪种检验方法,以及是否对统计量进行标准化;
③ 确定拒绝域:有单尾检验和双尾检验,确定是哪种情况,以便于后续对比p值和显著水平


11098258-ed62ff41856699d8.png

11098258-9051244db5426b88.png

④确定P值:通过统计量及相应的界值表来确定P值(样本情况对应的概率);
⑤推断结论:如P>α,则接受H0,差别无统计学意义;如P≤α,则拒绝H0,差别有统计学意义.
举例:
质检机构检查某品牌咖啡的标签上显示装有3磅咖啡,现在质检机构需要确定每罐咖啡的质量至少有三磅,以保证消费者权益。已知道σ=0.18,现在取得n=36罐咖啡组成一个随机样本,计算出(x拔)=2.92
解答:
1)首先我们明白想要的结果是证明u<3,所以就提出了原假设和备选假设如下:H0:u>=3;Ha:u<3
检验水平:其中我们在检验的过程允许以1%的可能性犯错误也即是 α=0.01
2)由于样本n=36,σ=0.18,所本均值的抽样分布是服从正态概率分布

11098258-6d82e11f97c8d80c.png

所以当(x拔)=2.92时,z=-2.67
3)因为原假设u是大于等于3的,所以我们就观察z小于或等于-2.69的值(左尾)
4)让p值等于检验统计值z小于或等于-2.69的概率;利用标准正态概率表,z=-2.69时,p值=0.0038
5)可以这样理解z小于或者等于-2.69的概率p=0.0038这一事件的发生概率是非常的小,又加上允许犯错的概率是0.01(也即是发生的概率是0.01结果是非常小的,我直接忽略了)。所以我们直接认为z小于或者等于-2.69这一事件太小以至于我们认为他是不发生的。所以我们拒绝了H0:u>=3这一假设。所以,在0.01的显著水平下有足够的统计证据拒绝H0
7、 假设检验中的两类错误:原假设实际上是正确的,但我们做出的决定是拒绝原假设,此类错误称为第一类错误。原假设实际上是不正确的,但是我们却做出了接受原假设的决定,此类错误称为第二类错误。
8、 求置信区间与假设检验的区别与联系
1、区别是:用统计量推断参数时,如果参数未知,则这种推断叫参数估计——用统计量估计未知的参数;如果参数已知(或假设已知),需要利用统计量检验已知的参数是否靠谱,此时的统计推断即为假设检验。
2、联系是:二者都利用样本的数据得到样本统计量,然后做出对总体参数的论断。
3、举例来说:推断全校学生(总体)的平均每天上网时间(参数)。
如果参数未知,要靠抽样的数据进行推断,此时进行的就是参数估计,用抽样得到的统计量——样本平均上网时间来估计全校学生平均上网时间。 (比如说3小时相当于点估计,2.5~3.5小时之间的可能性为95%相当于区间估计)
如果先前有人已得出得出论断,学生平均上网时间为5小时(参数已知),而你不知该参数可不可信,这时做的就是假设检验,通过样本得到的平均3小时的上网时间告诉你,先前关于总体的信息很可能是不靠谱的,无法通过检验。
9、

猜你喜欢

转载自blog.csdn.net/weixin_34306676/article/details/87429982