两样本差异的统计学比较方法-假设检验

一:背景

这几天重新复习了一下以前经典的假设检验方法。包括之前使用excel来做一些简单的统计分析。

假设检验(hypothesis test)亦称显著性检验(significant test),是统计推断的另一重要内容,

其目的是比较总体参数之间有无差别。假设检验的实质是判断观察到的“差别”是由抽样误差引起还是总体上的不同,

目的是评价两种不同处理引起效应不同的证据有多强,这种证据的强度用概率P来度量和表示。

二:假设检验步骤

假设任意给定两组数据,比如从两个样本抽样的一个特征。

想知道这两个样本的分布是否不同,有没有差别。

问题通常有两种解法,一个是参数检验,一个非参数检验。

如果数据的分布比较符合某些经典三大分布(t分布,f分布,卡方分布)的条件,采用第一种办法效果比较好,分为以下几个步骤

1.建立假设
2.求抽样分布
3.选择显著性水平和否定域
4.计算检验统计量
5.判定

如果不满足正态,独立,方差齐等前提,也不知道分布形式,可以采用非参检验。

当然满足参数检验条件的两组数据也可以使用非参检验,但是效果不如参数检验好。

三:参数检验方法示例

1:T检验

通过两个样本之差的分布去推断,两个样本数据应满足正态分布条件,还要相互独立,之所以叫t检验,是因为构建的统计量是t统计量,t统计量服从n1+n2-2个自由度的t分布,

小样本的情况下(n<=30),比较两个样本的均值是否显著差异。 

原假设是没有差异,P<0.05,拒绝原假设,说明有差异。如果通过Levene F方法检验方差不齐,则需要用校正的t检验,或者用非参数方法处理。

excel (ttest),spss,R (t.test())都可以分析。

前提要先做正态性检验,但这一个问题可以有很多方法来处理,一个是画直方图,pp,qq,只是定性分析,还有其他的方法,像R里的shapiro.test,ks检验用的比较多。

2:方差分析

又分单因素,双因素,多因素,就是对一种目标,有一个变量或多个变量影响这该目标,比如亩产,有品种,肥力,灌溉等因素,哪个因素是主要影响因素呢?

使用方差分析需要满足(正态,方差齐)

通过方差分析,找到整体方差的主要来源,加入有3个因素,一般软件会自动处理单因素,双因素联合效应,三因素联合效应。

原假设是组间方差(同因素不同处理水平下)没差异,如果P<0.05,拒绝原假设,说明该因素的方差占了大部分整体方差来源,是显著影响因素。

如果一个因素种,有多个处理水平,也就是多重比较时,spss里使用tukey和lsd这两种比较检验方法较为常用,如果方差不齐,有Tamhane’s T2法选项处理。

3:卡方检验

用于列联表分析,当变量是一个分类变量时,统计的是频数,比如赞同的人数,一级,二级这种。

卡方检验可以用于正态性检验,独立性检验(比如说牛奶的质量是否与产地有关), 比较分类变量比例之间是否有显著差异(比如两个城市之间不同社会阶层的收入水平占比是否有差异)。

自由度是(R-1)*(C-1)

四:非参数检验方法示例

非参数检验主要不是用变量的值,二是用秩作为分析对象。

spss只要勾上四个选项,可以同时分析出结果。

1: U检验

2:KS检验:不仅可以检验单个总体是否服从某一理论分布,还能检验两个总体分布是否存在显著差异。

3:Moses极端反应检验

4:W检验

 

猜你喜欢

转载自www.cnblogs.com/marszhw/p/12296854.html