两样本差异的统计学比较方法-假设检验

一：背景

这几天重新复习了一下以前经典的假设检验方法。包括之前使用excel来做一些简单的统计分析。

假设检验(hypothesis test)亦称显著性检验(significant test)，是统计推断的另一重要内容，

其目的是比较总体参数之间有无差别。假设检验的实质是判断观察到的“差别”是由抽样误差引起还是总体上的不同，

目的是评价两种不同处理引起效应不同的证据有多强，这种证据的强度用概率P来度量和表示。

二：假设检验步骤

假设任意给定两组数据，比如从两个样本抽样的一个特征。

想知道这两个样本的分布是否不同，有没有差别。

问题通常有两种解法，一个是参数检验，一个非参数检验。

如果数据的分布比较符合某些经典三大分布（t分布，f分布，卡方分布）的条件，采用第一种办法效果比较好，分为以下几个步骤

1.建立假设
2.求抽样分布
3.选择显著性水平和否定域
4.计算检验统计量
5.判定

如果不满足正态，独立，方差齐等前提，也不知道分布形式，可以采用非参检验。

当然满足参数检验条件的两组数据也可以使用非参检验，但是效果不如参数检验好。

三：参数检验方法示例

1：T检验

通过两个样本之差的分布去推断，两个样本数据应满足正态分布条件，还要相互独立，之所以叫t检验，是因为构建的统计量是t统计量，t统计量服从n1+n2-2个自由度的t分布，

小样本的情况下（n<=30），比较两个样本的均值是否显著差异。

原假设是没有差异，P<0.05，拒绝原假设，说明有差异。如果通过Levene F方法检验方差不齐，则需要用校正的t检验，或者用非参数方法处理。

excel (ttest)，spss，R (t.test()）都可以分析。

前提要先做正态性检验，但这一个问题可以有很多方法来处理，一个是画直方图，pp，qq，只是定性分析，还有其他的方法，像R里的shapiro.test，ks检验用的比较多。

2：方差分析

又分单因素，双因素，多因素，就是对一种目标，有一个变量或多个变量影响这该目标，比如亩产，有品种，肥力，灌溉等因素，哪个因素是主要影响因素呢？

使用方差分析需要满足（正态，方差齐）

通过方差分析，找到整体方差的主要来源，加入有3个因素，一般软件会自动处理单因素，双因素联合效应，三因素联合效应。

原假设是组间方差（同因素不同处理水平下）没差异，如果P<0.05，拒绝原假设，说明该因素的方差占了大部分整体方差来源，是显著影响因素。

如果一个因素种，有多个处理水平，也就是多重比较时，spss里使用tukey和lsd这两种比较检验方法较为常用，如果方差不齐，有Tamhane’s T2法选项处理。

3：卡方检验

用于列联表分析，当变量是一个分类变量时，统计的是频数，比如赞同的人数，一级，二级这种。

卡方检验可以用于正态性检验，独立性检验（比如说牛奶的质量是否与产地有关), 比较分类变量比例之间是否有显著差异（比如两个城市之间不同社会阶层的收入水平占比是否有差异）。

自由度是（R-1）*（C-1）

四：非参数检验方法示例

非参数检验主要不是用变量的值，二是用秩作为分析对象。

spss只要勾上四个选项，可以同时分析出结果。

1: U检验

2：KS检验：不仅可以检验单个总体是否服从某一理论分布，还能检验两个总体分布是否存在显著差异。

3：Moses极端反应检验

4：W检验