来源:http://study.163.com/course/courseMain.htm?courseId=1005232026
索引——
- 基本概念
- 连续变量的统计描述
- 分类变量的统计描述
- 正态分布
- 二项分布
- 参数估计与可信区间
- 假设检验
七、假设检验
1、做假设检验的目的:结果知规律,样本推总体
1.1 方法
参数估计:推估样本所在总体的特征。先判断是否正态分布,再求出均值、标准差值等。如:调查市场总容量与占有率等。
假设检验:对提出的总体假设进行分析判断,做出统计决策。
1.2 假设检验的应用价值:新品上市研究,如药物筛选研究
ps:药物新品研发流程
计算机分子模拟——实验室探针筛选——动物毒性实验——人体毒性实验——临床试验——上市后副作用监测
1.3 假设检验准备工作
(1)根据研究设计和资料的性质正确选择分析过程
(2)进行统计描述(集中趋势、离散趋势)和统计分析
集中趋势:均数、P50
离散趋势:标准差/方差、四分位数
分布特征
异常值及其他
2、假设检验的基本原理
2.1 例子
已知:现有样本均数58g,与总体均数60g不同
分析:误差可能性
其一,样本来自已知总体(即总体均值假定为60g),该差别为抽样误差。如抽样大多为56/57/59g等
其二,样本所来自的总体与已知总体不同(如:总体均值M=56/57/58/59g等),存在本质差异
为了识别这两种情况,于是做假设检验。
2.2 基础原理
2.2.1 小概率原理:即小概率事件在一次随机抽样中不会发生。
如:瞎猫碰到死耗子
2.2.2 基本思想:先建立一个关于样本所属总体的假设,考察在假设条件下随机样本的特征信息是否属于小概率事件,若为小概率事件,则怀疑假设成立有悖于样本提供的特征信息,因此拒绝假设。
实际上,若为小概率事件,则假设检验的结论就是错误的。
3、假设检验基本步骤
步骤一:提出对总体特征的假设。
统计学中假设有以下俩方面内容——
(1)检验假设,也称为原假设和无效假设,记为H0;
(2)备择假设:记为H1,与H0对立,非此即彼,当H0倍拒绝时供采用。
步骤二:确定检验水准,即确定拒绝H0时的最大允许误差的概率。
检验水准:用α表示,是指检验假设H0本来就成立,却根据样本信息拒绝H0的可能性大小,即α拒绝了实际上成立的H0的概率。
常用检验水准为α = 0.05
意义:在锁舌H0的总体中随机抽得一个样本,其均数比现有均数更偏离总体均数的概率不超过5%(类似考试中约定俗成60分为及格线)
4、一类错误,二类错误与检验效能
4.1 检验效能:H1是真的,实际拒绝H0的概率 = 1 - β ,成为power,又称为检验效能。
(在两种可能的结论中,往往希望得到的是拒绝H0的结论,所以检验效能不应当太低)
4.2 如何控制两种错误:
α 可以实现认为设定:希望“拒绝结论”更可信,则减小 α
β间接控制:增大样本量以减少标准误;放大α来减小β(推荐)
5、假设检验的注意事项
5.1 假设检验的单侧和双侧问题
双侧检验:不知道样本所在总体和假定总体的相应指标谁高谁低
单侧检验:在专业上可知所在总体的相应指标不可能更高于/更低于假定总体值,如:薯片一般总体为60g或者小于60g,不可能大于60g(大于60g也不会受到消费者投诉)
5.2 统计方法应当注意其适用条件
独立性(大多所要求):各个观察值之间相互独立,不能相互影响
正态性:要求样本取自正态总体
方差齐性:两样本所对应的总体方差相等
5.3 假设检验的结论不能绝对化:
本身就保留了错误的可能性
样本量导致的检验效能问题:
(1)样本量太小,导致检验效能不足,从而无法检验出可能存在的差异
(2)样本量太大,得出的有统计学意义的结论可能根本就没有实际意义
6、单样本 t 检验的基本原理(常见)
6.1 推断样本是否来自某已知总体,即要检验样本所在总体的均数是否等于一直的总体均数。
解决方法:
(1)采用小概率反证法原理,有两种假设——
H0:样本均数与(假定的)总体均数的差异完全是抽样误差造成的
H1:样本均数与总体均数的差异除抽样误差以外,也反映两总体均数确实存在差异
(2)先假设H0成立;显然,样本均数和假设总体均数之差就代表了偏差假设的程度
(3)再者,对这一差值进行标准化。
标准化基本方式:(差值除以样本均数离散程度)
在单样本情况下,样本的均数服从 t 分布;
这个被标准化的差值,即为本次检验的统计量。
由于该统计量服从t分布,可利用该分布得到相应的概率值,因此该方法被称为单样本t检验。
最终求得的P值表示从假设总体重抽出当前样本均数的概率的总和。
若P值太小(即小概率事件),则可怀疑假设不成立,从而拒绝H0;繁殖,我们不能拒绝H0,但也不好说接受它(尚不能认为有罪 ≠ 可确定无罪)。
6.2 单样本 t 检验适用条件
限制单样本 t 检验的是:强烈偏态分布,均数无法正确代表数据的集中趋势。
即,只要数据分布不是强烈偏态,一般都适用。
7、两样本 t 检验的基本原理
7.1 分析目的与假设
7.1.1 目的:推断两个样本是否来自相同总体(即检验两样本总体均数是否相等)
当服从正态分布时,总体只需两个参数就可以确定。
7.1.2 检验假设
无效假设H0:μ1=μ2(谬)
备择假设H1:μ1 ≠ μ2
检验水准:α = 0.05
7.2 基本原理:与单样本 t 检验相同
首先假设H0:量样本来自同一总体
当该总体服从正态分布时,就可以采用两样本 t检验来计算从该总体抽得这两个样本的概率为多少,从而做出统计推断。
7.3 适用条件
两样本t检验在推导过程中出了要求哦总体服从正态分布外,还要求两样本各自所在总体方差相同。
独立性:对结果影响较大,但一般没问题。
正态性:可通过直方图分组观察
方差齐性:对结论影响较大,需要进行方差齐性检验
7.3.2 适用条件不被满足时的处理方式
情况较轻:采用矫正 t 检验的结果
否则用变量交换使之满足条件
或者:非参数检验方法、贝叶斯推断方法、计算统计学方法(bootstrap抽样等)
8、卡方(X^2)检验的基本原理
8.1 适用:分类数据的统计推断
分类资料的分布是否符合假设,如:分类资料的分布是否符合假设,如色子是否均匀
两个率或两个构成比比较的卡方检验,如中低收入或中高收入组轿车应用的比率是否一样
多个率或多个构成比比较的卡方检验,如多个城市轿车拥有比率是否相同
分类资料的相关分析,如行变量或者列变量是否关联,或者计算类似相关技术的指标
模型是否和样本数据完美结合
H0:观察频数与期望频数没有差别
其原理为考察基于h0的理论频数分布和实际频数分布间的差异大小,据此求出相应概率值P。
8.2 例子:
(1)先算出理论轿车拥有概率
假设H0成立,则算出两样本的理论频数。此时轿车拥有概率的最佳估计值就是样本合计的轿车拥有比例。
(2)理论频数
如图:中低收入组拥有轿车的家庭的理论频数为87.1,中高收入组则为169.9
8.3 残差:残差可以表示某个单元格观察值与理论值的偏离程度。
设A代表观察频数,E代表理论频数,A与E只差称为残差。
如图:中低收入组的残差为:| 32 - 87.1 | = 55.1
8.4 残差平方和
(残差有正有负,相加后会彼此抵消)
因此,讲残差平方后求和,表示样本总的偏离无效假设的程度。
8.5 卡方统计量
残差的大小是相对的概念。如相对于期望聘书10时,20的残差非常大;但相对于期望频数为1000时,20的残差就很小。
卡方统计量:将残差平方除以期望频数再求和,以标准化观察频数与期望频数的差别。
当观察数与期望频数完全一致,卡方值为0;
频数与期望频数之间的差异与卡方值成正比。
卡方值的大小也和自由度有关。
卡方分布:
9、假设检验方法的软件实现
9.1 Excel
9.2 SAS
9.3 SPSS
描述统计/比较平均值/非参数检验子菜单
相关/回归子菜单
9.4 Python
9.5 R
10、常用假设检验方法的正确选择
10.1 确定假设检验方法的两大要素:
(1)研究设计:
成组设计:比较男性和女性对某电影的打分
配对设计(2个)/配伍设计(3个):受访者在三种候选包中选择最满意的一种
更加复杂的试验设计:拉丁方设计、均匀设计等
(2)变量类型
连续变量:两种促销方式的销量比较
有序变量:评价结果为优良中差的比较
无序变量:不同学校的毕业生择业去向比较
对自身总体进行推断
连续变量:单样本t检验。如:新样品评分是否达到基本要求
有序分类变量:秩和建议。如成绩优良中差的分布是否符合假定情况
无序分类变量:二项分布、卡方分布检验。筛子分布是否均匀;性别比例是否为假定数值
10.2
因变量——连续
单个自变量:二分类 t检验
成组t检验 促销活动对销量有误作用
配对t检验 培训前后销售额的比较
单个自变量:多分类 单因素方差分析
三种促销方式的销量比较
后续有两两比较问题
单个自变量:连续
相关分析:考察两量变量在数量上的依存关系
回归分析:考察一个变量对另一个变量影响程度的大小
多个自变量:分类变量为主 方差分析模型
便于两两比较
有多重图形帮助分析
自变量间可能有主次之分
多个自变量:连续变量为主 线性回归模型
本质上和方差分析模型灯架
可利用散点图、回归线等图形帮助解释
可用逐步发对自变量进行自动筛选
因变量——有序分类
当分类数较多时,可按照连续变量处理
单个自变量时:
二分类 秩和检验
多分类 秩和检验
连续 Logistic回归
多个自变量:
Logistic回归
判别分析
最优尺度分析
因变量——无序分类(含二分类)
单个自变量
二分类 卡方检验
多分类 卡方检验
连续 没有简单模型
多个自变量:
Logistic回归
判别分析
最优尺度分析
11、简单推断方法总结:
对连续因变量的统计方法是最全面的;
有序分类变量往往都近似当做连续型变量处理,或者退化成无序分类变量处理;
无序分类因变量一般用卡方检验,但结果粗糙,精细分析困难;
复杂的统计模型实际上是让各种变量在拟合时尽量向连续性变量靠拢(变量变换、概率评分)