一 写在前面的一些基础知识
在数理统计中,会经常看到随机变量的概念。
随机变量又分为:离散随机变量,连续随机变量。
举个简单的例子:一个停车场里停靠的车辆数量,属于离散随机变量,因为我们可以准确的说出数值来描述结果。一天中的每个小时里,停车场出入的车辆数目,因为这个变量是在不断变化的,不能很好的用一个确定的数值来描述这个问题,这个变量就是连续随机变量。
概率函数:假设离散随机变量x的所有取值为[1, 2, 3, 4, 5, 6], 概率函数 p = f (x), 当 x = 1 时, p = 1 / 6
概率分布函数:就是随机变量的值的分布,以及值对应的概率的分布,概率分布函数可以很直观的看到,一个随机变量哪些值被取到的概率大
连续型随机变量的概率函数叫作概率密度函数,连续型随机变量的分布函数,叫作概率密度分布函数。
二 假设检验的建立
在所有的假设检验的应用中,都包括搜集样本并利用样本结果提供下结论的依据。在确定原假设和备则假设时,关键的问题是考虑搜集样本的目的是什么,我们想要作出怎样的结论。
通常都是从备则假设开始,然后得到研究者希望支持的结论。
假设检验由原假设与备则假设组成
我们来举个例子:
某汽车在城市行驶的燃油效率是24英里/加仑,某产品研究小组专门设计了一新型燃油喷射系统来提高每加仑燃烧的效率,寻找统计依据作为结论:新型燃油喷漆系统比原有系统更好
原假设:u <= 24, 新型燃油系统的效率小于等于每加仑24英里
备则假设: u > 24, 新型燃油系统的效率大于每加仑24英里
第一类错误:原假设是正确的,我们接受了备则假设,却拒绝了原假设
第二类错误:备则假设是正确的,我们接受了原假设,却拒绝了备则假设
显著性水平:对于每加仑燃料行驶里程的假设检验,原假设 u <= 24,假设原假设为真是以等式的形式出现,u = 24,当作为一个等式的原假设为真时,犯第一类错误的概率被称为显著性水平。
在接纳一项新事物之前,希望通过研究来判定是否有统计依据支持我们得出新方法确实更好的结论,在这种情形下,通常将研究中的假设表述为备择假设。
三 步骤与流程
1 假设检验的步骤
提出原假设与备则假设
指定检验中的显著性水平
收集样本数据并计算检验统计量的值
2 P-值法
利用检验统计量的值计算P-值
如果P-值<= 显著性水平,则拒绝原假设
在应用中解读统计结论
3 临界值法
利用显著性水平确定临界值以及拒绝法则
利用检验统计量的值以及拒绝法则确定是否拒绝原假设
在应用中解读统计结论
四 区间估计与假设检验之间的关系
1 在总体标准差已知的情况下,总体均值的100(1 - a)%置信区间估计为:
2 总体均值的双侧假设检验中原假设和备择假设的形式如下:
:
:
式子中 为总体均值的假设值,假定我们构造总体均值的置信区间为:100(1 - )%, 在得到的全部的置信区间中,有100(1 - )%将包含总体均值,有100 %不包含总体均值,于是,每当置信区间不包含时,我们拒绝,那么我们在原假设为真()时以概率拒绝了原假设。显著性水平是当原假设为真时拒绝了原假设的概率。