1. 基本思想和原理:小概率事件
在一次观察或试验中几乎不可能发生的事情,叫做小概率事件;小概率事件在一次试验中发生的概率叫做显著性水平。
假设检验的基本思想和原理就是小概率事件,即观测小概率事件在假设成立的情况下是否会发生。一般把不能轻易接受的结论作为备择假设,需要有充分理由才能否定的结论作为原假设。
- 如果在一次试验中,小概率事件发生了,说明假设在一定显著性水平下不可靠,则有充分的理由拒绝原假设。
- 否,则只能说明没有足够的理由拒绝原假设,但是并不能说明假设是正确的。
假设检验可能会犯两类错误:
- 弃真错误( 错误):可控,具体做法是在做假设检验之前先指定一个 的具体数值,通常取0.05
- 纳伪错误( 错误)
2. T检验
T检验在运营效果分析中应用最多。T检验主要用以检验两组样本的均值相等的原假设。主要用于样本含量较小(例如n < 30),总体标准差σ未知的正态分布。T检验可分为单个样本T检验、独立样本T检验和配组样本T检验。
2.1 单个总体
例如初中生的体重的平均值与50KG之间的差异显著性的检验问题。
2.1.1 单个总体的参数检验:T检验
单样本T检验,主要用于检验单个变量的均值与指定的检验值之间是否存在显著性差异,再者,样本均值与总体均值之间的差异显著性检验,也属于单样本T检验.
2.2 两组独立样本
例如实验组和对照组的运营效果比较
2.2.1两组独立样本的参数检验:T检验
要求数据符合以下3条件:
- 两组观察值各自独立
- 每组观察值来自正态分布的总体
- 两个独立组的方差相等
2.2.2两组独立样本的非参数检验:Wilcoxon秩和检验
- 两组观察值各自独立
- 不要求每组观察值来自正态分布的总体
- 不要求两个独立组的方差相等
2.3 两组配对样本
例如运营前后的网站活跃度对比
2.3.1两组配对样本的参数检验:T检验
要求数据符合以下2条件:
- 每对观察值和其他对观测值之间相互独立
- 配对差值来自正态分布
2.3.2两组配对样本的非参数检验:Wilcoxon秩和检验
- 每对观察值和其他对观测值之间相互独立
- 配对差值不一定来自正态分布
3. 方差分析/F检验:T检验的扩展
方差分析/F检验主要用以检验三组或三组以上的样本的均值相等的原假设。
3.1 多个样本组的参数检验:方差分析
方差分析要求数据符合以下3条件:
- 每组观察值各自独立
- 每组观察值来自正态分布的总体
- 各组观察值具有同方差性
根据分析因素个数的不同,可以分为单因素方差分析和多因素方差分析。
单因素方差分析主要研究单个因素对目标变量的影响。其基本思想是将所有测量值间的总变异按照其变异的来源分解为多个部分进行比较,评价由某种因素所引起的变异是否具有统计学意义。例如针对多个样本组,都是从同样的总体中随机抽取的,只是随后的运营策略有所不同,比较运营后的行为指标有无明显差异的场景。
3.2 多个样本组的非参数检验:KW检验
Kruskal-Wallis检验,也叫H检验
- 每组观察值各自独立
- 每组观察值不一定来自正态分布的总体
- 各组观察值不一定具有同方差性
4. 卡方检验
卡方检验属于非参数检验,主要用于比较两个或两个以上的样本率(比例),以及对两个分类变量的关联性进行分析,其根本思想是比较理论频数和实际频数的吻合程度。
例如某公司根据用户属性将用户划分为5个不同群体,并从总体中提取5个群体的一些样本,分别针对各个群体在过去1个月内是否发生交易的记录做统计,现在想知道不同群体之间发生交易的比例是否有明显的差别。