可汗学院--统计学
学习内容 1
12-26集 统计学基本知识、二项及泊松分布
学习内容 2
27-34集 大数定律、正态分布
1、统计学基本知识
1.1 描述集中趋势的统计变量
均值:算术平均数,代表了这组数据的集中趋势,对这组数据有一定的代表性。
中位数:集合中的数据从小到大排列,中间的数就是中位数,比中位数大和小的数一样多,一般情况,中位数与平均数很接近。
众数:出现次数最多的数。
集合中,如果有离群值,中位数和众数更好描述数据的集中趋势。
1.2 总体与样本
概念 | 均值 | 方差 | 标准差 |
总体 | |||
样本 |
注意:样本的方差是除以n-1,因为随机选择的样本,与总体有差距,除以n-1,是让样本方差更接近总体方差,也是无偏样本方差。
概念 | 意义 |
均值 | 衡量数据的集中趋势,但均值损失了很多信息,不知道集合中的数字是接近改集中趋势,还是远离该集中趋势,因此需要引入离集中趋势的衡量方法 |
方差 | 相当于集合中每个数字与均值的距离平方和的平均值,每个数离均值的距离的平方就是方差,通俗来说,就是这些数据点离中间有多远。 |
标准差 | 方差的单位是平方,不够直观,标准差就是方差的开方,将单位转换成与均值同维度的单位。 |
2、二项分布
2.1 随机变量
随机变量与传统变量不一样,更像是从随机过程映射到数值的函数,习惯用X表示随机变量。X是随机的,该变量X可以任意取一个值
随机变量分为两种,分别是离散随机变量和连续随机变量。
随机变量 | 个数 | 概率分布函数 | 概率值 |
离散随机变量 | 有穷 | 直方图 | 可以求变量中的概率 |
连续随机变量 | 无穷 | 曲线 | 求面积的大小,只能求范围的概率,在连续值中,一点的概率是一条直线,概率为0,所以两点之间的概率才有意义 |
2.2 二项分布
在每次独立试验中只有取两个值,表示成功的值的概率为p,那么表示试验不成功的概率为1-p。这样一种判断成功和失败的二值试验又叫做伯努利试验。特殊地,当n=1的时候,我们把二项分布称为伯努利分布。
2.3 二项分布的期望值
E(X)=np
3、泊松分布
在一个特定时间内,某件事情会在任意时刻随机发生(前提是,每次发生都是独立的,且跟时间无关)。当我们把这个时间段分成非常小的时间片构成时,可以认为,每个时间片内,该事件可能发生,也可能不发生。几乎可以不考虑发生多于一次的情况(因为时间片可被分的足够小)。
参考 https://blog.csdn.net/hustqb/article/details/85217313
4、大数定律
设随机变量是一列互相独立的随机变量(或者两两不相关),并且分别存在期望,则对于任意小的正数有:
理解:随着样本数量n的增加,样本的平均数(总体中的一部分)将接近于总体样本的平均数,所以在统计推断中一般使用样本平均数估计总体平均数的值。
5、正态分布
若随机变量X服从一个均值为μ, 的正态分布,其中μ为均值, 为方差,则记为: