置信区间:
置信区间是指由样本统计量所构造的总体参数的估计区间。在统计学中,一个概率样本的置信区间(Confidence interval)是对这个样本的某个总体参数的区间估计。置信区间展现的是这个参数的真实值有一定概率落在测量结果的周围的程度。置信区间给出的是被测量参数的测量值的可信程度,即前面所要求的“一个概率”。
样本均值和总体均值是不同的。一般来说,我们想知道一个总体平均,但我们只能估算出一个样本的平均值。那么我们就希望使用样本均值来估计总体均值。我们使用置信区间这一指标,试图确定我们的样本均值是如何准确地估计总体均值的。
例如,我们要估计一个地区男性的的体重,则需取一个样本,来算出样本的平均值,然后用平均值来估计这个地区的男性体重。
咱们今天要做的就是导入需要的程序包,生成样本值与样本均值,程序如下:
import numpy as np
import seaborn as sns
from scipy import stats
import matplotlib.pyplot as plt
#设置种子数,用于产生不同的随机数
np.random.seed(10)
#定义一些参数,同时假装不知道这些参数值
POPULATION_MU=64 #样本分布均值
POPULATION_SIGMA=5 #样本分布标准差
#从人口分布中获得我们需要的样本值
sample_size=10
heights=np.random.normal(POPULATION_SIGMA,sample_size)
print heights
mean_height=np.mean(heights)
print'sample mean:',mean_height
[70.65793252 67.57639487 56.27299854 63.9580875 67.10667987
60.3995722 65.32755793 64.54274263 64.02145715 63.12699895]
sample mean: 64.2990415407
程序当中可能有些小错误,正在慢慢改进,但不影响样本值和均值的求出,求出样本值与均值,下面需要求它与总体均值的相关性,具体求法请看明天更新。