置信度理解

作者：邹日佳
链接：https://www.zhihu.com/question/20183513/answer/15023786
来源：知乎
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

谢邀，这个是在接触统计学的时候非常容易把自己思路弄乱的问题，很抱歉这么晚才来回答。
在之后的时间也能更好地理解置信度的概念，想先把统计学的基本原理讲清楚。
要理解置信度，就要理解好置信区间。
要理解置信区间，就要从统计学最基本最核心的思想去思考，那就是
用样本估计总体。
在统计学中，非常容易把概念模糊化，很容易把95%置信区间理解成为在这个区间内有95%的概率包含真值。
但是这里有两个容易混淆的地方
1.真值只得是样本参数还是总体参数？
这个问题的答案是总体参数，我们取的数据是样本数据，点估计是样本参数的真实值，我们要估计总体参数。
2.95%的概率，变动的是谁？
在以后不常温习的情况下，这个问题容易造成困扰。这里95%的概率，变动的是置信区间。非常难以理解，用图来阐述一下：

错误理解：上图浅色的虚的竖直线代表样本参数真值，横的两端有端点的代表95%置信度的置信区间，100条竖直线里有95条左右落入这个区间内。
这是非常错误的理解，样本与总体的关系没有思考清楚。置信区间是估测总体参数的真值，这个值只有一个，且不会变动。

下图为正确理解：

样本数目不变的情况下，做一百次试验，有95个置信区间包含了总体真值。置信度为95%
其中大虚线表示总体参数真值，是我们所不知道的想要估计的值。正因为在100个置信区间里有95个置信区间包括了真实值，所以当我们只做了一次置信区间时，我们也认为这个区间是可信的，是包含了总体参数真实值的。

这样应该就能很好地理解了，遇到统计上的困惑时，多思考用样本估计总体这个核心思想，很多就能迎刃而解。

置信区间是频率学派的理论
简单来说，我们需要估计一个参数 $\theta$ ，手头有很多数据 $x_{1}, x_{2}, \ldots, x_{n}$ ，构造好了某个公式，用这些数据算出来 $\theta$ 的一个置信区间。
要着重强调的一点是：求置信区间的公式只会与样本有关，与 $\theta$ 是无关的！
也就是说，我们获得了一组样本，算出来置信区间；再换一组样本，算出来的置信区间是不一样的。
在这里， $\theta$ 是不动的，动的是置信区间。
置信度指的是：如果我们不厌其烦地抽样本算区间，得到了很多很多置信区间。那么在这些置信区间中，有95%的置信区间能覆盖到 $\theta$

至于说Bayes学派，另外有一个信仰区间。信仰区间只需要求一个，这个区间有95%的概率包含真值。

猜你喜欢