之前看过这本书的前八章(是第8版,中文版,安德森著),但是没有认真做笔记,现在快速回顾一下,主要是复习一下重要概念和重要公式的推导:
一 数据和统计
1.1 统计学的方法是量化分析。
1.2 统计推断:利用样本数据来估计总体特征并进行假设检验。
二 描述性统计:表格法和图形法
2.1 汇总定性数据
描述频数(相对频数、频数百分比)分布:
柱状图、饼形图
2.2 汇总定量数据
频数分布图(将连续定量数据分组)、散点图、直方图、累积频数分布,累计曲线。
柱状图和直方图:对于定量数据来说,柱状图和直方图基本上是一样的,直方图各柱间没有间隔。
三 描述性统计:数值方法
既然是定量分析,就要懂得用数学语言来描述和沟通。
3.1 位置的度量:
均值(样本均值、总体均值),中位数、众数、百分位数、
3.2 变异程度的度量:
极差、四分位点内距(Q3-Q1)、方差(总体方差、样本方差)、标准差
3.3 相对位置的度量和异常值的检测
3.3.1z-分数:xi距离样本均值的标准差个数。
3.3.2切比雪夫定理:指出那些距离均值必定在某个特定标准差以内的数据项占总数的比例。
3.3.3 经验法则
切比雪夫定理的优点在于它适合任何分布的数据集。但当数据具有钟形分布时,可以用经验法则来度确定与均值的距离在某个特定的标准差个数以内的数据项所占百分比。
3.3.4 异常值检测
异常值并非要删除,但是必须引起注意。
3.4 探索性数据分析
3.4.1 五数概括法
3.4.2 箱型图
基于五数概括法。
3.5 两变量间关系的度量
3.5.1 协方差
两变量间线性关系的描述性度量。
对于变量xi,yi,他们的协方差定义:
相关系数与协方差相比好在前者不受量纲的影响。
3.5.2 相关系数
3.6 加权平均值和使用分组数据
四 概率论简述
概率是对一个事件发生的可能性的数值度量。
4.1 试验、计数法则和概率指派
概率指派古典法:
4.2 事件和它们的概率
4.3 概率的一些基本关系
4.3.1 事件的补(compliment of A)、交、并
记为:
4.4 条件概率
一个事件的概率往往收到相关事件是否发生的影响。
B事件发生已经发生时A事件发生的概率,记为:
4.4.1独立事件
事件A与事件B发生与否没有关系。
4.5 贝叶斯定理
根据先验的条件概率,来计算它的反条件概率。
贝叶斯定理是十八世纪基督教牧师托马斯贝叶斯创造的。
五 离散概率分布
5.1 随机变量
随机变量是对试验结果的数值型描述。
离散随机变量和连续型随机变量区别在于随机变量的可能值是连续的还是离散的。
5.2 离散概率分布
随机变量的概率分布描述了随机变量取不同值的概率。
5.3 数学期望和方差
5.4 二项概率分布
5.5 泊松概率分布
六 连续概率分布
6.1 均匀概率分布
对于连续型随机变量来说,某一点的概率值是没有意义的。随机变量的结果在某一区间内的概率才是有意义的。
6.2 正态分布
6.3 指数概率分布
七 抽样和抽样分布
无限总体和有限总体的区别主要在于,前者通常被定义为一个无限进行的过程。
八 区间估计
未完待续
对于学习来说,首先构造一课知识树是很重要的。