第3章概率第4章常见概率分布

一个样本点是试验中最基本的结果
组合法则(Nn)=N!/(n!(N-n)!)
事件的补集是指事件所有的不发生样本点Ac
概率的加法：p(AUB)=p(A)+p(B)-p(AnB)
1. 互斥事件：p(AUB)=p(A)+p(B)
条件概率：p(A|B)=p(AnB)/p(B)
乘法法则：p(AnB)=p(A)*p(B|A)=p(B)*p(A|B)
A和B互为独立事件：p(A|B)=p(A)
贝叶斯定理：如果有k个互斥且有穷的事件B1,B2...Bk，即B1+B2...+Bk=1和1个可以观测到的A
1. p(Bi|A)=p(BinA)/p(A)=p(Bi)*p(A|Bi)/(p(B1)*p(A|B1)+p(B2)*p(A|B2)+...p(Bk)*p(A|Bk))
*互斥是同一事件下必然不同的结果；独立是事件结果之间互不影响

随机变量是一个与试验随机结果有关的数值变量，每个样本点有且仅有一个数值
无论穷尽与否，只要为可数个数的值即离散型随机变量；取值为取件则为连续型变量
离散型随机变量的概率分布是每一个可能值的出现概率
1. u=E(x)=Σxp(x)
2. σ^2=E[(x-u)^2]=Σ(x-u)^2*p(x)
3. 离散型随机变量的概率规则符合切比雪夫法则和经验法则
二项分布的概率分布，随机有放回
1. p(x)=(nx)p^x*q^(n-x)
  1. p=1-q
2. 均值u=n*p
3. 方差σ^2=npq
泊松分布
1. p(x)=λ^x*e^(-x)/x!
2. u and σ^2 equal λ
超几何分布：随机无放回的抽取n个元素
1. p(x)=(rx)((N-r)(n-x))/(Nn)
  1. N总数；r总体成功个数；n抽样数；x抽样成功数
2. u=n*r/N
3. σ^2=r(N-r)n(N-n)/N^2(N-1)
连续型随机变量的概率分布可用一条平滑的曲线来表示，曲线也称为密度函数或频率函数
正态分布：钟形曲线

1. 标准正态分布即u=0和σ=1的正态分布
当离散型二项分布的n足够大时，正态分布是对其很好的近似；而二项分布是在x轴右侧为有意义的取值，即u±3*σ>0，才是良好的近似；
1. 连续校正中，z=[(a-0.5)-u]/σ
确定是否来自正态分布
1. 作图，是否像钟型
2. 计算取件是否为值个数特征比例：68%，95%，99.5%
3. 求IQR和S，IQR/S≈1.3，则近似正态分布
4. 作正态概率图normal Q~Q plot，正态分布的点近似落在y=x上
  1. 即数据的z分数和理论正态分布的数据点所在z分数
指数分布
1. 概率分布1/θ*e^(-x/θ)
2. u=θ
3. σ=θ

第3章 概率 第4章 常见概率分布