术语

样本空间(sample space)： $\Omega$ ，包含了所有可能出现的结果的集合。比如在掷一次骰子的样本空间可以用{1,2,3,4,5,6}表示。

事件集(event space): $F$ ，a collection of subsets of $\Omega$ ，用来表示出现的结果。事件集未必是样本空间中的单一元素，也可以是复杂元素。比如在掷一次骰子的样本空间中，可以用{1,3,5}表示结果为奇数的事件。

概率函数(probability function): $P$ ，该函数完成了从事件到该事件发生概率的映射。

概率法则

贝叶斯

A的先验概率(prior probability of A): P(A)

A的后验概率(posterior probability of an event A given B): P(A|B)
$\frac {P(B|A)P(A)} {P(B)}$

独立事件

事件 $A_1, A_2,\ ...\ , A_n$ 相互独立，当且仅当该事件集合的所有子集满足条件 $P(A_{i1}, A_{i2},\ ...\ , A_{ik}) = \prod_{j=1}^k P(A_{ij})$

最大后验概率

Maximum-a-posteriori (MAP)。

假设 $x, y$ 都是离散的。
$\hat y = f(x) = argmax_y p(y|x) \\\\ = argmax_y p(x|y)p(y) \\\\ = argmax_y p(x,y)$
假设 $x$ 是连续的， $y$ 是离散的。
$\hat y = f(x) = argmax_y p(y|x) \\\\ = argmax_y f(x|y)p(y)$
缺点

随机变量相互独立的假设通常不成立
训练集中未出现某个值的样本导致概率为0，可以通过smoothing解决

信息熵

对于每一个事件，我们从它的发生能够获取到的信息是 $log(\frac 1 {P(A)})$ 。这一个公式其实是符合我们的直觉。如果一个事件不常发生，那么当它发生的时候，透露的信息应该会比常见事件透露的信息更多。

信息熵的定义如下，
$-\sum_{i=1}^m p(x_i) log_2 p(x_i)$

随机变量

一般来说，我们使用大写字母表示随机变量本身，用对应的小写字母代表该变量的取值。

可以从CDF分辨一个随机变量是离散变量、连续变量、抑或是两者都不是。

在这里插入图片描述

离散变量

满足条件 $\in \mathcal X) = 1$ for some countable set $\mathcal X \sub R$ 。

离散变量可以被其概率质量函数充分说明。

概率质量函数

probability mass function (pmf)。定义 $\ \forall \ x \in X$ 。

性质：

$\ge 0$
$\sum_{x \in X} p(x) = 1$

我们常用记号 $\sim p(x)$ 来表示X的pmf是p(x)。

累积分布函数

cumulative density function (cdf)。定义 $\le x)$ 。

性质

$\ge 0$ ，且单调非递减
$lim_{x->\infty} F(x) = 1$ ， $lim_{x->-\infty} F(x) = 0$
$F (x)$ 是右连续的，即 $lim_{x->a^+} F(x) = F(a)$
$P(X=a) = F(a) \ - \ lim_{x->a^-} F(a)$

经典的离散变量

Bernoulli

$\ x \in \{0,1\}$

应用场景为投篮投进的概率。

Geometric

$p(x) = p(1-p)^x$

应用场景为抛硬币直到看到一次正面朝上的概率。

Binomial

$p(x) = C(n, k)*p^k(1-p)^{n-k}$

应用场景为连续抛n次硬币看到k次正面朝上的概率。

Poisson

$\frac {\lambda^x} {x!} e^{-\lambda}; \lambda > 0$

应用场景为在给定时间段内事件的数量。

Categorical

可以自己根据场景定义pmf。

连续变量

概率密度函数

probability density function (pdf)。定义 $\frac {dF(x)} {dx}$ 。

性质

$\ge 0$
$\int_{-\infty}^{\infty} f(x) dx = 1$ ，同理 $\le a) = \int_{-\infty}^{a} f(x) dx$
$\in A) = \int_{x \in A} f(x) dx$

我们常用记号 $\sim f(x)$ 来表示 $X$ 的pdf是 $f (x)$ 。

累积分布函数

与离散变量的CDF部分相同。

经典的连续变量

Gaussian

$\sim \mathcal N(\mu, \sigma^2)$
$\frac {1} {\sqrt{2\pi \sigma^2}} * e^{-\frac {(x-\mu)^2} { 2\sigma^{2}}}$

Logistic

$\sim logistic(\mu=0, s=0)$
$\frac {e^{-x}} {(1+e^{-x})^2}$

Uniform

$\sim U[a,b]$
$\frac 1 {b-a}; \ for \ a \le \ x \le b$

Exponential

$\sim Exp(\lambda); \lambda > 0$
$\lambda e^{-\lambda x}; \ x \ge 0$

Laplace

$\sim Lap(\mu, b); \ b > 0$
$\frac 1 {\sqrt{2b}} e^{-\frac{|x - \mu|} {b}}$

期望&方差&矩

期望

假设 $\sim p(x)$ ，则 $\sum_{x \in X} xp(x)$ 。容易得到 $\sum_{x \in X} g(x)p(x)$ 。

假设 $\sim f(x)$ ，则 $\int_{-\infty}^{\infty} xf(x)$ 。容易得到 $\int_{-\infty}^{\infty} g(x)f(x) dx$ 。

需要注意的是，期望是有可能发散的。比如 $x^{-2}; \ x \ge 1$ 的期望就是正无穷。

性质

线性， $E [a * g (X) + b * h (X) + c] = a * E [g (X)] + b * E [h (X)] + c$
可转换性，如果 $Y = g (X)$ ，那么 $E [Y] = E [g (X)]$

方差

方差 $v a r (X)$ ，有时候也用 $D (X)$ 表示。

$D[X] = E[(X - E[X])^2] = E[X^2] - (E[X])^2$ 。数学推导见下，
$\sum_{i=1}^n (x_i - \mu)^2 p_i \\\\ = \sum_{i=1}^n x_i^2 p_i - 2\mu \sum_{i=1}^n x_i p_i + \mu^2 \sum_{i=1}^n p_i \\\\ = \sum_{i=1}^n x_i^2 p_i - 2 \mu^2 + \mu^2 \sum_{i=1}^n p_i \\\\ = \sum_{i=1}^n x_i^2 p_i - \mu^2 \\\\ = E[X^2] - (E[X])^2$
性质

$D[ax+b] = a^2*D(x)$

矩

英文是moment，有时候被称为动差。

$i$ 阶矩被定义为 $E[X^i]$ ，可以发现一阶矩正好就是期望。0阶矩被定义为1。

概率的界限

Markov

假设 $X$ 是一个非负随机变量(RV)，那么对于任何非负的实数a有 $\ge aE[X]) \le \frac 1 a$

Chebyshev

假设 $X$ 是一个随机变量(RV)，那么对于任何实数 $a > 1$ ，有 $\ge a\sigma) \le \frac 1 {a^2}$ .

联合概率

假设iid， $p (x, y) = P (X = x, Y = y)$ ， $\sim p(x,y)$ 。

联合概率质量函数

边缘分布(marginals)可以表示成 $\sum_{y \in \mathcal Y} p(x, y)$

$X$ , $Y$ 相互独立<=> $\ \forall \ x \in \mathcal X, y \in \mathcal Y$

联合累积分布函数

$\le x, Y \le y) \ \forall \ x \in R, y \in R$

容易得到 $\le x, b < Y \le y) = F(b,d) - F(a,d) - F(b,c) + F(a,c)$ 。

性质

在x和y方向均不递减
$lim_{x->+\infty} F(x,y) = F(y)$

联合概率密度函数

$\frac {\partial^2 F(x,y)} {\partial x \partial y}$

计算 $X$ 的边缘联合概率质量函数(marginal pdf)： $\int_{-\infty}^{\infty} f(x,y) dy$

联合高斯

Jointly Gaussian。定义 $\rho$ 为关联系数(correlation coefficient)。

变量间的相互关系

协方差

covariance。用于衡量两个随机变量的联合变化程度。

$c o v (X, Y) = E [(X - E [X]) (Y - E [Y])] = E [X Y] - E [X] E [Y]$

如果两个变量相互独立，那么协方差是0。但是反之并不成立！如果两个变量的协方差是0，我们只能说这两个变量不相关，但是不能得出相互独立的结论。

在这里插入图片描述

上面这张图就是协方差为0但变量不相互独立的例子。

我们仔细观察可以发现，方差是协方差的一种特殊情况，是变量与自身的协方差。

$v a r (X + Y) = v a r (X) + v a r (Y) + 2 c o v (X, Y)$ 。

我们可以用方差的公式证明这一推论。
$var(X+Y) = E[(X+Y)^2] - (E[X+Y])^2 \\\\ = E[X^2] + E[Y^2] + 2E[XY] - (E[X+Y])^2 \\\\ = (E[X^2] - E[X]^2 + E[X]^2) + (E[Y^2] - E[Y]^2+ E[Y]^2) + 2E[XY] - (E[X+Y])^2 \\\\ = var(X) + E[X]^2 + var(Y) + E[Y]^2 + 2E[XY] - (E[X+Y])^2 \\\\ = var(X) + var(Y) + E[X]^2 + E[Y]^2 + 2E[XY] - (E[X]+E[Y])^2 \\\\ = var(X) + var(Y) + 2E[XY] + E[X]^2 + E[Y]^2 - (E[X]+E[Y])^2 \\\\ = var(X) + var(Y) + 2E[XY] - 2E[X][Y] \\\\ = var(X) + var(Y) + 2cov(X,Y)$
性质

对称性
$\ cov(X,Y)$

协方差矩阵

一个向量由多个随机变量组成（默认是列向量），用 $v$ 或者 $x$ 表示。

随机向量$ v $的协方差矩阵是所有RV对之间的协方差的矩阵。实际上，我们可以将其视为对单个RV的方差的扩展。

在这里插入图片描述

我们可以从定义出发进行推导得到一个推论，注意下面多处包含的是向量的外积：
$\Sigma_{v} = E[(v-\mu_v)(v-\mu_v)^T] \\\\ = E[vv^T - v\mu_v^T - \mu_vv^T + \mu_v\mu_v^T] \\\\ = E[vv^T] - E[v\mu_v^T] - E[\mu_v v^T] + E[\mu_v \mu_v^T] \\\\ = E[vv^T] - E[v]\mu_v^T - \mu_v E[v^T] + \mu_v\mu_v^T \\\\ = E[vv^T] - \mu_v \mu_v^T - \mu_v \mu_v^T + \mu_v\mu_v^T \\\\ = E[vv^T] - \mu_v \mu_v^T$
性质

对称性
半正定性

Reference

Probability and Information Theory in Machine Learning, ECE 601, Fall 2020, Matthew Malloy

机器学习基础专题：随机变量

术语

概率法则

贝叶斯

独立事件

最大后验概率

信息熵

随机变量

离散变量

概率质量函数

累积分布函数

经典的离散变量

Bernoulli

Geometric

Binomial

Poisson

Categorical

连续变量

概率密度函数

累积分布函数

经典的连续变量

Gaussian

Logistic

Uniform

Exponential

Laplace

期望&方差&矩

期望

方差

矩

概率的界限

Markov

Chebyshev

联合概率

联合概率质量函数

联合累积分布函数

联合概率密度函数

联合高斯

变量间的相互关系

协方差

相关

相关系数

协方差矩阵

Reference

猜你喜欢