学习笔记

统计学习（统计机器学习）是关于计算机基于数据构建概率统计模型并运用模型对数据进行分析与预测的一门学科。
统计学习分类：
（1）监督学习（supervised learning）
（2）非监督学习（unsupervised learning）
（3）半监督学（semi-unsupervised learning）
（4）强化学习（reinforcement learning）
统计学习方法（三要素）：
（1）模型的假设空间（模型）
假设空间可以定义为决策函数的集合

$F = {f | Y = f (X)}$ $\mathcal{F}= \{f| Y = f(X)\}$
也可以定义为条件概率集合
$F = {P | P (Y | X)}$ $\mathcal{F} = \{P|P(Y|X)\}$
（2）模型选择的准则（策略）
（3）模型学习的算法（算法）
监督学习
从给定有限的训练数据出发，假设数据是独立分布的。而且模型属于某个假设空间，应用某一评价准则，从假设空间中选取一个最优的模型，使它对已给训练数据及未知测试数据在给定评价标准意义下有最准确的预测。
损失函数
（1）0-1损失函数

$L (Y, f (X)) = {\begin{cases} 1, & Y \neq f (X) \\ 0, & Y = f (X) \end{cases}$ $L(Y, f(X)) = \begin{cases} 1, &Y\neq{f(X)} \\ 0, &Y=f(X) \end{cases}$
（2）平方损失函数
$L (Y, f (X)) = (Y - f (X))^{2}$ $L(Y, f(X)) = (Y-f(X))^2$
（3）绝对损失函数
$L (Y, f (X)) = | Y - f (X) |$ $L(Y, f(X)) = \vert Y-f(X)\vert$
（4）对数损失函数
$L (Y, P (Y | X) = - l o g P (Y | X)$ $L(Y, P(Y|X) = -logP(Y|X)$
期望损失（风险函数）：理论上模型 $f(X)$ 关于联合分布 $P(X, Y)$ 的平均意义下的损失。

$R_{e x p} (f) = E_{P} [L (Y, f (X))] = \int_{X \times Y} L (y, f (x)) P (x, y) d x d y$ $R_{exp}(f) = E_P[L(Y, f(X))] \\ = \int_{\mathcal X \times \mathcal Y}L(y, f(x))P(x,y)dxdy$
经验损失（经验风险）：模型 $f(X)$ 关于训练集的平均损失。

$R_{e m p} = \frac{1}{N} \sum_{i = 0}^{N} L (y_{i}, f (x_{i}))$ $R_{emp} = \frac{1}{N} \sum_{i = 0}^N L(y_i, f(x_i))$
经验风险最小化（emprical risk minimization, ERM）:经验风险最小的模型是最优的模型。即求解最优化问题：

$min_{f \in F} \frac{1}{N} \sum_{i = 0}^{N} L (y_{i}, f (x_{i}))$ $\min_{f\in \mathcal F}\quad \frac{1}{N} \sum_{i = 0}^N L(y_i, f(x_i))$
当样本空间足够大时，经验风险最小化可以保证有很好地学习效果，但是，当样本容量很小时，经验风险最小化会产生“过拟合（over-fitting）”现象.
过拟合：是指学习时选择的模型所包含的参数过多，以致于出现这一模型对已知数据预测的很好，但对未知数据预测的很差的现象。
结构风险最小化：等价于正则化，是为了防止过拟合而提出的策略。在假设空间、损失函数以及训练数据集确定的情况下，结构风险的定义是：

$R_{s r m} = \frac{1}{N} \sum_{i = 0}^{N} L (y_{i}, f (x_{i})) + λ J (f)$ $R_{srm} = \frac{1}{N} \sum_{i = 0}^N L(y_i, f(x_i))+\lambda J(f)$
其中 $J(f)$ 为模型的复杂度。
结构风险最小化的策略认为经验风险最小的模型是最优的模型，即求解最优化问题：
$min_{f \in F} \frac{1}{N} \sum_{i = 0}^{N} L (y_{i}, f (x_{i})) + λ J (f)$ $\min_{f\in \mathcal F} \quad \frac{1}{N} \sum_{i = 0}^N L(y_i, f(x_i))+\lambda J(f)$
训练误差：模型 $Y=\hat f(X)$ 关于训练数据集的平均损失：

$R_{e m p} (\hat{f}) = \frac{1}{N} \sum_{i = 0}^{N} L (y_{i}, \hat{f} (x_{i}))$ $R_{emp}(\hat f) = \frac{1}{N} \sum_{i = 0}^N L(y_i, \hat f(x_i))$ ，其中 $N$ 是训练样本容量。
测试误差是模型 $Y = \hat f(X)$ 关于测试数据集的平均损失：

$e_{t e s t} = \frac{1}{N^{^{'}}} \sum_{i = 0}^{N^{^{'}}} L (y_{i}, \hat{f} (x_{i}))$ $e_{test} = \frac{1}{N^{'}} \sum_{i = 0}^{N^{'}} L(y_i, \hat f(x_i))$ ，其中 $N^{'}$ 是测试样本容量。
模型选择的方法：
正则化和交叉验证
泛化误差：如果学到的模型是 $\hat f$ ，那么用这个模型对未知数据预测的误差即为泛化误差。泛化误差反映了学习方法的泛化能力。

$R_{e x p} (\hat{f}) = E_{P} [L (Y, \hat{f} (X))] = \int_{X \times Y} L (y, \hat{f} (x)) P (x, y) d x d y$ $R_{exp}(\hat f) = E_P[L(Y, \hat f(X))] \\ = \int_{\mathcal X \times \mathcal Y}L(y, \hat f(x))P(x,y)dxdy$
生成模型：由数据学习联合概率分布 $P(X,Y)$ ，然后求出条件概率分布 $P(Y|X)$ 作为预测的模型，即生成模型：

$P (Y | X) = \frac{P (X, Y)}{P (X)}$ $P(Y|X) = \frac {P(X, Y)}{P(X)}$
典型的生成模型包括：朴素贝叶斯法和隐马尔可夫模型。
判别模型：由数据直接学习决策函数 $f(X)$ 或者条件概率分布 $P(Y|X)$ 作为预测的模型。典型的判别模型包括：k近邻法、感知机、决策树、逻辑斯蒂回归模型、最大熵模型、支持向量机、提升方法和条件随机场等。
生成模型与判别模型的特点：
生成方法可以还原出联合概率分布 $P(X, Y)$ ，而判别方法不能；
生成方法的学习收敛速度更快；
当存在隐变量时，仍可以用生成方法学习，而判别方法不能；
判别方法直接学习的是条件概率或决策函数，直接面对预测，往往学习的准确率更高；
判别方法可以对数据进行各种程度上的抽象、定义特征并使用特征，可以简化学习问题。

习题

1.1

模型：伯努利模型，即定义在取值为0和1的随机变量上的概率分布；
策略：极大似然估计和贝叶斯估计的策略都是对数损失函数；
算法：对经验风险求导，使导数为0；
定义随机变量 $X$ 为一次伯努利实验的结果，其中 $X \in \{0, 1\}$ ,并且

P {X = x} = {\begin{cases} θ & x = 1 \\ 1 - θ & x = 0 \end{cases}

$P\{X=x\} = \begin{cases} \theta & x = 1 \\ 1-\theta& x = 0\\ \end{cases}$
设

X = {X_{1}, X_{2}, \dots, X_{n}}

$X = \{X_1, X_2, \dots, X_n\}$ , 并且

X_{1}, X_{2}, \dots, X_{n}

$X_1, X_2, \dots, X_n$ 是独立同分布的。
（1）利用极大似然估计结果为1的概率
极大似然估计法认为参数是固定的，但可能由于一些外界干扰是使数据看起来不完全由参数决定，虽然存在误差，但只需在数据给定的情况下，选取概率最大的参数，即求得

P (θ | X)

$P(\theta|X)$ 最大的参数

θ

$\theta$ ,可形式化为：

\begin{matrix} (1) & \arg max_{θ} P (θ | X) \end{matrix}

$\arg\max_{\theta}P(\theta|X)\tag{1}$
由条件概率公式得：

\begin{matrix} (2) & P (θ | X) = \frac{P (X | θ) P (θ)}{P (X)} . \end{matrix}

$P(\theta|X)=\frac{P(X|\theta)P(\theta)}{P(X)}.\tag{2}$
由于在极大似然估计中假设

θ

$\theta$ 是确定的，所以

P (θ)

$P(\theta)$ 是一个常数，

P (X)

$P(X)$ 同样根据已有数据得到，也是确定的，所以公式（1）可简化为

\begin{matrix} (3) & \arg max_{θ} P (X | θ) \end{matrix}

$\arg\max_{\theta}P(X|\theta)\tag{3}$
由于

X_{1}, X_{2}, \dots, X_{n}

$X_1, X_2, \dots, X_n$ 独立同分布，则

\begin{matrix} (4) & P (X | θ) = \prod_{i = 1}^{n} P (X_{i} | θ) = θ^{k} (1 - θ)^{n - k} \end{matrix}

$P(X|\theta)=\prod_{i=1}^{n}P(X_i|\theta)=\theta ^k(1-\theta)^{n-k}\tag{4}$
对公式（4）取对数求解极大似然，得：

θ = a r g max_{θ} P (X | θ) = \frac{k}{n}

$\theta=arg\max \limits_\theta P(X|\theta)=\frac{k}{n}$

（2）利用贝叶斯估计结果为1的概率
在贝叶斯估计中假设 $\theta$ 是一个随机变量，且服从 $\beta$ 分布。因而， $P(\theta)$ 不是一个常量。则公式（2）分母不变，求分子最大即可。

\begin{aligned} θ & = a r g max_{θ} P (X | θ) \\ = a r g max_{θ} P (X_{1}, X_{2}, . . . X_{n} | θ) P (θ) \\ = a r g max_{θ} \prod_{i = 1}^{n} P (X_{i} | θ) P (θ) \\ = a r g max_{θ} θ^{k} (1 - θ)^{n - k} θ^{a - 1} (1 - θ)^{b - 1} \\ = \frac{k + (a - 1)}{n + (a - 1) + (b - 1)} \end{aligned}

$\begin{align*} \theta & = arg\max \limits_\theta P(X|\theta)\\ &=arg\max \limits_\theta {P(X_1,X_2,...X_n|\theta)P(\theta)} \\ &= arg\max \limits_\theta {\prod_{i=1}^{n}P(X_i|\theta)P(\theta)} \\ &=arg \max \limits_\theta {\theta^k(1-\theta)^{n-k}\theta^{a-1}(1-\theta)^{b-1}} \\ &=\frac{k+(a-1)}{n+(a-1)+(b-1)} \end{align*}$
通常a,b根据实际问题选定。
当

a = 1, b = 1

$a = 1, b = 1$ 时，

θ = \frac{k}{n}

$\theta = \frac{k}{n}$

1.2

模型是条件概率分布： $P_{\theta}(Y|X), \theta \in \mathbf R^n$
对数损失函数： $L(Y, P(Y|X)) = -logP(Y|X)$
经验风险为：

\begin{aligned} R_{e m p} (f) & = \frac{1}{N} \sum_{i = 1}^{N} L (y_{i}, f (x_{i})) \\ = \frac{1}{N} \sum_{i = 1}^{N} - l o g P (y_{i} | x_{i}) \\ = - \frac{1}{N} \sum_{i = 1}^{N} l o g P (y_{i} | x_{i}) \end{aligned}

$\begin{align*} R_{emp}(f)&=\frac{1}{N}\sum_{i=1}^{N}L(y_i,f(x_i)) \\ &=\frac{1}{N}\sum_{i=1}^{N}-logP(y_i|x_i) \\ &=-\frac{1}{N}\sum_{i=1}^{N}logP(y_i|x_i) \end{align*}$
最小化经验风险，即最大化

\sum_{i = 1}^{N} l o g P (y_{i} | x_{i})

$\sum_{i=1}^{N}logP(y_i|x_i)$
等价于最大化

\prod_{i = 1}^{N} P (y_{i} | x_{i})

$\prod_{i=1}^{N}P(y_i|x_i)$ ，即极大似然估计。

参考

[1] https://blog.csdn.net/liu1194397014/article/details/52766760

《统计机器学习》第一章学习笔记和习题

学习笔记

习题

1.1

1.2

参考

猜你喜欢