机器学习中的模型评估与度量

在机器学习中除了需要了解各种算法知识（如SVM、神经网络等），也需要了解是如何通过什么方式评估和度量模型的，从而选择最佳的模型。

1. 准备训练/测试集评估

如何评估一个模型的性能，当然是用数据来评估呢？那么用哪些数据评估模型呢？既把数据用作训练，同时又把这部分数据用作测试当然是不合理的，这会导致过高的估计模型的性能。测试数据要尽可能地与训练数据互斥。因此就需要将总量有限的数据划分为训练集和测试集两个互斥的集合，那么如何进行划分呢？

1.1 留出法

留出法简单粗暴，直接将数据集划分为两部分，一部分作为训练 $S$ ，一部分作为测试 $T$ ，在 $S$ 上训练模型，然后在 $T$ 上评估模型的泛化性能。对于一个样本，随机地将其划分其中一个数据集中，一般保持训练集占整个数据集的 $\frac{2}{3}-\frac{4}{5}$ ，那么测试占整个数据集的 $\frac{1}{5}-\frac{1}{3}$ 。另外，评估模型的稳定性，一般会多次使用留出法，进行多次训练和测试。

1.2 交叉验证法

交叉验证法把数据集 $D$ 划分为 $k$ 个互斥的子集（ $D_1,D_2,...,D_k$ ），则称为 $k$ 折交叉验证（通常取 $k=10$ ）。每次利用 $k-1$ 个子集作为训练集，另外一个子集作为测试集，从而完成 $k$ 次训练和测试，以 $k$ 次训练和测试的均值作为结果。在 $k$ 者交叉验证时，数据样本的划分是固定的，有时候为了避免样本划分的不同而引入误差，需要进行多次 $k$ 者交叉验证，比如实施10次10折交叉验证，那么就需要进行100次模型的训练和测试。

1.3 自助法

数据集 $D$ 包含 $m$ 个样本，自助法的流程如下：每次随机从 $D$ 中选择一个样本，复制到 $D^{'}$ 中（注意，该样本没有从 $D$ 拿出），重复执行 $m$ 次该操作，得到一个包含 $m$ 个样本的新数据集 $D^{'}$ ，再去掉 $D^{'}$ 中重复出现的样本。
某个样本在 $m$ 次的采样中，始终不被采到的概率是 $(1-\frac{1}{m})^{m}$ ，取极限得到

lim_{m \to + \infty} (1 - \frac{1}{m})^{m} \mapsto \frac{1}{e} \approx 0.368

$\begin{equation*} {\lim_{m \to +\infty}}(1-\frac{1}{m})^{m} \mapsto \frac{1}{e} \approx 0.368 \end{equation*}$

因此在新的数据集 $D^{'}$ 中约有36.8%的样本未出现。

2. 性能度量

有了测试集之后，使用什么指标来度量模型的好坏程度呢？不同的任务需求，会使用不同的性能度量指标，在回归和分类任务中，性能度量的指标也完全不一样。

2.1 回归问题的性能度量

回归问题的标记 $y_i$ 一般都是实值，不能通过是否相等进行评估。一般是通过衡量预测值 $f(x_i)$ 和真实值 $y_i$ 之间的距离。常用的评价指标有均方误差等。

平均绝对误差（mean absolute error, MAE）

M A E = \frac{1}{n} \sum_{i}^{n} | f (x_{i}) - y_{i} |

$\begin{equation*} MAE = \frac{1}{n} \sum_{i}^{n} \left| f(x_i) - y_i \right| \end{equation*}$

均方误差（mean square error, MSE）

M S E = \frac{1}{n} \sum_{i}^{n} [f (x_{i}) - y_{i}]^{2}

$\begin{equation*} MSE = \frac{1}{n} \sum_{i}^{n} [ f(x_i) - y_i ]^2 \end{equation*}$

均方根误差（root mean square error, RMSE）

R M S E = \sqrt{M S E} = \sqrt{\frac{1}{n} \sum_{i}^{n} [f (x_{i}) - y_{i}]^{2}}

$\begin{equation*} RMSE = \sqrt{MSE} = \sqrt {\frac{1}{n} \sum_{i}^{n} [ f(x_i) - y_i ]^2} \end{equation*}$

平均绝对百分比误差（mean absolute percentage error，MAPE）

M A E = \frac{1}{n} \sum_{i}^{n} | \frac{f (x_{i}) - y_{i}}{y_{i}} |

$\begin{equation*} MAE = \frac{1}{n} \sum_{i}^{n} \left| \frac{f(x_i) - y_i}{y_i} \right| \end{equation*}$

平均平方百分比误差（mean square percentage error，MASE）

M S E = \frac{1}{n} \sum_{i}^{n} [\frac{f (x_{i}) - y_{i}}{y_{i}}]^{2}

$\begin{equation*} MSE = \frac{1}{n} \sum_{i}^{n} [ \frac{f(x_i) - y_i}{y_i} ]^2 \end{equation*}$

引入百分比之后，可以有效避免因为样本的绝对数值引起的评估不恰当问题。比如对于房价的预测，数值一般为几万/平，而对于人身高的预测，一般为1.x米。如果不加上相对百分比的限制，就会导致数值差距非常大，虽然对于问题的求解不影响，但给人的直观感受很不一样。

2.2 分类问题的性能度量

2.2.1 错误率和准确率

错误率和准确率是最常用的分类问题性能度量的指标。

ϵ = \frac{1}{n} \sum_{i = 1}^{n} I (f (x_{i}) \neq y_{i})

$\begin{equation*} \epsilon = \frac{1}{n} \sum_{i=1}^{n} I(f(x_i) \neq y_i) \end{equation*}$

a c c = 1 - ϵ

$\begin{equation*} acc = 1 - \epsilon \end{equation*}$

2.2.2 查准率和查全率

虽然错误率和准确率很常用，确实很多场景下使用准确率就够了（比如，统计投篮的命中率等）。但也有很多场景下，使用准确率是不够的（比如，买瓜时，一般只关注自己买到的瓜是否是好瓜）。这时，就需要用到查准和查全率（查准又称为精确率，查全又称为召回率）。
要用公式解释查准率和查全率时，首先需要解释混淆矩阵。混淆矩阵表示某个类别被识别为其它类别的数量。对于二分类问题，混淆矩阵如下：

confusion matrix

其中，
TP表示正样本被预测为正样本（真正例，true positive）
FN表示正样本被预测为负样本（假负例，false negative）
FP示负样本被预测为正样本（假正例，false positive）
TN表示负样本被预测为负样本（真负例，true negative）

查准率和查全率就可以定义如下：

P r e c i s i o n = \frac{T P}{T P + F P} R e c a l l = \frac{T P}{T P + F N}

$\begin{equation*} Precision = \frac{TP}{TP + FP } \\ Recall = \frac{TP}{TP+FN} \end{equation*}$

那对于多分类问题而言呢？混淆矩阵和查准、查全率如何计算呢？
混淆矩阵是一致的，查准和查全可以按照二分类来类比，即分为类 $A$ 和非类 $A$ 两种。举个例子如下：

.	A	B	C
A	4	1	2
B	2	7	1
C	10	1	21

- 混淆矩阵如上，对于类A而言， $precision = \frac{4}{4+2+10}$ ， $recall = \frac{4}{4+1+2}$ 。

2.2.3 P-R曲线

P-R曲线的解释可以参见我的博客P-R曲线深入理解。