机器学习评价准则

机器学习（ML），自然语言处理（NLP），信息检索（IR）等领域评价指标一般有如下几点：准确率（Accuracy），精确率（Precision），召回率（Recall）和F1-Measure。同时深度学习目标检测领域的评价指标更注重平均精确率（Mean Average Precision），召回率（Recall），以及速度（rate）。在介绍上面三个参数之前，首先介绍混淆矩阵。

~	Positive	Negative
True	True Positive (TP)	True Negative(TN)
False	False Positive (FP)	False Negative (FN)

上表以二分类问题为例，有两类预测结果Positive（正类），Negative（负类），在进行二分类时，同样会有两类预测结果True（正确分类，真），False（错误分类，假），因此会出现上表所示的四种情况，每种情况代表的含义如表2所示：

True Positive (TP)	将正类正确的预测为正类数. （真正）
True Negative(TN)	将负类正确的预测为负类数.（真负）
False Positive (FP)	将负类错误的预测为正类数(误报)
False Negative (FN)	将正类错误的预测为负类数(漏报)

在上述条件下，定义精确率（Precision），准确率（Accuracy）和召回率（Recall）：

IOU（Precision）

在目标检测中IOU的定义为：
这里写图片描述
如图所示蓝色的框是：Ground Truth 、黄色的框是：Detection Result 、绿色的框是：Detection Result ⋂ Ground Truth 即Area of overlap、红色的框是：Detection Result ⋃ Ground Truth即Area of union

对应到混淆矩阵中：

True Positive (TP)	绿色的框
True Negative(TN)	红框之外的图像部分
False Positive (FP)	黄色的框-绿色的框
False Negative (FN)	蓝色的框-绿色的框

准确率（Accuracy）

准确率可表示：假设要检测A，B两类目标，对于给定的测试数据集，分类器正确分类的A，B两样本数与被分类的总样本数之比。在正负样本不平衡的情况下，准确率这个评价指标有很大的缺陷，较少使用。对应到上图中就是当蓝色框人太小的时候，背景太大，即使预测的黄色框和蓝色框不重合的时候，由于红框之外的图像部分非常大，导致准确度依然很高：
这里写图片描述