机器学习(ML),自然语言处理(NLP),信息检索(IR)等领域评价指标一般有如下几点:准确率(Accuracy),精确率(Precision),召回率(Recall)和F1-Measure。同时深度学习目标检测领域的评价指标更注重平均精确率(Mean Average Precision),召回率(Recall),以及速度(rate)。在介绍上面三个参数之前,首先介绍混淆矩阵。
~ | Positive | Negative |
---|---|---|
True | True Positive (TP) | True Negative(TN) |
False | False Positive (FP) | False Negative (FN) |
上表以二分类问题为例,有两类预测结果Positive(正类),Negative(负类),在进行二分类时,同样会有两类预测结果True(正确分类,真),False(错误分类,假),因此会出现上表所示的四种情况,每种情况代表的含义如表2所示:
True Positive (TP) | 将正类正确的预测为正类数. (真正) |
---|---|
True Negative(TN) | 将负类正确的预测为负类数.(真负) |
False Positive (FP) | 将负类错误的预测为正类数(误报) |
False Negative (FN) | 将正类错误的预测为负类数(漏报) |
在上述条件下,定义精确率(Precision),准确率(Accuracy)和召回率(Recall):
IOU(Precision)
在目标检测中IOU的定义为:
如图所示蓝色的框是:Ground Truth 、黄色的框是:Detection Result 、绿色的框是:Detection Result ⋂ Ground Truth 即Area of overlap、红色的框是:Detection Result ⋃ Ground Truth即Area of union
对应到混淆矩阵中:
True Positive (TP) | 绿色的框 |
---|---|
True Negative(TN) | 红框之外的图像部分 |
False Positive (FP) | 黄色的框-绿色的框 |
False Negative (FN) | 蓝色的框-绿色的框 |
准确率(Accuracy)
准确率可表示:假设要检测A,B两类目标,对于给定的测试数据集,分类器正确分类的A,B两样本数 与被分类的总样本数 之比。在正负样本不平衡的情况下,准确率这个评价指标有很大的缺陷,较少使用。对应到上图中就是当蓝色框人太小的时候,背景太大,即使预测的黄色框和蓝色框不重合的时候,由于红框之外的图像部分非常大,导致准确度依然很高:
精确率(Precision)
精确率可表示:假设要检测A类目标,对于给定的测试数据集,分类器正确分类为A类的样本数TP与被分为A类的样本数TP+FP之比。对应上图就是
召回率(Recall)
召回率可表示:假设要检测A,B两类目标,对于给定的测试数据集,分类器正确分为A类的样本数TP占所有应该被检测为A类的样本数的比例。对应上图就是:
F-Measure
Measure可表示:精确率和召回率的调和均值,相当于精确率和召回率的综合评价指标,计算方法如上式。
MAP
在多分类问题中,上述的精确度定义不足以描述多分类器的性能,于是又引入了平均精确率(Mean Average Precision):
其中Q是样本的种类,P是每种样本的检测精确度,上式表示计算所有样本种类的精确度的均值。