图像识别分析的评价方法

深度学习交流QQ群：116270156

图像识别分析数据集是一个多分类数据集，在预测结果评估过程中与需要注意一些问题[Everingham M]:

1. 在图像分类任务中，仅用一个标签标示样本，而图像中可能包含多个类别的物体。面对这种问题，可以借鉴图像检索的评估思路，使用top @k 模型对模型进行评估，只要前k个标签中有一个正确的，就算分类正确。
2. 每类物体的样本数量分布不均匀，避免使用准确率(accuracy)等对有偏数据集上的结果评估不佳的方法。这一现象尤其在物体检测中明显：当使用滑窗算法时可能会面对大比例的负样本这一情况。
3. 评估算法需要有普适性，具有与算法无关的独立性。需要构造一个适用于图像分类、物体检测以及图像分割等多种任务的统一评估方案。

针对以上问题，我们将图像分类、物体检测和图像分割问题全部都看作对N个相互独立类别的二分类问题，从而将多种任务的评估问题统一到图像分类的评估体系中，增强评估方案的有效性和可行性。

1. 图像分类

    在图像分类任务的研究中，通常使用多类别混淆矩阵及其衍生的统计量评估各个算法的性能。得到混淆矩阵后，可以对分类器整体性能和单一分类器性能评估，从而全面地评估分类模型的性能。
    对于多分类问题的整体分类精度，通常使用整体分类精度（Overall accuracy）进行评估。总体分类精度只考虑了对角线方向上被正确分类的像元数，而Kappa系数则同时考虑了对角线以外的各种漏分和错分像元。可以利用Kappa系数评估分类模型的整体精度，当Kappa系数的值大于0.80时，意味着分类数据和检验数据的一致性较高，即分类精度较高。
    对于整体分类精度的评估并不能完全反应单个分类器的性能。一般可以根据混淆矩阵得到每个分类器的准确率(accuracy) 、精确率(precision)、召回率(recall)，绘制ROC曲线、PR曲线，从而评估表分类器精度的高低。
    平均正确率(Average Precision, AP)最初用于信息检索IR的评价指标，它是对不同召回率点上的正确率进行平均。直观地来看，AP就是PR曲线下的面积，这里average的含义是对recall取平均。而平均正确率均值mean average precision，其中mean的含义是对所有类别取平均（每一个类当做一次二分类任务）。现在的图像分类论文基本都是用mAP作为标准。
    对于大规模的数据集，比如ImageNet[Olga Russakovsky*]有1000类共一千万张图像，对大量样本的分类计算量十分巨大。该数据集的分类任务评估采用了总体错误率，当分类错误时累加1最后求均值，该指标是总体正确率（Overall Accuracy）的补集。在该数据集上采用top-1 error和top-5 error对各个模型评估、排序的结果基本一致，最终单独使用top-5 error作为图像分类的评价指标。

2. 目标检测

目标检测需要同时实现目标定位和目标识别两项任务。其中，通过比较预测边框和ground truth边框的重叠程度和阈值的大小判定目标定位的正确性；通过置信度分数和阈值的比较确定目标识别的正确性。以上两步综合判定目标检测是否正确，最终将目标检测转换为“检测正确、检测错误”的分类问题，从而可以构造混淆矩阵，使用目标分类的指标评估模型精度。
**重点内容**PASCAL Visual Object Classes Challenge2007 (VOC2007) [Everingham]数据集使用P-R曲线进行定性分析，使用average precision(AP)定量分析模型精度。重复检测同一目标只算一次正确，其余判为错误。
重点内容对于大规模数据集ImageNet[Olga Russakovsky*]，为每一个类别的检测结果计算精确率（Precision）、召回率（Recall）。对于每个目标类别的最终评测指标是平均精度（AP），即P-R曲线的积分值。单目标类别检测AP最高者获胜，检测目标类别获胜数目最多的团队赢得目标检测的挑战。

3. 图像分割

像素级图像分割的评估问题也可以转换为分类模型的评估。ISPRS[ISPRS]提出了一种经典的基于累加混淆矩阵的分类精度评估方法。首先将原始图像划分为treue ortho photo (TOP) tiles，然后统计tile中每一个像素点所属的类别，从而构建基于像素的混淆矩阵，最后将每个tile的混淆矩阵累加起来得到累加混淆矩阵（accumulated confusion matrix）。得到累加混淆矩阵后，就可以计算精确率（Precision）、召回率（Recall）、F1 score等精度指标，从而评估分割性能。
PASCAL Visual Object Classes Challenge2007 (VOC2007) [Everingham]数据集采用的评估指标是平均分割准确率，即所有类的分割准确率的算术平均值。每一类的分割准确率是正确分割的像素点数目除以该类ground truth的像素点数目（实际上是精确率Precision）。

Reference

Olga Russakovsky*, Jia Deng*, Hao Su, Jonathan Krause, Sanjeev Satheesh, Sean Ma, Zhiheng Huang, Andrej Karpathy, Aditya Khosla, Michael Bernstein, Alexander C. Berg and Li Fei-Fei. (* = equal contribution) ImageNet Large Scale Visual Recognition Challenge. IJCV, 2015

Everingham M, Van Gool L, Williams C K I, et al. The pascal visual object classes (voc) challenge[J]. International journal of computer vision, 2010, 88(2): 303-338.

2D Semantic Labeling Contest. ISPRS
http://www2.isprs.org/commissions/comm3/wg4/semantic-labeling.html