图像识别分析的评价方法

深度学习交流QQ群:116270156

图像识别分析数据集是一个多分类数据集,在预测结果评估过程中与需要注意一些问题[Everingham M]:

1. 在图像分类任务中,仅用一个标签标示样本,而图像中可能包含多个类别的物体。面对这种问题,可以借鉴图像检索的评估思路,使用top @k 模型对模型进行评估,只要前k个标签中有一个正确的,就算分类正确。 
2. 每类物体的样本数量分布不均匀,避免使用准确率(accuracy)等对有偏数据集上的结果评估不佳的方法。这一现象尤其在物体检测中明显:当使用滑窗算法时可能会面对大比例的负样本这一情况。 
3. 评估算法需要有普适性,具有与算法无关的独立性。需要构造一个适用于图像分类、物体检测以及图像分割等多种任务的统一评估方案。

    针对以上问题,我们将图像分类、物体检测和图像分割问题全部都看作对N个相互独立类别的二分类问题,从而将多种任务的评估问题统一到图像分类的评估体系中,增强评估方案的有效性和可行性。

1. 图像分类

    在图像分类任务的研究中,通常使用多类别混淆矩阵及其衍生的统计量评估各个算法的性能。得到混淆矩阵后,可以对分类器整体性能和单一分类器性能评估,从而全面地评估分类模型的性能。 
    对于多分类问题的整体分类精度,通常使用整体分类精度(Overall accuracy)进行评估。总体分类精度只考虑了对角线方向上被正确分类的像元数,而Kappa系数则同时考虑了对角线以外的各种漏分和错分像元。可以利用Kappa系数评估分类模型的整体精度,当Kappa系数的值大于0.80时,意味着分类数据和检验数据的一致性较高,即分类精度较高。 
    对于整体分类精度的评估并不能完全反应单个分类器的性能。一般可以根据混淆矩阵得到每个分类器的准确率(accuracy) 、精确率(precision)、召回率(recall),绘制ROC曲线、PR曲线,从而评估表分类器精度的高低。 
    平均正确率(Average Precision, AP)最初用于信息检索IR的评价指标,它是对不同召回率点上的正确率进行平均。直观地来看,AP就是PR曲线下的面积,这里average的含义是对recall取平均。而平均正确率均值mean average precision,其中mean的含义是对所有类别取平均(每一个类当做一次二分类任务)。现在的图像分类论文基本都是用mAP作为标准。 
    对于大规模的数据集,比如ImageNet[Olga Russakovsky*]有1000类共一千万张图像,对大量样本的分类计算量十分巨大。该数据集的分类任务评估采用了总体错误率,当分类错误时累加1最后求均值,该指标是总体正确率(Overall Accuracy)的补集。在该数据集上采用top-1 error和top-5 error对各个模型评估、排序的结果基本一致,最终单独使用top-5 error作为图像分类的评价指标。

2. 目标检测

    目标检测需要同时实现目标定位和目标识别两项任务。其中,通过比较预测边框和ground truth边框的重叠程度和阈值的大小判定目标定位的正确性;通过置信度分数和阈值的比较确定目标识别的正确性。以上两步综合判定目标检测是否正确,最终将目标检测转换为“检测正确、检测错误”的分类问题,从而可以构造混淆矩阵,使用目标分类的指标评估模型精度。 
**重点内容**PASCAL Visual Object Classes Challenge2007 (VOC2007) [Everingham]数据集使用P-R曲线进行定性分析,使用average precision(AP)定量分析模型精度。重复检测同一目标只算一次正确,其余判为错误。 
重点内容对于大规模数据集ImageNet[Olga Russakovsky*]为每一个类别的检测结果计算精确率(Precision)、召回率(Recall)。对于每个目标类别的最终评测指标是平均精度(AP),即P-R曲线的积分值。单目标类别检测AP最高者获胜,检测目标类别获胜数目最多的团队赢得目标检测的挑战。

3. 图像分割

    像素级图像分割的评估问题也可以转换为分类模型的评估。ISPRS[ISPRS]提出了一种经典的基于累加混淆矩阵的分类精度评估方法。首先将原始图像划分为treue ortho photo (TOP) tiles,然后统计tile中每一个像素点所属的类别,从而构建基于像素的混淆矩阵,最后将每个tile的混淆矩阵累加起来得到累加混淆矩阵(accumulated confusion matrix)。得到累加混淆矩阵后,就可以计算精确率(Precision)、召回率(Recall)、F1 score等精度指标,从而评估分割性能。 
    PASCAL Visual Object Classes Challenge2007 (VOC2007) [Everingham]数据集采用的评估指标是平均分割准确率,即所有类的分割准确率的算术平均值。每一类的分割准确率是正确分割的像素点数目除以该类ground truth的像素点数目(实际上是精确率Precision)。

Reference

Olga Russakovsky*, Jia Deng*, Hao Su, Jonathan Krause, Sanjeev Satheesh, Sean Ma, Zhiheng Huang, Andrej Karpathy, Aditya Khosla, Michael Bernstein, Alexander C. Berg and Li Fei-Fei. (* = equal contribution) ImageNet Large Scale Visual Recognition Challenge. IJCV, 2015

Everingham M, Van Gool L, Williams C K I, et al. The pascal visual object classes (voc) challenge[J]. International journal of computer vision, 2010, 88(2): 303-338.

2D Semantic Labeling Contest. ISPRS 
http://www2.isprs.org/commissions/comm3/wg4/semantic-labeling.html

猜你喜欢

转载自blog.csdn.net/sinat_24143931/article/details/79374030