精确率和召回率的权衡

问题描述:

Hulu提供视频的模糊搜索功能,搜索排序模型返回的top5的精确率非常高,但在实际应用中,用户还是找不到自己想要的视频,特别是一些比较冷门的剧集,这可能是哪个环节出了问题?

精确率和召回率的权衡

精确率:是指分类正确的正样本个数占分类器判定为正样本的样本个数的比例。

召回率:是指分类正确的正样本个数占真正的正样本个数的比例。

在排序问题中通常没有一个确定的阈值把得到的结果直接判定为正样本或者负样本,而是采用ToPN返回结果的Precision值和Recall值来衡量排序模型的性能。即认为模型返回的TOPN的结果就是模型判定的正样本,然后计算前N个位置的精确率和召回率。

 精确率和召回率是极矛盾有统一的两个指标,为了提高精确率值,分类器需要尽量在“更有把握”时才把样本预测为正样本,但此时会因为过于保守而漏掉很多没有把握的正样本,导致召回率recall值降低。

  回到问题中来,模型返回的precision@5的结果非常好,也就是说排序模型TOP的返回值的质量是很高的,但在实际应用中,用户为了找一些冷门的视频,往往会寻找排在靠后位置的结果,甚至翻页去查找目标视频。但根据题目描述,用户经常找不到想要的视频,这说明模型没有把相关的视频呈现给用户。

显然问题出在了召回率上recall,如果相关视频有100个,即使精确率达到了100%,recall召回率也只有5%。

  为了综合评估一个排序模型的好坏,不仅要看模型在不同的ToPN下的precision@N和recall@N,而且最好绘制出模型的P-R曲线。

   P-R曲线横轴是召回率,数轴是精确率。对于一个排序模型来说,其P-R曲线上的一个点代表着,在某一阈值下,模型将大于该阈值的结果判定为正样本,小于该阈值的结果判定为负样本,此时返回结果下的召回率和精确率。整条P-R曲线通过将阈值由高向低移动而生成的。

   只有某个点对应的召回率和精确率不能全面的衡量模型的性能,只有通过P-R曲线的整体表现才能够对模型进行更为全面的评估。

    除此之外,F1 score 和ROC曲线也能综合反映一个排序模型的性能。FIscore 是精确率和召回率的调和平均值。

        

  

猜你喜欢

转载自blog.csdn.net/qq_29678299/article/details/88737803