机器学习面试必知:评价指标和含义

TP—正确地预测了正类,正 \rightarrow
TN—正确地预测了负类,负 \rightarrow
FP—错误地预测了正类,负 \rightarrow
FN—错误地预测了负类,正 \rightarrow

准确率 A c c u r a c y = T P + T N T P + T N + F P + F N Accuracy=\frac{TP+TN}{TP+TN+FP+FN} 准确率是分类问题中最简单也是最直观的评价指标,但存在明显缺陷,在样本类别不平衡时,例如负样本占99%,分类器只需要全部分类成负样本就能得到99%的准确率,所以这时占比大的类别往往成为影响准确率的最主要的因素。

精确率 P = T P T P + F P P=\frac{TP}{TP+FP}
召回率 R = T P T P + F N R=\frac{TP}{TP+FN}
在排序问题中,通常没有一个确定的阈值把得到的结果直接判定为正样本或负样本,而是采用Top N返回结果的精确率或者召回率来衡量排序模型的性能。

P-R曲线的横轴是召回率,纵轴是精确率。在这里插入图片描述
其P-R曲线上的一个点代表着,在某一阈值下,模型将大于该阈值的结果判定为正样本,小于该阈值的结果判定为负样本,此时返回结果对应的召回率和精确率。整条P-R曲线是通过将阈值从高到低移动而生成的。原点附近代表阈值最大时模型的精确率和召回率。

F 1 F_{1} 是精确率和召回率的调和均值 2 F 1 = 1 P + 1 R \frac{2}{F_{1}}=\frac{1}{P}+\frac{1}{R} F 1 = 2 T P 2 T P + F P + F N F_{1}=\frac{2TP}{2TP+FP+FN}

ROC曲线的横坐标是假阳性率FPR,纵坐标是真阳性率TPR。 F P R = F P N FPR=\frac{FP}{N} T P R = T P P TPR=\frac{TP}{P} 相比于P-R曲线,ROC曲线有一个特点,当正负样本的分布发生变化时,ROC曲线的形状基本能保持不变,而P-R曲线的形状会发生较剧烈的变化。在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/Neekity/article/details/88239666