错误率
在常见的具体机器学习算法模型中,一般都使用错误率来优化loss function来保证模型达到最优。
\[错误率=\frac{分类错误的样本}{样本总数}\]
\[error_rate=\frac{1}{m} \sum_{i=1}^{m} I(f(x_{i})\neq y_{i})\]
但是错误率有一个严重的缺点:
错误率会掩盖样本如何被错误分类事实,这样对于有的问题很难进行下一步的分析
混淆矩阵 confusion matrix
真正例: True Positive
真反例: True Negative
假正例: False Positive
假反例: False Negative
下面是一个二分类的混淆矩阵:
真实 | 预测 | 结果 |
---|---|---|
情况 | 正例 | 反例 |
正例 | TP(真正) | FN(假反) |
反例 | FP(假正) | TN(真反) |
查准率(正确率):
\[precision=\frac{真正正确的个数}/{分类中正确的个数}\]
\[P=\frac{TP}{TP+FP}\]
查全率(召回率):
\[recall=\frac{预测为正确的个数}{真实情况正确的个数}\]
\[R=\frac{TP}{TP+FN}\]