来自:https://blog.csdn.net/shenxiaoming77/article/details/72627882
来自:https://blog.csdn.net/u010705209/article/details/53037481
在分类模型中,roc曲线和auc曲线作为衡量一个模型拟合程度的指标。
分类模型评估:
指标 | 描述 | Scikit-learn函数 |
Precision | AUC | from sklearn.metrics import precision_score |
Recall | 召回率 | from sklearn.metrics import recall_score |
F1 | F1值 | from sklearn.metrics import f1_score |
Confusion Matrix | 混淆矩阵 | from sklearn.metrics import confusion_matrix |
ROC | ROC曲线 | from sklearn.metrics import confusion_matrix |
AUC | ROC曲线下的面积 | from sklearn.metrics import auc |
回归模型评估:
指标 | 描述 | Scikit-learn函数 |
Mean Square Error (MSE, RMSE) | 平均方差 | from sklearn.metrics import mean_squared_error |
Absolute Error (MAE, RAE) | 绝对误差 | from sklearn.metrics import mean_absolute_error, median_absolute_error |
R-Squared | R平方值 | from sklearn.metrics import r2_score |
roc和auc定义
roc全称是“受试者工作特征”(recevier operating characteristic)。roc曲线的面积就是auc(area under the curve)。auc用于衡量“二分类问题”机器学习算法性能(泛化能力)。
了解roc首先了解混淆矩阵:
例如用一个分类模型来判别一个水果是苹果还是梨,混淆矩阵将会模型的预测结果总结成如下表所示的表格。
模型预测结果 | 模型预测结果 | ||
苹果 | 梨 | ||
真是结果 | 苹果 | 10 | 2 |
真是结果 | 梨 | 3 | 15 |
通过上述表格可以看出,样本的数量一共是10+2+3+15=3010+2+3+15=30个样本。其中苹果有10+2=1210+2=12个,梨有3+15=183+15=18个。该模型预测的苹果的数量是10+3=1310+3=13个,有1010个是预测正确的,33个是预测错误的。该模型预测的梨的数量是2+15=172+15=17个,其中有1515个是预测正确的,22个是预测错误的。