RMSE经常作为衡量回归问题的评估指标。计算公式为
R M S E = ∑ i = 1 n ( y i − y ^ i ) 2 n RMSE = \sqrt{\frac{\sum_{i=1}^{n}{(y_i - \hat{y}_i)^2}}{n}} RMSE=n∑i=1n(yi−y^i)2
y i y_i yi是第 i i i个样本的真实值, y ^ i \hat{y}_i y^i是第 i i i个样本的预测值, n n n是样本个数。
一般情况下,RMSE可以很好的反应回归模型预测值相对真实值的偏离情况,但是当存在偏离程度非常大的离群点时,即使离群点数量非常少,也会让RMSE指标变得很差。
如果存在离群点的话,怎么解决呢?
- 如果认为是离群点是噪声的话,数据预处理阶段过滤掉
- 如果不认为是离群点是噪声的话,需要进一步提高模型的预测能力
- 可以找一个对噪声不敏感的指标,例如平均绝对百分比误差(MAPE),MAPE相较于RMSE,对每个点的误差进行了归一化,降低了离群点带来的绝对误差的影响
M A P E = ∑ i = 1 n ∣ y i − y ^ i y i ∣ ∗ 100 n MAPE = \sum_{i=1}^{n}|\frac{y_i - \hat{y}_i}{y_i}| * \frac{100}{n} MAPE=i=1∑n∣yiyi−y^i∣∗n100
欢迎关注微信公众号(算法工程师面试那些事儿),建号初期,期待和大家一起刷leecode,刷机器学习、深度学习面试题等,共勉~