【机器学习课程-华盛顿大学】:2 回归 2.3 性能评估(1)

“Remember that all models are wrong; the practical question is how wrong do they have to be to not be useful.” 
George Box, 1987

一、误差定义



二、评估损失的3种误差种类

1、训练误差 training error



RMSE:



训练误差 VS 模型复杂度:



小的训练误差 并不等于 好的性能(过拟合)


2、泛化误差 generalization error

泛化误差表现的是模型在真实情况下的预测能力,不是在测试集,也不是验证集,而是真实场景的各种情况下的误差。


泛化误差 VS 模型复杂度



3、测试误差 testing error

模型在测试集上的误差



训练误差、真实误差、测试误差 VS 模型复杂度



4、数据集切分:训练集、验证集、测试集



三、误差的3种源头

误差的3个源头:噪声noise,偏差bias,方差variance

1、噪声

比如房价的例子,square feet和price的真实关系是fw(true),但是由于,比如:买主对房东的感觉这些等等其他因素,有个ei这个噪声。variance of noise是噪声的传播范围。

噪声是不能减少的误差irreducible error,我们只能去解决它。

噪声可以这么理解:比如我们大脑要表达出来的意思,从嘴巴讲出来,这个就是真实模型。从空气传播后,加上了噪声后,对方听到的就不一定完全是我们的意思了。又或者电机,有自己的工作流程,但是由于噪声的关系,最后出来的结果不一定是一开始设置的。但这些噪声,是不在原来真实的模型里面的。



2、bias偏差

bias偏差是衡量模型对真实数据的拟合程度。

如下这个低复杂度的模型不能对真实的数据进行准确拟合,误差很大。



3、方差

方差描述的是:对于不同的数据集,求出的模型的波动变化程度

(1)高复杂度的模型

  • 高复杂度模型有高方差



  • 高复杂度模型有低偏差

但由于平均曲线很平滑,所以偏差很小。



  • 偏差bias和方差variance折中:


偏差bias和方差variance不能计算,原因:bias是计算的估计模型和真实模型之间的差别,真实模型我们是不知道的。而方差,我们需要把在所有数据集上的模型进行平均,这个所有数据集我们也是得不到的。

本课程将教我们去最大化这两个变量。


(2)训练误差与训练集大小的关系



猜你喜欢

转载自blog.csdn.net/weixin_41770169/article/details/80622914