“Remember that all models are wrong; the practical question is how wrong do they have to be to not be useful.” George Box, 1987
一、误差定义
二、评估损失的3种误差种类
1、训练误差 training error
RMSE:
训练误差 VS 模型复杂度:
小的训练误差 并不等于 好的性能(过拟合)
2、泛化误差 generalization error
泛化误差表现的是模型在真实情况下的预测能力,不是在测试集,也不是验证集,而是真实场景的各种情况下的误差。
泛化误差 VS 模型复杂度
3、测试误差 testing error
模型在测试集上的误差
训练误差、真实误差、测试误差 VS 模型复杂度
4、数据集切分:训练集、验证集、测试集
三、误差的3种源头
误差的3个源头:噪声noise,偏差bias,方差variance
1、噪声
比如房价的例子,square feet和price的真实关系是fw(true),但是由于,比如:买主对房东的感觉这些等等其他因素,有个ei这个噪声。variance of noise是噪声的传播范围。
噪声是不能减少的误差irreducible error,我们只能去解决它。
噪声可以这么理解:比如我们大脑要表达出来的意思,从嘴巴讲出来,这个就是真实模型。从空气传播后,加上了噪声后,对方听到的就不一定完全是我们的意思了。又或者电机,有自己的工作流程,但是由于噪声的关系,最后出来的结果不一定是一开始设置的。但这些噪声,是不在原来真实的模型里面的。
2、bias偏差
bias偏差是衡量模型对真实数据的拟合程度。
如下这个低复杂度的模型不能对真实的数据进行准确拟合,误差很大。
3、方差
方差描述的是:对于不同的数据集,求出的模型的波动变化程度
(1)高复杂度的模型
- 高复杂度模型有高方差
- 高复杂度模型有低偏差
但由于平均曲线很平滑,所以偏差很小。
- 偏差bias和方差variance折中:
偏差bias和方差variance不能计算,原因:bias是计算的估计模型和真实模型之间的差别,真实模型我们是不知道的。而方差,我们需要把在所有数据集上的模型进行平均,这个所有数据集我们也是得不到的。
本课程将教我们去最大化这两个变量。