【机器学习课程-华盛顿大学】：2 回归 2.3 性能评估（1）

“Remember that all models are wrong; the practical question is how wrong do they have to be to not be useful.” 
George Box, 1987

RMSE：

训练误差 VS 模型复杂度：

小的训练误差并不等于好的性能（过拟合）

泛化误差表现的是模型在真实情况下的预测能力，不是在测试集，也不是验证集，而是真实场景的各种情况下的误差。

泛化误差 VS 模型复杂度

模型在测试集上的误差

训练误差、真实误差、测试误差 VS 模型复杂度

误差的3个源头：噪声noise，偏差bias，方差variance

比如房价的例子，square feet和price的真实关系是fw(true)，但是由于，比如：买主对房东的感觉这些等等其他因素，有个ei这个噪声。variance of noise是噪声的传播范围。

噪声是不能减少的误差irreducible error，我们只能去解决它。

噪声可以这么理解：比如我们大脑要表达出来的意思，从嘴巴讲出来，这个就是真实模型。从空气传播后，加上了噪声后，对方听到的就不一定完全是我们的意思了。又或者电机，有自己的工作流程，但是由于噪声的关系，最后出来的结果不一定是一开始设置的。但这些噪声，是不在原来真实的模型里面的。

bias偏差是衡量模型对真实数据的拟合程度。

如下这个低复杂度的模型不能对真实的数据进行准确拟合，误差很大。

方差描述的是：对于不同的数据集，求出的模型的波动变化程度

但由于平均曲线很平滑，所以偏差很小。

偏差bias和方差variance不能计算，原因：bias是计算的估计模型和真实模型之间的差别，真实模型我们是不知道的。而方差，我们需要把在所有数据集上的模型进行平均，这个所有数据集我们也是得不到的。

本课程将教我们去最大化这两个变量。