接下来,我会讲一下,如何防止过拟合。所谓的过拟合即是由于设计的模型过于复杂,如下图:
最终我们的目的是做一个带约束的最小二乘法,如下图:
为此,我们有如下约束和方法:
求出如下:
另外我们有带
约束的最小二乘法方法,满足如下约束。
即有如下表达式。
lambda大于0,可以自己设定。要得到这个表达式,必须用拉格朗日对偶问题解出来。或者我们用另一个表达形式写出来解法:
最后,还可以用奇异值分解的方法来表达这个theta 的解法,不再赘述。
模型的选择
对于需要手动确定参数的模型,(例如:高斯核模型里面的标准差,e2约束里面的lambda)我们可以根据平均泛化误差最小的模型作为最优模型,steps如下:
比较不同模型,得到不同的平均泛化误差。
上面的方法叫做交叉验证。
总结:
这里我们补充了以前的最小二乘法的不足,例如我们为了防止过拟合,使用了带e2约束的方法。针对多个模型的评价标准,我们使用的是交叉验证。