导论·笔记

导论

1 曲线拟合

1 使用多项式函数拟合数据:
\[y(x,\mathbf{w})=w_0+w_1x+w_2x^2+...+w_Mx_M=\sum_{j=0}^Mw_jx^j,\]
该式是未知参数的线性函数,平方误差函数为:
\[E(\mathbf{w})=\frac{1}{2}\sum_{n=1}^N\{y(x_n,\mathbf{w})-t_n\}^2.\]

2 需要选取合适的\(M\)值确定目标函数,不同的\(M\)值对应不同的模型,\(M\)的选择与模型选择模型比较相关。较大的\(M\)值容易产生过拟合问题,较小的\(M\)值则欠缺表达能力,适当选取的\(M\)值可给出最佳的泛化表现。

3固定模型复杂度,过拟合问题将随着数据集规模的增大得到缓解。其同义表述为:大规模数据可支撑更加复杂的模型。

实际上当数据规模无限时,过拟合问题将不再存在。

一般情况下数据点规模应该是模型自由参数的若干倍,尽管参数并不总是模型复杂度的最佳度量。

4 最小方差是最大似然方法的特例,过拟合是最大似然的通性。我们可以采用贝叶斯方法避免过拟合,实际上,贝叶斯模型根据数据集适应性地调节有效参数数目。

5 正则化方法通过在误差函数中增加系数惩罚项解决过拟合问题。一个修改后的误差函数例子:
\[\tilde{E}(\mathbf{w})=\frac{1}{2}\sum_{n=1}^N\{y(x_n,\mathbf{w})-t_n\}^2+\frac{\lambda}{2}\lVert\mathbf{w}\rVert^2\]
其中\(\lambda\)控制模型复杂度或正则项的权重。

6 模型复杂度(\(M\)\(\lambda\)的选取)可在验证集或留出集确定,但并非必须。

猜你喜欢

转载自www.cnblogs.com/astoninfer/p/9245182.html