https://www.bilibili.com/video/BV1UK4y1o7dy?p=1
1. 权重衰退
Weight decay,是最常见的一种用于处理过拟合的方法。
下图右边的小图,解释一下
- 对于红色的这些样本点,如果不去限制模型的参数,那么它可以随意延展,有可能就会变成蓝色线的那样
- 而限制参数大小后,就是绿色线那样。学出来的结果会比较平滑,变化差异不会那么大,只学比较简单的模型
之前说过控制模型容量的方法,
- 减少模型参数
- 缩小参数范围
- 其中
weight decay
就是一种通过限制参数值的选择范围来控制模型容量的方法。 - 一般都是模型太大,数据容量太小,导致过拟合,所以一般都是防止过拟合。
假设我们要优化的还是 min