版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/laoxuan2011/article/details/52754288
首先,假设我们有loss function为
梯度下降算法告诉我们,为了最小化loss function为
这里
为了防止过拟合,在loss function上加上正则项(惩罚项),一种简单的方法是通过在权重上引入一零均值高斯项。
这里,λ为正则化参数。正则项是模型复杂度的单调递增函数,所以weight decay的作用是调节模型复杂度对损失函数的影响,若weight decay很大,则复杂的模型损失函数的值也就大。
应用梯度下降算法到这个新的cost函数,我们得到:
这新的一项