Regularization

重新定义了目标函数,为了通过是的权重的值都接近于0，使得目标函数更加的平滑减少样本中的噪声对训练的结果所造成的影响。（用于解决overfitting问题zhengzehua）

L^{'} (θ) = L (θ) + 、 l a m b d a | | θ | | θ = {w_{1}, w_{2}, . . ., w_{n}}

$L'(\theta)=L(\theta)+{、lambda}||\theta||\\ \theta=\{w_1,w_2,...,w_n\}$
其中n为样本的个数。

1.L1 regularization

L^{'} (θ) = L (θ) + \frac{λ}{n} | | θ | |_{1}

$L'(\theta)=L(\theta)+\frac\lambda n||\theta||_1\\$
将没有正则化之前的损失函数记为L（

θ

$\theta$ ）,则采用L1正则化之后待优化的函数为：

$||\theta||_1=|w_1|+|w_2|+...+|w_n|$
而当 $w_1$ =0的时候此时是不可微的，需要做特殊处理，常将其微分的值置为0.
以参数 $w_1$ 的更新为例，求参数 $w^t$ 对于损失函数L’的微分可得：

\frac{\partial L^{'}}{\partial w^{t}} = \frac{\partial L}{\partial w^{t}} + \frac{λ}{n} s g n (w^{t}) \frac{\partial L^{'}}{\partial w^{t}} = \frac{\partial L}{\partial w^{t}} + \frac{λ}{n} s g n (w^{t}) \frac{\partial L^{'}}{\partial w^{t}} = \frac{\partial L}{\partial w^{t}} + \frac{λ}{n} s g n (w^{t})

$\frac{\partial L'}{\partial w^t}=\frac{\partial L}{\partial w^t}+\frac\lambda n sgn(w^t)\frac{\partial L'}{\partial w^t}=\frac{\partial L}{\partial w^t}+\frac\lambda n sgn(w^t)\frac{\partial L'}{\partial w^t}=\frac{\partial L}{\partial w^t}+\frac\lambda n sgn(w^t)$
(其中sgn(x)为符号函数，其数学表达式如下所示：

f (x) = s g n (x) {\begin{cases} 1, & if x > 0 \\ 0, & if x = 0 \\ - 1, & if x < 0 \end{cases}

$f(x) =sgn(x) \begin{cases} 1, & \text{if $x$ > 0} \\ 0, & \text{if $x$ = 0 }\\ -1, & \text{if $x$ < 0} \end{cases}$ ）

则对于参数 $w_1$ 的更新如下所示：

w^{t + 1} \leftarrow w^{t} - η \frac{\partial L^{'}}{\partial w^{t}} = w^{t} - η (\frac{\partial L}{\partial w^{t}} + \frac{λ}{n} s g n (w^{t})) = w^{t} - η \frac{\partial L}{\partial w^{t}} - η \frac{λ}{n} s g n (w^{t})

$w^{t+1}\leftarrow w^t - \eta\frac{\partial L'}{\partial w^t}\\ =w^t-\eta \big(\frac{\partial L}{\partial w^t}+\frac \lambda n sgn(w^t)\big)\\ =w^t-\eta\frac{\partial L}{\partial w^t}-\eta\frac \lambda n sgn(w^t)\\$
在L1中不论w的大小如何，目标函数在更新的过程中均减去一个较小的值

η \frac{λ}{n} s g n (w^{t})

$\eta\frac \lambda n sgn(w^t)$ 。

2.L2 regularization

在L2正则化中目标函数以及 $\theta$ 的取值如下所示：

L^{'} (θ) = L (θ) + \frac{λ}{2 n} | | θ | |_{2} | | θ | |_{2} = （ w_{1} ）^{2} + （ w_{2} ）^{2} + . . . + （ w_{n} ）^{2}

$L'(\theta)=L(\theta)+\frac{\lambda}{2n}||\theta||_2\\ ||\theta||_2=（w_1）^2+（w_2）^2+...+（w_n）^2$

w^{t}

$w^t$ 对L’求偏导数可以得到
Gradient：

\frac{\partial L^{'}}{\partial w^{t}} = \frac{\partial L}{\partial w^{t}} + λ w^{t}

$\frac{\partial L'}{\partial w^t}=\frac{\partial L}{\partial w^t}+\lambda w^t$
对

w^{t}

$w^t$ 进行如下更新：

w^{t + 1} \leftarrow w^{t} - η \frac{\partial L^{'}}{\partial w} = w^{t} - η (\frac{\partial L}{\partial w} + λ w^{t}) = (1 - η λ) w^{t} - η \frac{\partial L}{\partial w}

$w^{t+1} \leftarrow w^t - \eta \frac{\partial L'}{\partial w}\\ =w^t-\eta\big(\frac{\partial L}{\partial w}+\lambda w^t\big)\\ =(1-\eta\lambda )w^t-\eta\frac{\partial L}{\partial w}$
L2正则化中如果出现w的值较大，则w的值化下降较快，其最后训练出来的结果中所有的w均为较小的值，这是其相对与L1正则化的优点。

3.Dropout

以p的概率使每一个神经元失活，在network中使用Dropout的时候会使得proformace的变差。假如在训练的时候对p设为0.5，则最后测试的时候则应该对输出的结果乘以0.5从而是的testing的weight和training的weight处于相同的数量级（一般深度学习的框架都会自动实现）。
这里写图片描述

扫描二维码关注公众号，回复： 2732131 查看本文章

↓

$\Big\downarrow$
这里写图片描述

↓

$\Big\downarrow$
这里写图片描述

Dropout可以看成是一种集成学习的方法，即在训练的过程中如果有m个神经元，采用了Dropout方法则可能出现的模型会有

2^{m}

$2^m$ 种，每一种情况采用一个mini-batch来训练，最后综合考虑各个模型的效果从而实现ensemble learning.
有一个神经网络采用了Dropout的方法，以keep_prob=(1-p)的概率来保留每一个神经元，则最后的输出结果相当于原来的网络不采用Dropout方法的输出乘以(1-p),即：

f (x)_{d r o p o u t} = f (x)_{w i t h o u t d r o p o u t} * (1 - p)

$f(x)_{dropout}=f(x)_{without\;dropout}*(1-p)$
该方法在ReLU的activation function中的表现效果更好，因为其更加适合用线性的方法（刚好成比例）。

正则化L1 regularization、L2 regularization、Dropout

Regularization

1.L1 regularization

2.L2 regularization

3.Dropout

猜你喜欢