关于正则惩罚L2 norm里w越小越好的一些另类思考

以下全是本博主一派胡言,把深度学习看成是一种乐趣,而不是压力,在探索中,发现了很多乐趣:

一,现在通常用的激励函数,在input比较大的时候,不饱和,也就是分类效果好,而在input比较大的地方趋于饱和。w越小,就意味着input = wx+b比较小,也就是落在不饱和区的可能性更大,也就是更接近于线性。

二,黑色的直线显然比紫色的线泛华能力更好,黑色直线的w要小于紫色线的斜率。对于这种多分段的一个直观的激励函数就是maxout。这里其实也解释了为什么要w的平方,很明显有正有负吗。当然,用w的平方,使得导数里有w,也就是w越大,梯度越大,下降的越快。

可以联系SVM,SVM的目标函数就是w的L2 norm,约束条件反倒是y(wx+b)>=1,但是拉格朗日函数却是惊人的相似,只是目标函数变成了约束条件,约束条件变成了目标函数。 SVM就是要求||w||最小,其实也对应着一个对泛化能力的追求。而深度学习力的w的L2 norm越小,又可以类比于SVM的分类间隔最大。

发布了15 篇原创文章 · 获赞 6 · 访问量 4972

猜你喜欢

转载自blog.csdn.net/becgiggs/article/details/82988776