relu不可微为什么可用于深度学习

首先确定relu数学上来讲不可微的,提供伪梯度使其可分,faux gradient是伪梯度,使得在0值不可分;

这里讲到了本质,反馈神经网络正常工作需要的条件就是每一个点提供一个方向,即导数;0值不可微,本质上来说是因为这个地方可画多条切线,但我们需要的只是一条;由于这出现的0值的概率极低,任意选择一个子梯度就OK了,在0处的次微分集合是【0,1】;即选择其中一个就OK了;一般默认是0;

猜你喜欢

转载自blog.csdn.net/ningyanggege/article/details/82493023