1 sigmoid
把一个实数压缩至0到1之间,当输入的数非常大的时候,结果会接近1,当输入非常小的负数时,则会得到接近0的结果。
2 tanh
3 Relu
优点:
(1)不会出现梯度消失,收敛速度快;
(2)前向计算量小,只需要计算max(0, x),不像sigmoid中有指数计算;
(3)反向传播计算快,导数计算简单,无需指数、出发计算;
(4)有些神经元的值为0,使网络具有saprse性质,可减小过拟合。
缺点:
(1)比较脆弱,在训练时容易“die”,反向传播中如果一个参数为0,后面的参数就会不更新。