【书籍阅读】DeepLearning----第六章-深度前馈网络

多分类任务下,为什么使用softmax?

  事实上,我们最需要的是 m a x { x 1 x 2 x 3 } ,该函数可以直接得到分类。但问题在于 m a x 函数不可导,所以就有人设计出了softmax函数

P ( y = i ) = e x p ( d w i d x d ) j e x p ( d w j d x d )
  选择softmax函数有几个原因:

  1. software函数对于特征对概率的影响是乘性的,即其也满足最后输出越大,概率越大的结果。
  2. 我们的目标函数经常是交叉熵函数
    L = k t k l o g P ( y = k )
      使用这个目标函数,乘法变加法,运算简单。

万能近似定理:一个前馈神经网络如果具有一线性输出宠和至少一层具有一种“挤压”性质的激活函数(如Sigmoid激活函数)的隐藏层,只要给予网络足够数量的隐藏单元,它可以以任意的精度来近似任何函数。

反向传播算法和优化算法的关系?

  反向传播用于计算梯度,而优化算法(如随机梯度下降)用于使用得到的梯度来进行学习。

猜你喜欢

转载自blog.csdn.net/qq_19784349/article/details/79820249