多分类任务下,为什么使用softmax?
事实上,我们最需要的是 ,该函数可以直接得到分类。但问题在于 函数不可导,所以就有人设计出了softmax函数
- software函数对于特征对概率的影响是乘性的,即其也满足最后输出越大,概率越大的结果。
- 我们的目标函数经常是交叉熵函数
万能近似定理:一个前馈神经网络如果具有一线性输出宠和至少一层具有一种“挤压”性质的激活函数(如Sigmoid激活函数)的隐藏层,只要给予网络足够数量的隐藏单元,它可以以任意的精度来近似任何函数。
反向传播算法和优化算法的关系?
反向传播用于计算梯度,而优化算法(如随机梯度下降)用于使用得到的梯度来进行学习。