softmax常用来进行多分类,假如有一个4x1向量=[5,2,-1,3],softmax的计算过程如下所示
下式中是标签,是输出预测值。假设=[0,1,0,0],=[0.3,0.4,0.1,0.2]
单个训练样本损失函数(,) = —
根据上面的例子,在2时,式子值为0,=2时,=1,综上L(,)=,损失函数通过学习变小,则变大,又softmax输出的所有概率和为1,所以理想状态下会趋近于1
下式的,是softmax需要学习的权重和偏移。
训练集的损失函数( ,,... )= (,)
整个训练集损失就是把训练算法对所有训练样本的预测都加起来,再除以样本数。