【深度学习】cs231n计算机视觉 Softmax分类器

Softmax分类器

最常用的两个线性分类器，一个是SVM，另一个就是Softmax分类器。softmax分类器可以理解成逻辑回归分类器面对多个分类的一般化归纳。

评分函数（score function）

在这里插入图片描述
评分函数与SVM分类器相同，保持不变。

损失函数（loss function）

将SVM分类器中的折页损失（hinge loss）替换为交叉熵损失（cross-entropy loss），公式如下：
在这里插入图片描述
等价于：

整个数据集的损失值是数据集中所有样本数据的损失值Li的均值与正则化损失R(W)之和。

上式被称作softmax函数：其输入值是一个向量，向量中元素为任意实数的评分值（z中的），函数对其进行压缩，输出一个向量，其中元素值在0到1之间，且所有元素之和为1。

SVM和Softmax的比较

下图有助于区分Softmax和SVM这两种分类器：
在这里插入图片描述 Softmax分类器对于分数是永远不会满意的：正确分类总能得到更高的可能性，错误分类总能得到更低的可能性，损失值总是能够更小。但是，SVM只要边界值被满足了就满意了，不会超过限制去细微地操作具体分数。这可以被看做是SVM的一种特性。举例说来，一个汽车的分类器应该把他的大量精力放在如何分辨小轿车和大卡车上，而不应该纠结于如何与青蛙进行区分，因为区分青蛙得到的评分已经足够低了。

求解梯度dW来得到最优W

$\left\{\begin{aligned} \nabla_{w_{y_i}} L_i = & -x_i + \frac{e^{f_{y_i}}}{\sum_j e^{f_j}} x_i & j = y_i \\ \nabla_{w_j} L_i = & \frac{e^{f_j}}{\sum_j e^{f_j}} x_i & j \ne y_i \end{aligned}\right.$