在CNN中，全连接层后会加上softmax函数，并且一般用交叉熵函数作为损失函数。这篇文章主要记录softmax把CNN的输出变成概率的过程以及交叉熵如何为优化过程提供度量，并且用python实现。

softmax函数

softmax函数将一个N维向量的输入的每一维都转换成区间维（0，1）之间的一个实数，公式如下：
$p_i=\frac{e^{a_i}}{\sum_{k=1}^{N}e_k^a}$
softmax可以将全连接层的输出映射成一个概率分布，我们的训练目标是让属于第k类的样本经过softmax函数之后，第k类概率越大越好。
下面是使用python实现softmax函数：

def softmax(x):
    exps = np.exp(x)
    return exps / np.sum(exps)

由于numpy中浮点类型是有数值上的限制的，对于指数函数来说很容易打破上线返回nan。
为了避免出现nan这种情况，通常在分子和分母上同时乘一个常数C，表达式如下：
$p_j=\frac{e_{a_i}}{\sum_{k=1}^{N}e^{a_k}}=\frac{Ce^{a_i}}{C\sum_{k=1}^{N}e^{a_k}}=\frac{e^{{a_i+log(C)}}}{\sum_{k=1}^{N}e^{a_k+log(C)}}$
理论上我们可以选择任何一个值作为log(C)，但是一般我们会选择log(C)=-max(a)，通过这种方法可以使得原来非常大的指数结果变成0，避免出现nan的情况。
下面是用python实现改进后的softmax函数：

def stable_softmax(x):
    exps = np.exp(x-np.max(x))
    return exps / np.sum(exps)

softmax函数的导数推倒过程

softmax函数可以将样本输出变成概率密度函数，由于这一特性我们可以把它放到神经网络最后一层，最理想的输出就是样本类别one-hot的表现形式。我们接下来了解一下如何计算softmax函数的梯度，首先对softmax函数求导：
$\frac{\partial{p_j}}{\partial{a_j}}=\frac{\partial{\frac{e^{a_i}}{\sum_{k=1}^{N}e^{a_k}}}}{\partial{a_j}}$
根据求导法则 $f(x)=\frac{g(x)}{h(x)}$ 的导数为 $f'(x)=\frac{g'(x)h(x)-h'(x)g(x)}{h(x)^2}$ . 在softmax函数中， $g(x)=e^{a_i}$ , $h(x)=\sum_{k=1}^{N}e^{a_k}$ . 对于h(x)来说， $\frac{\partial}{\partial^{a_j}}$ 都为 $e^{a_j}$ , 对于g(x)来说，当i=j的时候 $\frac{\partial}{\partial^{a_j}}$ 才是 $e^{a_j}$ 。下面为softmax函数求导的具体过程：
if i=j:
$\frac{\partial{\frac{e^{a_i}}{\sum_{k=1}^{N}e^{a_k}}}}{\partial{a_j}}=\frac{\frac{e^{a_i\sum_{k=1}^{N}e^{a_k}-e^{a_j}e^{a_i}}}{(\sum_{k=1}^{N}e^{a_k})^2}}{(\sum_{k=1}^{N}e^{a_k})^2}=\frac{e^{a_i}(\sum_{k=1}^{N}e^{a_k}-e^{a_j})}{(\sum_{k=1}^{N}e^{a_k})^2}=\frac{e^{a_j}}{\sum_{k=1}^{N}e^{a_k}}\times\frac{(\sum_{k=1}^{N}e^{a_k}-e^{a_j})}{\sum_{k=1}^{N}e^{a_k}}=p_i(1-p_j)$

if $i\neq j$
$\frac{\partial\frac{e^{a_i}}{\sum_{k=1}^{N}e^{a_k}}}{\partial a_j}=\frac{0-e^{a_j}e^{a_i}}{(\sum_{k=1}^{N}e^a_k)^2}=\frac{-e^{a_j}}{\sum_{k=1}^{N}e^a_k}\times\frac{e^{a_i}}{\sum_{k=1}^{N}e^a_k}=-p_j\cdot p_i$

所以softmax函数可以表示成如下形式：
$\frac{\partial p_j}{\partial a_j} =\begin{cases} p_i(1-p_j) if i=j\\ \ -p_j\cdot p_i if i\neq j \end{cases}$

交叉熵损失函数

交叉熵损失函数体现了模型输出的概率和样本真实概率之间的相似程度，它可以作为foftmax函数激活的神经网络的损失函数，定义如下：
$H(y, p)= -\sum_{i}y_ilog(p_i)$

交叉熵损失函数的求导过程

$L=-\sum_{I}y_ilog(p_i)$
$\frac{\partial L}{\partial o_i}=-\sum_{k}y_k\frac{\partial log(p_k)}{\partial o_i}=-\sum_{k}y_k \frac{\partial log(p_k)}{\partial p_k}\times\frac{\partial{p_k}}{\partial{o_i}}=-\sum y_k \frac{1}{p_k} \times \frac{\partial{p_k}}{\partial o_i}$
加上softmax函数的导数：
$\frac{\partial L}{\partial o_i}=-y_i(1-p_i)-\sum_{k\neq j}y_k\frac{1}{p_k}(-p_k p_i) = -y_i(1-p_i)+\sum_{k \neq 1}y_k \cdot p_i=-y_i + y_ip_i+\sum_{k\neq1}y_k \cdot p_i = p_i (y_i + \sum_{k \neq 1 y_k}-y_i) = p_i (y_i + \sum_{k \neq 1}y_k)-y_i$
y代表标签的one-hot编码，因此 $\sum_{k}y_k=1$ , 并且 $\ y_i + \sum_{k \neq 1} y_k = 1$ 。因此我们可以得到：
$\frac{\partial L}{\partial o_i} = p_i - y_j$

softmax函数和交叉熵损失函数

softmax函数

softmax函数的导数推倒过程

交叉熵损失函数

交叉熵损失函数的求导过程

猜你喜欢