交叉熵损失函数原理和推导

一交叉熵原理

1 信息量

信息量的大小与信息发生的概率成反比。
公式如下：
$I (x) = - l o g (P (x))$
其中， $I (x)$ 为信息量, $P (x)$ 为某一事件发生的概率

2 信息熵(熵)

信息熵用来表示所有信息量的期望。
公式如下：
$H(\mathrm{X})=-\sum_{i=1}^{n} P\left(x_{i}\right) \log \left(P\left(x_{i}\right)\right)$
其中 $X$ 为离散变量 $\ldots, x n)$

3 相对熵(KL散度)

使用KL散度来衡量对于同一随机变量的两个单独概率分布之间的差异。
公式如下：

$D_{K L}(p \| q)=\sum_{i=1}^{n} p\left(x_{i}\right) \log \left(\frac{p\left(x_{i}\right)}{q\left(x_{i}\right)}\right)$
$P (x)$ 表示样本的真实分布， $Q (x)$ 表示模型所预测的分布。
KL散度越小，表示 $P (x)$ 和 $Q (x)$ 的分布更接近，反复训练 $Q (x)$ 使其分布逼近 $P (x)$ 。

4 交叉熵

交叉熵=相对熵-信息熵
$q)=\left[-\sum_{i=1}^{n} p\left(x_{i}\right) \log \left(q\left(x_{i}\right)\right)\right]$
注：
$\begin{gathered} D_{K L}(p \| q)=\sum_{i=1}^{n} p\left(x_{i}\right) \log \left(\frac{p\left(x_{i}\right)}{q\left(x_{i}\right)}\right) \\ =\sum_{i=1}^{n} p\left(x_{i}\right) \log \left(p\left(x_{i}\right)\right)-\sum_{i=1}^{n} p\left(x_{i}\right) \log \left(q\left(x_{i}\right)\right) \\ =H(p(x))+\left[-\sum_{i=1}^{n} p\left(x_{i}\right) \log \left(q\left(x_{i}\right)\right)\right] \end{gathered}$
训练网络时输入数据与标签已经确定，即 $P (x)$ 确定，信息熵为常量。KL值越小，预测结果越好，需最小化KL散度，即用交叉熵损失函数计算。

5 小结

交叉熵源于信息论，主要用于度量两个概率分布间的差异性。
在线性回归问题中，常使用MSE作为损失函数；在分类问题中常使用交叉熵作为损失函数，在输出层使用softmax将输出的结果进行处理，使其多个分类的预测值和为1，再通过交叉熵来计算损失。

二推导

1 Logistic交叉熵损失函数

公式：
$J(\theta)=-\frac{1}{m} \sum_{i=1}^{m} y^{(i)} \log \left(h_{\theta}\left(x^{(i)}\right)\right)+\left(1-y^{(i)}\right) \log \left(1-h_{\theta}\left(x^{(i)}\right)\right)$
导数：
$\frac{\partial}{\partial \theta_{j}} J(\theta)=\frac{1}{m} \sum_{i=1}^{m}\left(h_{\theta}\left(x^{(i)}\right)-y^{(i)}\right) x_{j}^{(i)}$
推导
对于logistic回归，m组样本，输入样本 $x^{(i)}=\left(1, x_{1}^{(i)}, x_{2}^{(i)}, \ldots, x_{p}^{(i)}\right)^{T}$ ，为 $p + 1$ 维向量（考虑bias）； $y^{(i)}$ 表示类别，此处取0或1；模型的参数为 $\theta=\left(\theta_{0}, \theta_{1, \ldots,} \theta_{p}\right)^{T}$
$\theta^{T} x^{(i)}:=\theta_{0}+\theta_{1} x_{1}^{(i)}+\cdots+\theta_{p} x_{p}^{(i)} .$
假设函数定义为： $h_{\theta}\left(x^{(i)}\right)=\frac{1}{1+e^{ {-\theta ^T}x^{(i)}}}$
$\begin{gathered} P\left(\hat{y}^{(i)}=1 \mid x^{(i)} ; \theta\right)=h_{\theta}\left(x^{(i)}\right) \\ P\left(\hat{y}^{(i)}=0 \mid x^{(i)} ; \theta\right)=1-h_{\theta}\left(x^{(i)}\right) \\ \log P\left(\hat{y}^{(i)}=1 \mid x^{(i)} ; \theta\right)=\log h_{\theta}\left(x^{(i)}\right)=\log \frac{1}{1+e^{ {-\theta ^{T}} x^{(i)}}} \\ \log P\left(\hat{y}^{(i)}=0 \mid x^{(i)} ; \theta\right)=\log \left(1-h_{\theta}\left(x^{(i)}\right)\right)=\log \frac{e^{-\theta^{T} x^{(i)}}}{1+e^{-\theta^{T} x^{(i)}}} \end{gathered}$
对于第 $i$ 组样本，假设函数表征正确的组合对数概率为：
$\begin{gathered} I\left\{y^{(i)}=1\right\} \log P\left(\hat{y}^{(i)}=1 \mid x^{(i)} ; \theta\right)+I\left\{y^{(i)}=0\right\} \log P\left(\hat{y}^{(i)}=0 \mid x^{(i)} ; \theta\right) \\ =y^{(i)} \log P\left(\hat{y}^{(i)}=1 \mid x^{(i)} ; \theta\right)+\left(1-y^{(i)}\right) \log P\left(\hat{y}^{(i)}=0 \mid x^{(i)} ; \theta\right) \\ =y^{(i)} \log \left(h_{\theta}\left(x^{(i)}\right)\right)+\left(1-y^{(i)}\right) \log \left(1-h_{\theta}\left(x^{(i)}\right)\right) \end{gathered}$
对于 $m$ 组样本可得损失函数：
$J(\theta)=-\frac{1}{m} \sum_{i=1}^{m} y^{(i)} \log \left(h_{\theta}\left(x^{(i)}\right)\right)+\left(1-y^{(i)}\right) \log \left(1-h_{\theta}\left(x^{(i)}\right)\right)$
$J$ 取负号的原因：表征正确的概率值越大，模型对数据的表达能力越好；但在衡量模型优劣时表现误差的损失函数且越小越好。两相矛盾，所以令损失函数对表征正确的组合对数概率取反。
求导
第一步：
$\begin{gathered} J(\theta)=-\frac{1}{m} \sum_{i=1}^{m} y^{(i)} \log \left(h_{\theta}\left(x^{(i)}\right)\right)+\left(1-y^{(i)}\right) \log \left(1-h_{\theta}\left(x^{(i)}\right)\right)\\ =-\frac{1}{m} \sum_{i=1}^{m}\left[-y^{(i)}\left(\log \left(1+e^{-\theta^{T} x^{(i)}}\right)\right)+\left(1-y^{(i)}\right)\left(-\theta^{T} x^{(i)}-\log \left(1+e^{-\theta^{T} x^{(i)}}\right)\right)\right] \\ =-\frac{1}{m} \sum_{i=1}^{m}\left[y^{(i)} \theta^{T} x^{(i)}-\theta^{T} x^{(i)}-\log \left(1+e^{-\theta^{T} x^{(i)}}\right)\right] \\ =-\frac{1}{m} \sum_{i=1}^{m}\left[y^{(i)} \theta^{T} x^{(i)}-\log e^{\theta^{T} x^{(i)}}-\log \left(1+e^{-\theta^{T} x^{(i)}}\right)\right]_{} \\ =-\frac{1}{m} \sum_{i=1}^{m}\left[y^{(i)} \theta^{T} x^{(i)}-\left(\log e^{\theta^{T} x^{(i)}}+\log \left(1+e^{-\theta^{T} x^{(i)}}\right)\right)\right]_{} \\ =-\frac{1}{m} \sum_{i=1}^{m}\left[y^{(i)} \theta^{T} x^{(i)}-\log \left(e^{\theta^{T} x^{(i)}}+1\right)\right] \end{gathered}$
第二步：
$\begin{gathered} \frac{\partial}{\partial \theta_{j}} J(\theta)=\frac{\partial}{\partial \theta_{j}}\left(\frac{1}{m} \sum_{i=1}^{m}\left[\log \left(1+e^{\theta^{T} x^{(i)}}\right)-y^{(i)} \theta^{T} x^{(i)}\right]\right) \\ =\frac{1}{m} \sum_{i=1}^{m}\left(\frac{x_{j}^{(i)} e^{\theta^{T} x^{(i)}}}{1+e^{\theta^{T} x^{(i)}}}-y^{(i)} x_{j}^{(i)}\right) \\ =\frac{1}{m} \sum_{i=1}^{m}\left(h_{\theta}\left(x^{(i)}\right)-y^{(i)}\right) x_{j}^{(i)} \end{gathered}$

2 Softmax交叉熵损失函数

公式：
$C=-\sum_{i} y_{i} \ln a_{i}$
$a_{i}=\frac{e^{z _{i}}}{\sum_{k} e^{z _{k}}},z_{i}=\sum_{j} w_{i j} x_{i j}+b$
其中, $y_{i}$ 表示真实的分类结果， $z_{i}$ 为神经元的输出
$w_{i j}$ 为第 $i$ 个神经元的第 $j$ 个权重， $b$ 是偏移值， $z_{i}$ 表示该网络的第 $i$ 个输出， $a_{i}$ 为给第 $i$ 个输出加softmax函数：
导数：
$\frac{\partial C}{\partial z_{i}}=a_{i}-y_{i}$
推导：
$\frac{\partial C}{\partial z_{i}}=\sum_{j}\left(\frac{\partial C_{j}}{\partial a_{j}} \frac{\partial a_{j}}{\partial z_{i}}\right)$
$\frac{\partial C_{j}}{\partial a_{j}}=\frac{\partial\left(-y_{j} \ln a_{j}\right)}{\partial a_{j}}=-y_{j} \frac{1}{a_{j}}$
对于 $\frac{\partial a_{j}}{\partial z_{i}}$ 有如下两种情况：
（1） $i = j$
$\frac{\partial a_{i}}{\partial z_{i}}=\frac{\partial\left(\frac{e^{z _{i}}}{\sum_{k} e^{z _{k}}}\right)}{\partial z_{i}}=\frac{\sum_{k} e^{z _{k}} e^{z _{i}}-\left(e^{z _{i}}\right)^{2}}{\left(\sum_{k} e^{z _{k}}\right)^{2}}\\ =\left(\frac{e^{z_{i}}}{\sum_{k} e^{z k}}\right)\left(1-\frac{e^{z_{i}}}{\sum_{k} e^{z k}}\right)=a_{i}\left(1-a_{i}\right)$
（2） $\neq j$
$\frac{\partial a_{j}}{\partial z_{i}}=\frac{\partial\left(\frac{e^{z _{j}}}{\sum k e^{z_{k}}}\right)}{\partial z_{i}}=-e^{z_{ j}}\left(\frac{1}{\sum_{k} e^{z k}}\right)^{2} e^{z_ {i}}=-a_{i} a_{j}$
综上：
$\begin{aligned} &\frac{\partial C}{\partial z_{i}}=\sum_{j}\left(\frac{\partial C_{j}}{\partial a_{j}} \frac{\partial a_{j}}{\partial z_{i}}\right)=\sum_{j \neq i}\left(\frac{\partial C_{j}}{\partial a_{j}} \frac{\partial a_{j}}{\partial z_{i}}\right)+\sum_{i=j}\left(\frac{\partial C_{j}}{\partial a_{j}} \frac{\partial a_{j}}{\partial z_{i}}\right) \\ &=\sum_{j \neq i}-y_{j} \frac{1}{a_{j}}\left(-a_{i} a_{j}\right)+\left(-y_{i} \frac{1}{a_{i}}\right)\left(a_{i}\left(1-a_{i}\right)\right) \\ &=\sum_{j \neq i} a_{i} y_{j}+\left(-y_{i}\left(1-a_{i}\right)\right) \\ &=\sum_{j \neq i} a_{i} y_{j}+a_{i} y_{i}-y_{i} \\ &=a_{i} \sum_{j} y_{j}-y_{i} \end{aligned}$
针对分类问题， $y i$ 最终只会有一个类别是1，其他类别都是0
所以 $\frac{\partial C}{\partial z_{i}}=a_{i}-y_{i}$

附录求导公式和法则

基本初等函数求导公式
(1) $\quad(C)^{\prime}=0$
(2) $\quad\left(x^{\mu}\right)^{\prime}=\mu x^{\mu-1}$
(3) $(\sin x)^{\prime}=\cos x$
(4) $(\cos x)^{\prime}=-\sin x$
(5) $(\tan x)^{\prime}=\sec ^{2} x$
(6) $(\cot x)^{\prime}=-\csc ^{2} x$
(7) $(\sec x)^{\prime}=\sec x \tan x$
(8) $(\csc x)^{\prime}=-\csc x \cot x$
(9) $\left(a^{x}\right)^{\prime}=a^{x} \ln a$
(10) $\left(\mathrm{e}^{x}\right)^{\prime}=\mathrm{e}^{x}$
(11) $\left(\log _{a} x\right)^{\prime}=\frac{1}{x \ln a}$
(12) $(\ln x)^{\prime}=\frac{1}{x}$ ,
(13) $(\arcsin x)^{\prime}=\frac{1}{\sqrt{1-x^{2}}}$
(14) $(\arccos x)^{\prime}=-\frac{1}{\sqrt{1-x^{2}}}$
(15) $(\arctan x)^{\prime}=\frac{1}{1+x^{2}}$
(16) $(\operatorname{arccot} x)^{\prime}=-\frac{1}{1+x^{2}}$
求导法则
设 $u = u (x), v = v (x)$ 都可导, 则
(1) $\quad(u \pm v)^{\prime}=u^{\prime} \pm v^{\prime}$
(2) $u)^{\prime}=C u^{\prime}(C$ 是常数)
(3) $\quad(u v)^{\prime}=u^{\prime} v+u v^{\prime}$
(4) $\left(\frac{u}{v}\right)^{\prime}=\frac{u^{\prime} v-u v^{\prime}}{v^{2}}$
复合函数求导法则
设 $y = f (u)$ , 而 $u=\varphi(x)$ 且 $f (u)$ 及 $\varphi(x)$ 都可导, 则复合函数 $y=f[\varphi(x)]$ 的导数为
$\frac{d y}{d x}=\frac{d y}{d u} \cdot \frac{d u}{d x} \text { 或 } y^{\prime}=f^{\prime}(u) \cdot \varphi^{\prime}(x)$