西瓜书第3章公式推导三

3.4 softmax回归

3.4.1softmax回归推导
softmax回归可以看成是逻辑回归在多分类问题上的推广。

softmax回归因为 $y^{(i)}\in \left[ 1,2,\ldots,k\right]$ ，有k个样本类型，所以假设函数为

h (θ) = [\begin{matrix} p (y^{(i)} = 1 | x^{(i)}; θ) \\ p (y^{(i)} = 2 | x^{(i)}; θ) \\ \dots \\ p (y^{(i)} = k | x^{(i)}; θ) \end{matrix}] = \frac{1}{\sum_{j = 1}^{k} e^{θ_{j}^{T} x^{(i)}}} [\begin{matrix} e^{θ_{1}^{T} x^{(i)}} \\ e^{θ_{2}^{T} x^{(i)}} \\ \dots e^{θ_{k}^{T} x^{(i)}} \end{matrix}]

$h(\theta)= \left[ \begin{matrix} p(y^{(i)}=1|x^{(i)};\theta) \\ p(y^{(i)}=2|x^{(i)};\theta) \\ \ldots\\ p(y^{(i)}=k|x^{(i)};\theta) \end{matrix} \right]= \frac{1}{\sum_{j=1}^k e^{\theta^T_j x^{(i)}}} \left[ \begin{matrix} e^{\theta_1^T x^{(i)}} \\ e^{\theta_2^T x^{(i)}} \\ \ldots e^{\theta_k^T x^{(i)}} \\ \end{matrix} \right]$

即 求 出 每 一 个 类 别 的 概 率 值 。 \frac{1}{\sum_{j = 1}^{k} e^{θ_{j}^{T} x^{(i)}}} 则 是 归 一 化 ， 使 总 和 为 1 。

$即求出每一个类别的概率值。\frac{1}{\sum_{j=1}^k e^{\theta^T_j x^{(i)}}}则是归一化，使总和为1 。$
下面公式的

1 {\cdot}

$1\{ \cdot \}$ 为示性函数,取值规划：

1 {值 为 真 的 表 达 式} = 1

$1\{值为真的表达式\}=1$
例如1{2+2=4}=1,1{1+1=5}=0。

那么softmax回归的代价函数为

\begin{aligned} (1) & J (θ) = & - \frac{1}{m} [\sum_{i = 1}^{m} \sum_{j = 1}^{c} 1 {y_{j}^{(i)} = 1} \log P_{j}^{(i)}] \\ (2) & = & - \frac{1}{m} [\sum_{i = 1}^{m} \sum_{j = 1}^{k} 1 {y_{j}^{(i)} = 1} \log \frac{e^{θ_{j}^{T} x^{(i)}}}{\sum_{j = 1}^{k} e^{θ_{j}^{T} x^{(i)}}}] \end{aligned}

$\begin{align} J(\theta)=& -\frac{1}{m}\left[ \sum_{i=1}^m \sum_{j=1}^c 1\{y^{(i)}_j=1\}\log P^{(i)}_j \right] \\ =& -\frac{1}{m}\left[ \sum_{i=1}^m \sum_{j=1}^k 1\{y^{(i)}_j=1\} \log \frac{e^{\theta_j^T x^{(i)}}}{\sum_{j=1}^k e^{\theta_j^T x^{(i)}}} \right] \end{align}$

$\begin{aligned} (15) & \nabla_{θ_{j}} = & - \frac{1}{m} \frac{\partial \sum_{i = 1}^{m} \sum_{j = 1}^{k} 1 {y_{j}^{(i)} = 1} \log P_{j}^{(i)}}{\partial θ_{j}} \\ (16) & = & - \frac{1}{m} \frac{\partial \sum_{j = 1}^{k} \sum_{i = 1}^{m} 1 {y_{j}^{(i)} = 1} \log P_{j}^{(i)}}{\partial θ_{j}} \\ (17) & = & - \frac{1}{m} \frac{\partial \sum_{i = 1}^{m} 1 {y_{1}^{(i)} = 1} \log P_{1}^{(i)} + \sum_{i = 1}^{m} 1 {y_{2}^{(i)} = 1} \log P_{2}^{(i)} + \dots + \sum_{i = 1}^{m} 1 {y_{l}^{(i)} = 1} \log P_{j}^{(i)} + \dots + \sum_{i = 1}^{m} 1 {y_{k}^{(i)} = 1} \log P_{k}^{(i)}}{\partial θ_{j}} \\ (18) & = & - \frac{1}{m} \frac{\partial \sum_{i = 1}^{m} 1 {y_{1}^{(i)} = 1} \log \frac{e^{θ_{1}^{T} x^{(i)}}}{\sum_{j = 1}^{k} e^{θ_{j}^{T} x^{(i)}}} + \sum_{i = 1}^{m} 1 {y_{2}^{(i)} = 1} \log \frac{e^{θ_{2}^{T} x^{(i)}}}{\sum_{j = 1}^{k} e^{θ_{j}^{T} x^{(i)}}} + \dots + \sum_{i = 1}^{m} 1 {y_{l}^{(i)} = 1} \log \frac{e^{θ_{k}^{T} x^{(i)}}}{\sum_{j = 1}^{m} e^{θ_{j}^{T} x^{(i)}}} + \dots + \sum_{i = 1}^{m} 1 {y_{k}^{(i)} = 1} \log \frac{e^{θ_{m}^{T} x^{(i)}}}{\sum_{j = 1}^{m} e^{θ_{m}^{T} x^{(i)}}}}{\partial θ_{j}} \\ (19) & = & - \frac{1}{m} \frac{\partial \sum_{i = 1}^{m} 1 {y_{1}^{(i)} = 1} \log e^{θ_{1}^{T} x^{(i)}} + \dots + \sum_{i = 1}^{m} 1 {y_{l}^{(i)} = 1} \log e^{θ_{k}^{T} x^{(i)}} + \dots + \sum_{i = 1}^{m} 1 {y_{k}^{(i)} = 1} \log e^{θ_{m}^{T} x^{(i)}} - \sum_{i = 1}^{m} \log \sum_{j = 1}^{k} e^{θ_{j}^{T} x^{(i)}}}{\partial θ_{j}} \\ (20) & = & - \frac{1}{m} [0 + 0 + \dots + 0 + \sum_{i = 1}^{m} 1 {y_{j}^{(i)} = 1} x^{(i)} + 0 + \dots + 0 - \sum_{i = 1}^{m} \frac{e^{θ_{j}^{T} x_{(i)}}}{\sum_{j = 1}^{k} e^{θ_{j}^{T} x^{(i)}}} x^{(i)}] \\ (21) & = & - \frac{1}{m} [\sum_{i = 1}^{m} (1 {y_{j}^{(i)} = 1}) - P_{j}^{(i)}] \end{aligned}$ $\begin{align} \nabla_{\theta_j} =& -\frac{1}{m}\frac{\partial \sum_{i=1}^m \sum_{j=1}^k1\{y^{(i)}_j = 1\} \log P^{(i)}_j}{\partial\theta_j} \\ =& -\frac{1}{m}\frac{\partial \sum_{j=1}^k \sum_{i=1}^m 1\{y^{(i)}_j = 1\}\log P^{(i)}_j}{\partial\theta_j} \\ =& -\frac{1}{m}\frac{\partial \sum_{i=1}^m 1\{y^{(i)}_1 = 1\}\log P^{(i)}_1 + \sum_{i=1}^m 1\{y^{(i)}_2 = 1\}\log P^{(i)}_2 +\ldots+ \sum_{i=1}^m 1\{y^{(i)}_l = 1\}\log P^{(i)}_j +\ldots+ \sum_{i=1}^m 1\{y^{(i)}_k = 1\}\log P^{(i)}_k} {\partial\theta_j} \\ =& -\frac{1}{m}\frac{\partial \sum_{i=1}^m 1\{y^{(i)}_1 = 1\}\log \frac{e^{\theta^T_1x^{(i)}}}{\sum_{j=1}^k e^{\theta^T_jx^{(i)}} } + \sum_{i=1}^m 1\{y^{(i)}_2 = 1\}\log \frac{e^{\theta^T_2x^{(i)}}}{\sum_{j=1}^k e^{\theta^T_jx^{(i)}} } + \ldots+ \sum_{i=1}^m 1\{y^{(i)}_l = 1\}\log \frac{e^{\theta^T_kx^{(i)}}}{\sum_{j=1}^m e^{\theta^T_jx^{(i)}} }+ \ldots+ \sum_{i=1}^m1\{y^{(i)}_k = 1\}\log \frac{e^{\theta^T_mx^{(i)}}}{\sum_{j=1}^m e^{\theta^T_mx^{(i)}} }} {\partial\theta_j} \\ =& -\frac{1}{m}\frac{\partial \sum_{i=1}^m 1\{y^{(i)}_1 =1\}\log{e^{\theta^T_1x^{(i)}}} + \ldots+ \sum_{i=1}^m 1\{y^{(i)}_l = 1\}\log {e^{\theta^T_kx^{(i)}}}+ \ldots+ \sum_{i=1}^m 1\{y^{(i)}_k = 1\}\log {e^{\theta^T_mx^{(i)}}} - \sum_{i=1}^m\log \sum_{j=1}^k e^{\theta^T_jx^{(i)}} } {\partial\theta_j} \\ =& -\frac{1}{m}\left[ 0+0+\ldots+0+\sum_{i=1}^m1\{y_j^{(i)} = 1\}x^{(i)}+0+\ldots+0-\sum_{i=1}^m\frac{e^{\theta^T_jx_{(i)}}}{\sum_{j=1}^ke^{\theta^T_jx^{(i)}}}x^{(i)} \right] \\ =& -\frac{1}{m}\left[ \sum_{i=1}^m(1\{y_j^{(i)} = 1\}) - P_j^{(i)}\right] \end{align}$

所以

θ_{j} := θ_{j} - α \nabla_{θ_{j}}

$\theta_j:=\theta_j - \alpha \nabla_{\theta_j}$
对于

J (θ)

$J(\theta)$ 最小化没有闭合的方法，所以使用迭代的优化算法（例如梯度下降法，或 L-BFGS）。
3.4.2softmax冗余特点解决

假 设 我 们 从 参 数 向 量 θ_{j} 中 减 去 了 向 量 Ψ

$假设我们从参数向量\theta_j中减去了向量\Psi$

\begin{aligned} (22) & p (y_{(i)} = j | x^{(i)}; θ) = & \frac{e^{(θ_{j} - Ψ)^{T} x^{(i)}}}{\sum_{l = 1}^{k} e^{(θ_{l} - Ψ)^{T} x^{(i)}}} \\ (23) & = & \frac{e^{θ_{j}^{T} x^{(i)}} e^{- Ψ^{T} x^{(i)}}}{\sum_{l = 1}^{k} e^{(θ_{l})^{T} x^{(i)}} e^{- Ψ^{T} x^{(i)}}} \\ (24) & = & \frac{e^{(θ_{j})^{T} x^{(i)}}}{\sum_{l = 1}^{k} e^{(θ_{l})^{T} x^{(i)}}} \end{aligned}

$\begin{align} p(y_{(i)}=j|x^{(i)};\theta) =& \frac{e^{(\theta_j-\Psi)^Tx^{(i)}}}{\sum_{l=1}^ke^{(\theta_l-\Psi)^Tx^{(i)}}} \\ =& \frac{e^{\theta_j^Tx^{(i)}} e^{-\Psi^Tx^{(i)}}}{\sum_{l=1}^ke^{(\theta_l)^T x^{(i)}}e^{-\Psi^Tx^{(i)}}} \\ =& \frac{e^{(\theta_j)^Tx^{(i)}}}{\sum_{l=1}^ke^{(\theta_l)^Tx^{(i)}}} \end{align}$
不影响结果。如果参数

(θ_{1}, θ_{2}, \dots, θ_{k})

$(\theta_1,\theta_2,\ldots,\theta_k)$ 是代价函数

J (θ)

$J(\theta)$ 的极小值点，那么

(θ_{1} - Ψ, θ_{2} - Ψ, \dots, θ_{k} - Ψ)

$(\theta_1-\Psi,\theta_2-\Psi,\ldots,\theta_k-\Psi)$ 同样也是它的极小值点，其中

Ψ

$\Psi$ 可以为任意向量。因此使

J (θ)

$J(\theta)$ 最小化的解不是唯一的。（有趣的是，由于仍然是一个凸函数，因此梯度下降时不会遇到局部最优解的问题。但是 Hessian 矩阵是奇异的/不可逆的，这会直接导致采用牛顿法优化就遇到数值计算的问题）。

在实际应用中，为了使算法实现更简单清楚，往往保留所有参数，而不任意地将某一参数设置为 0。但此时我们需要对代价函数做一个改动：加入权重衰减。权重衰减可以解决 softmax 回归的参数冗余所带来的数值问题。

增加一个权重衰减项 $\frac{\lambda}{2}\sum_{i=1}^k\sum_{j=0}^n\theta_{ij}^2$ 来修改代价函数，这个衰减项会惩罚过大的参数值

J (θ) = - \frac{1}{m} [\sum_{i = 1}^{m} \sum_{j = 1}^{k} 1 {y_{(i)} = j} \log \frac{e^{θ_{j}^{T} x^{(i)}}}{\sum_{l = 1}^{k} e^{(θ_{l})^{T} x^{(i)}}}] + \frac{2}{λ \sum_{i = 1}^{k} \sum_{j = 0}^{n} θ_{i j}^{2}}

$J(\theta)=-\frac{1}{m}\left[ \sum_{i=1}^m\sum_{j=1}^k 1\{y_{(i)}=j \} \log \frac{e^{\theta_j^T x^{(i)}}}{\sum_{l=1}^k e^{(\theta_l)^T x^{(i)}}}\right] + \frac{2}{\lambda\sum_{i=1}^k\sum_{j=0}^n \theta_{ij}^2}$
有了这个权重衰减项以后

(λ > 0)

$(\lambda>0)$ ，代价函数就变成了严格的凸函数，这样就可以保证得到唯一的解了。此时的Hessian矩阵变为可逆矩阵，并且因为

J (θ)

$J(\theta)$ 是凸函数，梯度下降法和 L-BFGS 等算法可以保证收敛到全局最优解。
这个新

J (θ)

$J(\theta)$ 导数

\nabla_{θ_{j}} J (θ) = - \frac{1}{m} \sum_{i = 1}^{m} [x^{(i)} (1 y^{(i)} = j - p (y^{(i)} = j | x^{(i)}; θ))] + λ θ_{j}

$\nabla_{\theta_j} J(\theta)=-\frac{1}{m}\sum_{i=1}^m\left[ x^{(i)}(1{y^{(i)}=j}-p(y^{(i)}=j|x^{(i)};\theta))\right] + \lambda\theta_j$
3.4.3softmax回归雨逻辑回归关系
对于 逻辑回归有假设函数

h_{θ} (x) = \frac{1}{1 + e^{- θ^{T} x}}

$h_\theta(x)=\frac{1}{1+e^{-\theta^Tx}}$
则其损失函数为

J (θ) = - \frac{1}{m} [\sum_{i = 1}^{m} y_{i} \log h_{θ} (x_{i}) + (1 - y_{i}) \log (1 - h_{θ} (x_{i}))]

$J(\theta)= -\frac{1}{m} \left[ \sum_{i=1}^m y_i \log h_\theta (x_i) + \left(1-y_i\right) \log \left(1- h_\theta \left(x_i\right) \right) \right]$
因为softmax回归是逻辑回归函数推广，所以逻辑回归可以改为：

\begin{aligned} (25) & J (θ) = & - \frac{1}{m} [\sum_{i = 1}^{m} y_{i} \log h_{θ} (x_{i}) + (1 - y_{i}) \log (1 - h_{θ} (x_{i}))] \\ (26) & = & - \frac{1}{m} [\sum_{i = 1}^{m} \sum_{j = 1}^{k} 1 {y_{i} = j} \log p (y_{i} = j | x_{i}; θ)] \end{aligned}

$\begin{align} J(\theta) =& -\frac{1}{m} \left[ \sum_{i=1}^m y_i \log h_\theta (x_i) + \left(1-y_i\right) \log \left(1- h_\theta \left(x_i\right) \right) \right] \\ =& -\frac{1}{m}\left[\sum_{i=1}^m \sum_{j=1}^k 1\{y_i=j\} \log p(y_i=j|x_i;\theta) \right] \end{align}$
只不过对其而言k=2 。
3.4.4Softmax 回归 vs. k 个二元分类器
如果你在开发一个音乐分类的应用，需要对k种类型的音乐进行识别，那么是选择使用 softmax 分类器呢，还是使用 logistic 回归算法建立 k 个独立的二元分类器呢？

这一选择取决于你的类别之间是否互斥，例如，如果你有四个类别的音乐，分别为：古典音乐、乡村音乐、摇滚乐和爵士乐，那么你可以假设每个训练样本只会被打上一个标签（即：一首歌只能属于这四种音乐类型的其中一种），此时你应该使用类别数 k = 4 的softmax回归。（如果在你的数据集中，有的歌曲不属于以上四类的其中任何一类，那么你可以添加一个“其他类”，并将类别数 k 设为5。）

如果你的四个类别如下：人声音乐、舞曲、影视原声、流行歌曲，那么这些类别之间并不是互斥的。例如：一首歌曲可以来源于影视原声，同时也包含人声。这种情况下，使用4个二分类的 logistic 回归分类器更为合适。这样，对于每个新的音乐作品，我们的算法可以分别判断它是否属于各个类别。

现在我们来看一个计算视觉领域的例子，你的任务是将图像分到三个不同类别中。(i) 假设这三个类别分别是：室内场景、户外城区场景、户外荒野场景。你会使用sofmax回归还是 3个logistic 回归分类器呢？ (ii) 现在假设这三个类别分别是室内场景、黑白图片、包含人物的图片，你又会选择 softmax 回归还是多个 logistic 回归分类器呢？

在第一个例子中，三个类别是互斥的，因此更适于选择softmax回归分类器。而在第二个例子中，建立三个独立的 logistic回归分类器更加合适。