18 回归算法 - Softmax回归 - 信贷审批案例

前两章介绍了logistic回归,logistic模型能够解决二分类的问题。虽然logistic本身只能解决二分类的问题,但是增加一些操作,也能从算法层面实现多分类的问题。

本章开始介绍另一种回归模型:softmax回归

softmax回归: 是logistic回归的一般化,适用于K分类的问题,第k类的参数与向量θk,组成的二维矩阵为 θk*n


先想明白以下几个问题:
1、θk是什么?
θk是一个向量,即第k个分类所对应的一组θ值。

2、n是什么?
n是特征的个数。

3、二维矩阵θk*n是什么?:
第一类分类的θ值: θ11, θ12, ... , θ1n
第二类分类的θ值: θ21, θ22, ... , θ2n
....
第 K类分类的θ值: θk1, θk2, ... , θkn


可见,在softmax回归中,需要求解的参数非常多。
softmax函数的__本质__是:将一个k维的任意实数向量,映射成另一个k维的实数向量,其中向量的每个元素取值都介于0~1之间。

softmax回归__概率函数__为:

属于第k类的概率

演绎:
在Logistic中,属于第一类的概率是p,属于第二类的概率是1-p。
同理,在softmax回归中,若K=3,三种分类的概率之和必然也等于1。
数学公式如下:
$sum_{k=1}^K p(y=k|x;θ) = 1$


接下来我们看看,softmax回归__概率函数__是如何推导出来的。

推导思路和Logistic回归类似,但现在的分类个数 K ≥ 2。
回顾一下Odds的概念:15 回归算法 - Logistic回归 - Logit函数


首先,根据Odds Ration定义,将构造函数写出来:

很多书上的推导公式最终都到上一步为止,经过统一化转换后可以得到我们一开始讲到的softmax回归__概率函数__:

属于第k类的概率
先看明白以上的推导过程,并记住这个结论,以后有时间再进一步解释。


softmax算法的原理:

h(θ) 即预测的概率 p
p的构成:
在logistic中:分类属于0的概率 p,分类属于1的概率1-p ;最终预测结果构成的也是一个向量 [p, 1-p]
在softmax中:

现在思考,让我们获取到了概率矩阵后,如何求解θ?

构造损失函数:
![第i个样本,j从第1分类到第k分类的概率连乘(右),
再把i个样本,i从第1个样本到第m个的上述结果连乘(左)。](https://upload-images.jianshu.io/upload_images/3153092-ea00e02d3a932c67.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)

示性函数,如果满足(y^i=j),即第i个观测值是第j分类的情况,那么I=1

多分类对数似然函数

考虑 j 取1~k的时候连乘的问题:
当 j=1时,连乘的是箭头中的内容,只有当样本 i 属于第1类的时候,I=1,箭头内的内容才需要被计算。否则当样本i 不属于第1类时,I=0,箭头内的内容乘以0还是等于0。

Softmax算法梯度下降求解θ:

最后手写一部分推导公式:

猜你喜欢

转载自yq.aliyun.com/articles/657610
今日推荐