Logistic回归
Logistic回归为概率型非线性回归模型,是研究观察结果与一些影响因素之间关系的一种多变量分析方法。
虽然名字中带有“回归”二字,但是它是一种常见的分类问题的方法。
设条件慨率为根据某自变量相对于某事件发生的概率。
Logistic回归模型为:
这里称为sigmoid函数,其中。
为什么要用sigmoid函数?
(1)从sigmoid函数本身理解
sigmoid函数如图所示,由于Logistic回归为一个概率问题,需要将值约束在0-1范围之内,因此使用了sigmoid函数,使其约束在0-1范围之内。
为什么不用阶跃函数?
阶跃函数:
因为在x=0处不可导,无法利用梯度下降法等求导方法,因此不使用这种函数。
(2)从概率分布角度理解
Logistic回归按照概率分布的角度,其密度函数,可以写成如下形式:
即
上述这个分布是伯努利分布,而伯努利分布是指数分布簇中的一个分布;Logistic分布属于广义线性模型中的一种,因此可以从指数分布簇如果满足三个条件,就可以推出广义线性模型。从这个角度出发,来看一下哪部分是sigmoid函数。
对比指数分布簇:
可得:
由广义线性模型的三条假设:
可知:
(1)Logistic的分布服从伯努利分布,因此指数分布,参数为p
(3)与x为线性关系,即
由于,故
将带入,即有,从这可以看出sigmoid函数的形式。
(2)条件二也是很容易得出的,
Logistic模型参数求解
利用极大似然函数估计模型参数:
设:
似然函数为:
对数似然函数为:
对最大化求解,得到w的估计值。
这块就可以用参数求解的方法了,就不再写了。
利用sklearn包,做回归分析,可以参考 刘建平的这篇博客。https://www.cnblogs.com/pinard/p/6035872.html
参考文献
《统计学习方法》-李航