第二节 —— 统计回归分析中的逻辑斯蒂
逻辑斯蒂分布
设X是随机变量。逻辑分布指满足如下累计分布函数和概率密度函数的分布:
F(x)=P(X≤x)=1+es−(x−μ)1
f(x)=F′(x)=s(1+es−(x−μ))2es−(x−μ)
μ:位置参数,决定函数图像沿x轴方向的位移
s:形状参数,决定函数图像的高矮胖瘦
大家可以用几何画板画一下
μ和
s取不同值时的图像,直观的理解一下这两个参数的作用。
F(x)是以点
(μ,21) 中心对称的曲线。它越靠近中心增长越快。
s越小,在中心附近的增长越快。
特别地,当
μ=0,
s=1 时,
F(x)=1+e−x1=σ(x)
逻辑斯蒂分布有和广泛的而应用。它最早来源于生长曲线的需要,现在还用于经济(例如描述一个产品在广告上投入与最后销售额的关系)、人口统计等领域。
逻辑斯蒂回归
对一个二元分类问题建模。
假设一个工厂生产的产品:达标/不达标 ~
Bernoulli(p), p是产品达标的概率。
其中这个p受工厂其他各项指标的影响,比如流水线个数,员工人数,已投入使用时长,当日温度等等。假如我们就把举例的这四个作为特征,也就是说每一条数据(代表一个工厂)的特征向量有四维。
xi
=⎩⎪⎪⎨⎪⎪⎧xi1xi2xi3xi4⎭⎪⎪⎬⎪⎪⎫
角标的含义:
xij代表第 i 条数据的第 j 维。整个数据集的sample总数是N(i = 1, 2, …, N)
逻辑斯蒂回归的dataset应该是这个亚子的:
Index(i) |
ri |
ni |
Pi |
xi
|
1 |
r1 |
n1 |
P1=n1r1 |
(x11 x12 x13 x14) |
2 |
r2 |
n2 |
P2=n2r2 |
(x21 x22 x23 x24) |
… |
… |
… |
… |
… |
… |
… |
… |
… |
… |
N |
rN |
nN |
PN=nNrN |
(xN1 xN2 xN3 xN4) |
其中,
Pi的计算方法就是从这个工厂的产品中抽出n个然后检测出当中有r个达标,用
nr 作为该工厂产品Bernoulli分布的 p . 刚才我们讲p受工厂的四个特征影响,那么我们的目标就是让p用
x
来表示。
Goal: Regress
Pi on
xi
第一个当然想到的是直接把
Pi 当做线性回归里面的 “y“
⇒Model:Pi=β0+β1xi1+...+β4xi4+ϵi
不过这个不太行,因为
0≤Pi≤1,而
xi
Tβ
可能落在这个区间外。这样用
xi
Tβ
表示
Pi 就没有意义。
Idea: Do transformation on
Pi(统计学中 logistic regression 的精髓呀呀呀!)
⇒Model:log(1−PiPi)=β0+β1xi1+...+β4xi4+ϵi
⇔Model:log(1−PiPi)=xi
Tβ
+ϵ
⇔Fitted model:log(1−Pi^Pi^)=xi
Tβ
^
有 ^ 符号的代表是根据样本数据算出来的参数estimates。对上式做一点变形:
Fitted model:Pi^=1+exp(xi
Tβ
)exp(xi
Tβ
)=1+exp(− xi
Tβ
)1=σ(xi
Tβ
)
Index(i) |
ri |
ni |
Pi |
y=log(1−PiPi) |
xi
|
1 |
r1 |
n1 |
P1=n1r1 |
log(1−P1P1) |
(x11 x12 x13 x14) |
2 |
r2 |
n2 |
P2=n2r2 |
log(1−P2P2) |
(x21 x22 x23 x24) |
… |
… |
… |
… |
… |
… |
… |
… |
… |
… |
… |
… |
N |
rN |
nN |
PN=nNrN |
log(1−PNPN) |
(xN1 xN2 xN3 xN4) |
具体在计算的时候,把上面那个表格里每一行的
Pi 都算一个相应的
log(1−PiPi),并把这个当成线性回归里面的 “y”,剩下的回归就都清楚啦~
下面简单说一下为什么要这么做 transformation。
在统计学中一个事件A的几率:odds =
1−P(A)P(A)
对数几率 =
log(1−P(A)P(A))
对数几率这个函数叫做
logit 函数:
logit(y)=1−yy
回到刚才的例子中,那么A =“达标”。
Pi=P(A ∣ xi
)
odds of A at xi
=1−P(A ∣ xi
)P(A ∣ xi
)=1−PiPi
log odds of A at xi
=log(1−PiPi)=xi
Tβ
+ϵ
于是,逻辑斯蒂回归用一句话概括就是:用
x
的线性函数去拟合了二元事件的对数几率。因此,逻辑斯蒂回归也叫作 “对数几率回归”。
广义线性
一般线性:
y=β0+β1xi1+β2xi2+...+ϵi=xi
Tβ
+ϵ
广义线性:
transformation of y=β0+β1xi1+β2xi2+...+ϵi=xi
Tβ
+ϵ
transformation 可以用
log(y),
logit(y),
Φ−1(y) 等等。
←Φ−1是正态分布的累计分布函数的反函数。
在logistic regression中就是用的
logit函数做的 transformation。所以,说白了logistic regression依然是Independent variable
x
的线性模型,只是给Dependent variable 套了一层外衣。