一.逻辑斯谛回归模型

1.逻辑斯谛分布函数（logistic distribution）: u为位置参数，y>0为形状参数---------->u控制下图对称中心点的X坐标值，y控制在中心附近增长速度的快慢。例如u=1，y=2的函数图像为红色曲线所示
$F(X)=P（X<=x）=\frac{1}{1+e^{-(x-u)/y}}$

sigmoid函数满足逻辑斯谛分布，其位置参数u为0，形状参数y为1

2.逻辑斯谛概率密度函数：
$f(x)=F^,(x)=\frac{e^{-(x-u)/y}}{y(1+e^{-(x-u)/y})^2}$

二. 二项逻辑斯谛回归模型

二项逻辑斯谛回归模型（binomial logistic regression model）是一种分类模型，由条件概率分布P（Y|X）表示，这里举例都是随机变量Y=1或0
$P(Y=1|x)=\frac{exp(wx+b)}{1+exp(wx+b)}$ $P(Y=0|x)=\frac{1}{1+exp(wx+b)}$
下面一个时间发生的概率为p，那么该事件发生的几率为 $\frac{p}{1-p}$ ,那么该事件的对数几率或logit函数为 $logit(p)=log\frac{p}{1-p}$ 而对逻辑斯谛回归模型而言，由上面的逻辑斯谛回归模型可得 $logit(\frac{P(Y=1|x)}{1-P(Y=1|x)})=log(exp(wx+b))=wx+b$
这就是说，在逻辑斯谛回归模型中，输出Y的对数几率是输入x的线性函数，输出Y的对数几率是有输入x的线性函数表示的模型，也就是再一次印证了逻辑斯谛回归模型是属于对数线性模型.

对数线性模型：当一个概率函数P(Y|X)加上logit函数也就是logP(Y|X)=wx就称为该模型为对数线性模型。

换一个角度看,在输入x进行分类的线性函数w.x乃至于复杂的F(x)函数，其值域为实数，通过逻辑斯谛回归模型可以将w.x转换为概率，这时线性函数值接近正无穷，概率值就接近1，函数值接近负无穷，概率值就接近0，这样的模型就是逻辑斯谛回归模型（sigmod模型是特殊的逻辑斯谛回归模型） $P(Y=m|x)=\frac{exp(wx+b)}{1+exp(wx+b)}$

三.模型参数估计

1.常见的参数估计方法：

本书中给出了通过极大似然估计（MLE）来进行参数估计

1.极大似然估计：在结果发生时，原因为概率最大的原因A。例如：一个程序员和一个哲学家各写了一行字，当你看到Hello，World 时，那么你就会估计是程序员写的。

2.极大似然函数： $\prod_{i=1}^NP(x_i;\theta) ps：所有结果集概率积$

对于给定的数据集T={(x1,y1),(x2,y2),(x3,y3),…(xn,yn)},其中xi属于R，yi属于0,1
设： $P(Y=1|x)=\pi(x),P(Y=0|x)=1-\pi(x)$ ,似然函数为 $\prod_{i=1}^N[\pi(x_i)]^{y_i}[1-\pi(x)]^{1-y_i}$ 则对数似然函数为 $L(w)=log\prod_{i=1}^N[\pi(x_i)]^{y_i}[1-\pi(x)]^{1-y_i}=\sum_{i=1}^Ny_ilog\pi_i+(1-y_i)log(1-\pi_i)=\sum_{i=1}^Ny_ilog\frac{\pi_i}{1-\pi_i}+log(1-\pi_i)=\sum_{i=1}^Ny_i(w.x_i)-log(1+exp(x.x_i))$
通过不断BP得到最优的 $\overline w$ ，这样学到的逻辑斯谛回归模型为 $P(Y=1|x)=\frac{exp(\overline wx+b)}{1+exp(\overline wx+b)}$ $P(Y=0|x)=\frac{1}{1+exp(\overline wx+b)}$

四.多项逻辑斯谛回归

1.假设离散型随机变量Y的取值集合是{1,2，… ,K}，那么多项逻辑斯谛回归模型是
$P(Y=k | x)=\frac{exp(w_k.x)}{\sum_{k=1}^{K}exp(w_k.x)}$
$P(Y=K | x)=\frac{exp(w_K.x)}{\sum_{k=1}^{K}exp(w_k.x)}$
2.多项参数模型估计类推为----->
$P(Y=1|x)=\frac{exp(w_1.x)}{\sum_{k=1}^{K}exp(w_k.x)}，... ，P(Y=K|x)=\frac{exp(w_K.x)}{\sum_{k=1}^{K}exp(w_k.x)}$
3.多项极大似然估计函数为, $I(y_i=k)$ 是指当Yi=k时为1，不等于时为0------> $\prod_{k=1}^K\prod_{i=1}^N\frac{exp(w_k.x)}{\sum_{k=1}^{K}exp(w_k.x)}^{I(y_i=k)}$
4.对数似然函数为------->
$L(w)=log\prod_{k=1}^K\prod_{i=1}^N\frac{exp(w_k.x)}{\sum_{k=1}^{K}exp(w_k.x)}^{I(y_i=k)}=\sum_{k=1}^K\sum_{i=1}^N{I(y_i=k)}\times [(w_k.x)-log\sum_{k=1}^{K}exp(w_k.x)]$
接下来求L(w)的最大值，得到最优参数 $w_1$ , $w_2$ ,…, $w_K$

5.总结：多项逻辑斯谛回归参数 $w_i$ 类似于单层多分类感知机
在这里插入图片描述

五.最大熵模型

1.最大熵原理：在所有学习概率模型中，熵最大的模型是最好的模型:
$H(p)=-\sum_{i=1}^np(x)log p(x)$ ,当随机变量X满足均匀分布时，熵最大，直观的说最大熵原理认为要选择的概率模型首先要满足已有的事实，即约束条件，没有更多的条件下，那些不确定性都是等可能的，而等可能性不容易操作，则通过优化最大熵来完成该操作。

eg：世界末日的时候，当我知道你为人类做出巨大贡献时，可以提高你转移的概率，当身份没有区别的时候等可能性是最好的方案（最容易令人信服），最大熵模型就是这个思路

2.书中给出一个栗子：假设随机变量X有5个取值{A,B,C,D,E}，要估计取各个值的概率P(A)，P(B)，P( C )，P(D)，P(E)
P(A)+P(B)+P( C )+P(D)+P(E)=1
满足这个约束条件的概率分布有很多，如果没有其他信息的约束，则认为分布中各个值概率是相等的
P(A)=P(B)=P( C )=P(D)=P(E)= 1/5
当能从其他知识中获得一些约束条件，继续按照约束条件进行估计，这样的概率模型学习方法正式遵循了最大熵原理。

六.最大熵的模型定义

给定一个数据集T={(x1,y1),(x2,y2),(x3,y3),…(xn,yn)},首先给出了联合分布P（x，y）的经验分布和边缘分布P（x）的经验分布 $\overline P(X=x,Y=y)=\frac{v(X=x,Y=y)}{N}$ , $\overline P(X=x)=\frac{v(X=x)}{N}$ v()代表频数函数，N为训练样本的容量。用特征函数f（x，y）表示输入x和输出y之间的某一个事实 $f(x,y)=\frac{1,x与y满足某一事实}{0，否则}$ 关于特征函数f（x，y）对于经验分布P（x，y）的分布 $E_{\overline P}(f)=\sum_{x,y}\overline P(x,y)f(x,y)$ 关于P(X)的期望为 $E_{ P}(f)=\sum_{x,y}\overline P(x)P(y|x)f(x,y),因为\overline P(x)P(y|x)=P（x,y）$ 如果模型能够获取训练数据中的信息，那么假设这两个期望相等，即 $\sum_{x,y}\overline P(x)P(y|x)f(x,y)==\sum_{x,y}\overline P(x,y)f(x,y)$ 那么在条件概率分布P(Y|X)上的条件熵(学习的目的就是求出在给出的X条件下Y的概率)为： $H(P)=-\sum_{x,y}\overline P(x)P(y|x)logP(y|x)$ H(P )最大的模型就是最大熵模型

七.最大熵模型的学习

$max H(P)=-\sum_{x,y}\overline P(x)P(y|x)logP(y|x) \\ s.t.\sum_{x,y}\overline P(x)P(y|x)f(x,y)==\sum_{x,y}\overline P(x,y)f(x,y)\\\sum_yP(y|x)=1$
1.按照习惯转换为最小化问题
$min H(P)=\sum_{x,y}\overline P(x)P(y|x)logP(y|x) \\ s.t.\sum_{x,y}\overline P(x)P(y|x)f(x,y)==\sum_{x,y}\overline P(x,y)f(x,y)\\\sum_yP(y|x)=1$
2.将约束最优化问题转为无约束最优化的对偶问题，首先引进拉格朗日乘子 $w_0$ , $w_1$ ,…, $w_n$ ,定义拉格朗日函数L(P，W)
$L(P,W)=-H(P)+w_0[1-\sum P(y|x)]+\sum_{i=1}^n w_i(E_{\overline P}(f_i)-E_p(f_i))=\sum_{x,y}\overline P(x)P(y|x)logP(y|x) +w_0[1-\sum P(y|x)]+\sum_{i=1}^n [\sum_{x,y}\overline P(x)P(y|x)f(x,y)-\sum_{x,y}\overline P(x,y)f(x,y)]$
3.最优化原始问题为 $min_P |max_wL(P,W)$ ,对偶问题为 $max_w |min_P L(P,W)$ 拉格朗日对偶问题—解决最优化约束问题

761527200

发布了27 篇原创文章 · 获赞 81 · 访问量 5661

私信关注

统计学习方法 --- 逻辑斯谛回归与最大熵模型