指数分布族和广义线性模型

1.指数分布族

1.1 定义

指数族分布 (The exponential family distribution),区别于指数分布（exponential distribution)。指数分布族不是专指一种分布，而是一系列符合特征的分布的统称。在概率统计中，若某概率分布满足下式，我们就称之属于指数族分布。
$p(y;\theta)=b(y)exp\left(\eta(\theta)T(y)-A(\theta)\right)$
其中， $\eta$ 是分布的自然参数(nature parameter)； $T (y)$ 是充分统计量(sufficient statistic)，通常 $T (y) = y$ 。 $a(\eta)$ 是对数配分函数， $e^{-a(\eta)}$ 在式子中起到归一化作用，保证概率密度函数在随机变量 $y$ 上的积分为1，一旦 $T 、 a 、 b$ 确定，就可以确定一种分布， $\eta$ 为参数。

常用的诸如正态分布，伯努利分布，指数分布，泊松分布，gamma分布都属于指数分布族。

1.2伯努利分布

伯努利分布的概率密度函数为：
$\begin{align} p(y;\theta)&=\theta^y(1-\theta)^{1-y} \\[2ex] &=exp\left(y\log\theta+\left(1-y\right)\log\left(1-\theta\right)\right) \\[2ex] &=exp\left(\log\frac{\theta}{1-\theta}y+\log(1-\theta)\right) \end{align}$
对应指数分布族的概率密度函数可以发现：
$\begin{align} &b(y)=1 \\[2ex] &\eta(\theta)=\log\frac{\theta}{1-\theta}\\[2ex] &T(y)=y \\[2ex] &A(\theta)=-log(1-\theta)=log(1+e^{\eta(\theta)}) \end{align}$

1.3 高斯分布

对于均值为 $\mu$ ，方差为 $\sigma$ 的高斯分布的概率密度函数为：
$\begin{align} p(y;\mu,\sigma)&=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(y-\mu)^2}{2\sigma^2}} \\[2ex] &=\frac{1}{\sqrt{2\pi}}e^{\eta(\mu,\sigma)T(y)-\log\sigma-\frac{\mu^2}{2\sigma^2}} \\[2ex] \end{align}$
对应指数分布族的概率密度函数可以发现:
$\begin{align} &b(y)=\frac{1}{\sqrt{2\pi}} \\[2ex] &\eta(\sigma)=[\frac{\mu}{\sigma^2},-\frac{1}{2\sigma^2}]\\[2ex] &T(y)=[y,y^2] \\[2ex] &A(\theta)=\frac{\mu^2}{2\sigma^2}+\log\sigma \end{align}$

1.4 其他指数分布族

多项式分布（multinomial），用来对多元分类问题进行建模；
泊松分布（Poisson），用来对计数过程进行建模，如网站的访客数量、商店的顾客数量等；
伽马分布（gamma）和指数分布（exponential），用来对时间间隔进行建模，如等车时间等；
β分布（beta）和Dirichlet分布（Dirichlet），用于概率分布；
Wishart分布（Wishart），用于协方差矩阵分布。

2.广义线性模型(GLM)

我们所熟知的线性回归，逻辑回归都属于glm，其中线性回归假设服从高斯分布，逻辑回归假设服从伯努利分布，但是为什么要这样并不是非常清楚。

2.1 三个假设

在给定自变量 $x$ 和参数 $\theta$ 的情况下，因变量 $y$ 服从指数分布族
给定 $x$ ，最终目的是求出 $T (y)$ 的期望 $E [T (y) ∣ x]$
自然参数 $\eta$ 可以表示为自变量 $x$ 的线性关系，即 $η=\theta^Tx$

广义线性模型通过拟合 $y$ 的条件均值/期望(在 $x$ 和参数 $\theta$ 给定的情况下)，并假设 $y$ 符合指数分布族中的某种分布，从而扩展了标准线性模型

2.2 伯努利分布

对于伯努利分布，因为是二分类问题，我们选择 $p(y|x;\theta) \sim Bernoulli(\Phi)$ 的均值为 $\phi$ ，就是指数分布族下的唯一参数。根据上面的推导可得：
$\begin{align} h_\theta(x) &= E[y|x;\theta] \\[2ex] & =\Phi \end{align}$

$\begin{align} \eta&=\log\frac{\phi}{1-\phi}\\[2ex] &=\theta^Tx \\[2ex] \end{align}$
推导出：
$\begin{align} y&=\frac{1}{1+e^{-\eta}}\\[2ex] &=\frac{1}{1+e^{-\theta^Tx}}\ \\[2ex] \end{align}$
上式就是逻辑回归的表达式，对应与逻辑回归下y作伯努利分布的假设。

2.3 高斯分布

对于高斯分布， $y$ 的均值为参数 $\mu$ ，根据上面的推导可得：
$y=\mu=\eta=\theta^Tx(假设\sigma=1)$
上式和线性回归对于 $y$ 作高斯分布的假设相呼应

3.GLM建模过程

根据问题在指数分布族中选择一种分布作为对 $y$ 的假设
计算该分布下的 $\eta$ ，实际上 $\eta=\eta(w^T)$ ，其中 $w^T$ 为该分布的真实参数，而 $\eta$ 只是以 $w^T$ 为参数的一个link function
计算该分布的期望，将其用 $\eta$ 表示，例如上面伯努利分布时的 $y=\phi=\frac{1}{1+e^{−η}}$
根据GLM的假设替换 $\eta=\theta^Tx$ 即得到GLM模型

4.总结

指数族分布的形式： $p(y;\theta)=b(y)exp\left(\eta(\theta)T(y)-A(\theta)\right)$
常用的诸如正态分布，伯努利分布，指数分布，泊松分布，gamma分布都属于指数分布族。
广义线性模型通过拟合 $y$ 的条件均值/期望(在 $x$ 和参数 $\theta$ 给定的情况下)，并假设 $y$ 符合指数分布族中的某种分布，从而扩展了标准线性模型。

本文仅作为个人学习记录使用, 不用于商业用途, 谢谢您的理解合作。

参考：https://shangzhih.github.io/zhi-shu-fen-bu-zu-he-yan-yi-xian-xing-hui-gui.html