1.指数分布族
1.1 定义
指数族分布 (The exponential family distribution),区别于指数分布(exponential distribution)。 指数分布族不是专指一种分布,而是一系列符合特征的分布的统称。 在概率统计中,若某概率分布满足下式,我们就称之属于指数族分布。
p ( y ; θ ) = b ( y ) e x p ( η ( θ ) T ( y ) − A ( θ ) ) p(y;\theta)=b(y)exp\left(\eta(\theta)T(y)-A(\theta)\right) p(y;θ)=b(y)exp(η(θ)T(y)−A(θ))
其中, η \eta η是分布的自然参数(nature parameter); T ( y ) T(y) T(y)是充分统计量(sufficient statistic),通常 T ( y ) = y T(y)=y T(y)=y。 a ( η ) a(\eta) a(η)是 对数配分函数, e − a ( η ) e^{-a(\eta)} e−a(η)在式子中起到归一化作用,保证概率密度函数在随机变量 y y y上的积分为1, 一旦 T 、 a 、 b T、a、b T、a、b确定,就可以确定一种分布, η \eta η 为参数。
常用的诸如正态分布,伯努利分布,指数分布,泊松分布,gamma分布都属于指数分布族。
1.2伯努利分布
伯努利分布的概率密度函数为:
p ( y ; θ ) = θ y ( 1 − θ ) 1 − y = e x p ( y log θ + ( 1 − y ) log ( 1 − θ ) ) = e x p ( log θ 1 − θ y + log ( 1 − θ ) ) \begin{align} p(y;\theta)&=\theta^y(1-\theta)^{1-y} \\[2ex] &=exp\left(y\log\theta+\left(1-y\right)\log\left(1-\theta\right)\right) \\[2ex] &=exp\left(\log\frac{\theta}{1-\theta}y+\log(1-\theta)\right) \end{align} p(y;θ)=θy(1−θ)1−y=exp(ylogθ+(1−y)log(1−θ))=exp(log1−θθy+log(1−θ))
对应指数分布族的概率密度函数可以发现:
b ( y ) = 1 η ( θ ) = log θ 1 − θ T ( y ) = y A ( θ ) = − l o g ( 1 − θ ) = l o g ( 1 + e η ( θ ) ) \begin{align} &b(y)=1 \\[2ex] &\eta(\theta)=\log\frac{\theta}{1-\theta}\\[2ex] &T(y)=y \\[2ex] &A(\theta)=-log(1-\theta)=log(1+e^{\eta(\theta)}) \end{align} b(y)=1η(θ)=log1−θθT(y)=yA(θ)=−log(1−θ)=log(1+eη(θ))
1.3 高斯分布
对于均值为 μ \mu μ,方差为 σ \sigma σ的高斯分布的概率密度函数为:
p ( y ; μ , σ ) = 1 2 π σ e − ( y − μ ) 2 2 σ 2 = 1 2 π e η ( μ , σ ) T ( y ) − log σ − μ 2 2 σ 2 \begin{align} p(y;\mu,\sigma)&=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(y-\mu)^2}{2\sigma^2}} \\[2ex] &=\frac{1}{\sqrt{2\pi}}e^{\eta(\mu,\sigma)T(y)-\log\sigma-\frac{\mu^2}{2\sigma^2}} \\[2ex] \end{align} p(y;μ,σ)=2πσ1e−2σ2(y−μ)2=2π1eη(μ,σ)T(y)−logσ−2σ2μ2
对应指数分布族的概率密度函数可以发现:
b ( y ) = 1 2 π η ( σ ) = [ μ σ 2 , − 1 2 σ 2 ] T ( y ) = [ y , y 2 ] A ( θ ) = μ 2 2 σ 2 + log σ \begin{align} &b(y)=\frac{1}{\sqrt{2\pi}} \\[2ex] &\eta(\sigma)=[\frac{\mu}{\sigma^2},-\frac{1}{2\sigma^2}]\\[2ex] &T(y)=[y,y^2] \\[2ex] &A(\theta)=\frac{\mu^2}{2\sigma^2}+\log\sigma \end{align} b(y)=2π1η(σ)=[σ2μ,−2σ21]T(y)=[y,y2]A(θ)=2σ2μ2+logσ
1.4 其他指数分布族
- 多项式分布(multinomial),用来对多元分类问题进行建模;
- 泊松分布(Poisson),用来对计数过程进行建模,如网站的访客数量、商店的顾客数量等;
- 伽马分布(gamma)和指数分布(exponential),用来对时间间隔进行建模,如等车时间等;
- β分布(beta)和Dirichlet分布(Dirichlet),用于概率分布;
- Wishart分布(Wishart),用于协方差矩阵分布。
2.广义线性模型(GLM)
我们所熟知的 线性回归,逻辑回归都属于glm,其中线性回归假设服从高斯分布,逻辑回归假设服从伯努利分布,但是为什么要这样并不是非常清楚。
2.1 三个假设
- 在给定自变量 x x x和参数 θ \theta θ的情况下,因变量 y y y服从指数分布族
- 给定 x x x,最终目的是求出 T ( y ) T(y) T(y)的期望 E [ T ( y ) ∣ x ] E[T(y)|x] E[T(y)∣x]
- 自然参数 η \eta η可以表示为自变量 x x x的线性关系,即 η = θ T x η=\theta^Tx η=θTx
广义线性模型通过拟合 y y y的条件均值/期望(在 x x x和参数 θ \theta θ给定的情况下),并假设 y y y符合指数分布族中的某种分布,从而扩展了标准线性模型
2.2 伯努利分布
对于伯努利分布,因为是二分类问题,我们选择 p ( y ∣ x ; θ ) ∼ B e r n o u l l i ( Φ ) p(y|x;\theta) \sim Bernoulli(\Phi) p(y∣x;θ)∼Bernoulli(Φ)的均值为 ϕ \phi ϕ,就是指数分布族下的唯一参数。 根据上面的推导可得:
h θ ( x ) = E [ y ∣ x ; θ ] = Φ \begin{align} h_\theta(x) &= E[y|x;\theta] \\[2ex] & =\Phi \end{align} hθ(x)=E[y∣x;θ]=Φ
η = log ϕ 1 − ϕ = θ T x \begin{align} \eta&=\log\frac{\phi}{1-\phi}\\[2ex] &=\theta^Tx \\[2ex] \end{align} η=log1−ϕϕ=θTx
推导出:
y = 1 1 + e − η = 1 1 + e − θ T x \begin{align} y&=\frac{1}{1+e^{-\eta}}\\[2ex] &=\frac{1}{1+e^{-\theta^Tx}}\ \\[2ex] \end{align} y=1+e−η1=1+e−θTx1
上式就是逻辑回归的表达式,对应与逻辑回归下y作伯努利分布的假设。
2.3 高斯分布
对于高斯分布, y y y的均值为参数 μ \mu μ, 根据上面的推导可得:
y = μ = η = θ T x ( 假设 σ = 1 ) y=\mu=\eta=\theta^Tx(假设\sigma=1) y=μ=η=θTx(假设σ=1)
上式和线性回归对于 y y y作高斯分布的假设相呼应
3.GLM建模过程
- 根据问题在指数分布族中选择一种分布作为对 y y y的假设
- 计算该分布下的 η \eta η,实际上 η = η ( w T ) \eta=\eta(w^T) η=η(wT),其中 w T w^T wT为该分布的真实参数,而 η \eta η只是以 w T w^T wT为参数的一个link function
- 计算该分布的期望,将其用 η \eta η表示,例如上面伯努利分布时的 y = ϕ = 1 1 + e − η y=\phi=\frac{1}{1+e^{−η}} y=ϕ=1+e−η1
- 根据GLM的假设替换 η = θ T x \eta=\theta^Tx η=θTx即得到GLM模型
4.总结
- 指数族分布的形式: p ( y ; θ ) = b ( y ) e x p ( η ( θ ) T ( y ) − A ( θ ) ) p(y;\theta)=b(y)exp\left(\eta(\theta)T(y)-A(\theta)\right) p(y;θ)=b(y)exp(η(θ)T(y)−A(θ))
- 常用的诸如正态分布,伯努利分布,指数分布,泊松分布,gamma分布都属于指数分布族。
- 广义线性模型通过拟合 y y y的条件均值/期望(在 x x x和参数 θ \theta θ给定的情况下),并假设 y y y符合指数分布族中的某种分布,从而扩展了标准线性模型。
本文仅作为个人学习记录使用, 不用于商业用途, 谢谢您的理解合作。
参考:https://shangzhih.github.io/zhi-shu-fen-bu-zu-he-yan-yi-xian-xing-hui-gui.html