一、为什么使用定序回归:
定序变量介于连续变量和定类变量之间,是在测量层次上被分为相对次序的不同类别,但并不连续。
如果对定序变量使用多分类logit模型(MNL),那么会无视数据内在的排序从而导致排序信息的缺失,使得统计结果因为遗漏掉排序信息而丧失统计效率。如果采用OLS,那么就是将定序变量作为连续变量处理,会导致人为的信息膨胀。因此,针对定序因变量,需采用对应的模型即定序logit/probit模型(ordered logit/probit model,OLM)。
二、模型:
当我们评价某产品组合时,会形成对一个产品的喜好程度记为Z,其为连续的,而要把对产品的喜好程度形成消费者的打分就需要在人们的心理活动中有一定的判断标准或者叫做阈值Ck,喜好落在某两个相邻阈值之间就给出一定的打分。如下所示:
如果假设解释性变量是通过影响喜好程度来影响消费者打分,则Z是一个取任意值的连续型变量,我们用普通线性回归模型来刻画Z与解释性变量如W之间的关系
从而判断分数不超过k的概率就是
其中,是ɛ的分布函数,那么我们获得了一个关于定序变量的回归模型,如下所示:
我们应该首先注意到该模型与0-1回归的异同,由于定序数据可能取值大于2,因此会有好几个不同的截距。例如隐变量scores有五种不同的取值,从而总共有四个不同的截距,并且截距之间有顺序:,但是斜率只有一个即β,对于实际问题,我们更关系解释性变量和因变量之间的关系而对截距项的兴趣不大。还需要考虑的具体形式应该如何假设才比较合理。
有一个方便的假定是把假设成标准正态分布和逻辑分布,分别对应于probit定序回归和logit定序回归。模型形式分别是:
等价表示成:
同0-1变量回归一样,probit定序回归和logit定序回归之间孰优孰劣至今没有定论,但是都是非常有用的统计方法,并且统计结果往往极其相似。