5.4.1 多类别定序回归模型

5.4.1 多类别定序回归模型

在实际情况中,我们通常还会遇到多分类变量,也就是定序变量,如不及格/及格/良好/优秀、不满意/比较满意/非常满意等。定序变量是一种特殊的多类别变量,类别之间有相对次序,能够互相比较。如果将定序变量单纯地作为多类别变量,直接使用第5.3节中的多类别回归模型去分析,那么数据内在的排序就会被无视,从而导致排序信息丢失,统计效率降低。因此,对于定序变量,需要采用相应的模型来分析,最常用的就是多类别定序回归(Ordinal Regression)模型。

因变量y取值于每个类别的概率仍与一组自变量x 1,x 2,…,x p有关,对于样本数据(x i1,x i2,…,x ip;i=1,2,…,n),多类别定序回归模型主要有位置结构模型和规模结构模型两种。

(1)位置结构模型

其中,link(·)是联系函数;γijπi1+…+πij是第i个样本小于等于j的累积概率;θj是类别界限值。由于γik=1,因此式(5.12)只针对i=1,2,…,n,j=1,2,…,k-1的情况。

(2)规模结构类型

其中,(zi1,z i2,…,zim)是(x i1,x i2,…,x ip)的一个子集,可作为规模结构的解释变量。

在R中,可以使用MASS包里的polr()函数进行定序回归分析,该函数中使用的是位置结构模型,函数格式如下:

其中,method对应的5种类型分别对应5种联系函数,如表5-4所示。

表5-4 联系函数主要类型