8.3.3 解释变量是顺序级变量的情况

8.3.3 解释变量是顺序级变量的情况

在管理科学和其他科学研究中,顺序级的自变量是经常用到的。

收入的等级(由于是回忆性的问题,采用“等级”对答要比精确回答容易得多)、受教育的等级、受欢迎程度的等级等,相应的变量被称为顺序级变量。我们已经非常清楚,尽管我们可以用数字1,2,…来表示不同的等级,但是这些数字之间只能比较大小的顺序关系,不能做加减运算,也不能做乘除运算。在线性回归分析中,如何处理这样的变量?

抽象地说,有两种处理方法:一是“进”,把它作为刻度级变量来处理;二是“退”,把它作为名义级变量来处理(也就是转化为虚拟变量来做回归分析)。究竟应当是“进”还是“退”,首先要看顺序级变量背后是否能够找到刻度级的量,还要看这个刻度级的量与顺序级变量的等级之间的关系。

一般说来,在顺序级变量的背后,都可以找到某种刻度级的含义。例如,“收入的等级”的背后的刻度级的量可以是收入的货币量,“受教育的等级”背后的刻度级的量可以是每个等级的受教育年限。

如果顺序级变量背后的刻度级的量,在顺序级变量的各个等级上的区间跨度大致是相同的,通常可以把这个顺序级变量的等级作为刻度级的量来处理(在回归分析中,将其作为刻度级的自变量来处理),也就是,回归方程的形式不变:

如果这个顺序级自变量的回归系数显著异于0,那么它就有着非常清晰的含义:当其他自变量保持不变时,这个顺序级自变量每增加一个等级(也就是其背后的刻度级的量每增加一个同样的区间跨度)对Y 的边际贡献。

如果顺序级变量背后的这个刻度级的量,在顺序级变量的各个等级上的区间跨度上相差很大,就不宜把这个顺序级变量的等级“作为”刻度级的量来处理。而应当考虑“退”的处理方式,将其转化为虚拟变量来处理。如果强行按照刻度级的量来处理,即便回归效果是好的(这个顺序级变量的系数显著异于0),所得到的回归系数的实际意义也是不确切的:虽然这个顺序级变量的系数仍然是(在其他自变量不变的情况下)这个顺序级变量每增加一个等级,对Y 的(平均的)边际贡献,但是对于其背后的刻度级的量而言,已经不知道是增加多大的区间跨度,才产生了这样的对Y 的边际贡献。

这种处理顺序级自变量的准则是非常有用的。