8.2.2 逐步回归的原理

8.2.2 逐步回归的原理

上文我们了解了SPSS的操作过程,从结果表中也可以大致看到算法的步骤。

逐步回归是一种线性回归模型自变量选择方法,可以用来解决多元共线性的问题。判断自变量多元共线性的方法以下两种。

①计算自变量两两之间的相关系数及其对应的p 值,给定显著性水平α,如果p<α,则可考虑自变量之间存在共线性,这可以作为初步判断自变量多元共线性的一种方法。

②利用共线性诊断统计量来判断,即利用容许(容忍度)和VIF(方差膨胀因子)来判断。一般认为如果容许小于0.2或VIF>5(容许和VIF呈倒数关系),则提示要考虑自变量之间存在多重共线性的问题。

而多元共线性问题的解决方法主要有变量剔除法和逐步回归法。

(1)变量剔除法

当自变量之间存在多元共线性时,最简单的方法就是对共线的自变量进行一定的筛选,保留更为重要的变量,删除次要或可替代的变量,从而减少变量之间的重复信息,避免在模型拟合时出现多元共线性的问题。

(2)逐步选择法

当自变量之间的关系较为复杂,对于变量的取舍不易把握时,我们还可以利用逐步回归法进行变量筛选,以解决自变量多元共线性的问题。逐步回归法从多元共线性的自变量中筛选出对因变量影响较为显著的若干个变量,把对因变量贡献不大的自变量排除在模型之外,从而建立最优的回归子集,不仅克服了共线性问题,而且使得回归方程得到简化。

其基本思想是将变量一个一个地引入,引入的条件是其偏回归平方和经检验是显著的。同时,每引入一个新变量后,对已入选回归模型的老变量逐个进行检验,将经检验认为不显著的变量删除,以保证所得自变量子集中每一个变量都是显著的。此过程经过若干步,直到不能再引入新变量为止。这时回归模型中的所有变量对因变量都是显著的。

逐步回归法选择变量的过程包含两个基本步骤:一是从回归模型中剔出经检验不显著的变量;二是引入新变量到回归模型中。常用的逐步回归法有向前法和向后法。

向前法:向前法的思想是将变量一个一个地引入,每次增加一个变量,直至没有可引入的变量为止,即在回归方程中从无到有、由少到多逐个引入自变量来构建模型的一种方法。

具体步骤如下。

步骤1:考虑Y 对已知的一群变量X2,…,Xk回归,分别同因变量Y 建立一元回归模型:

计算变量Xi相应的回归效果的F 检验统计量的值,记为取其中的最大值

对给定的显著性水平α,记相应的临界值为F(1)。如果

则将Xi1引入回归模型,记I1为选入变量的指标集合。

步骤2:建立因变量Y 与自变量的子集{Xi1,X2},…,{Xi1,Xi1-1},{Xi1,Xi1+1},…,{Xi1,Xk} 的二元回归模型(此回归模型的回归元为二元的),共有k-2个。

计算变量的回归效果F 检验的统计量值,记为选其中最大者,记为,即

对给定的显著性水平α,记相应的临界值为F(2)。如果

则将Xi2引入回归模型,否则,终止变量引入过程。记I2为选入变量的指标集合。

步骤3:考虑因变量对变量子集{Xi1,Xi2,…,Xim}的回归,重复步骤2。

依此方法重复进行,每次从未引入回归模型的自变量中选取一个,直到经检验没有变量引入为止。

例如,某个公司(因变量Y)将进行员工〔自变量Xi(i=2,3,…,k)〕的选拔。第一步,公司(Y)需要评估每个员工(Xi)对公司(Y)的贡献大小(偏回归平方和),选拔出贡献最大且有统计学显著性(引入标准p<α)的第一个员工(Xi1)。第二步,在选拔出第一个员工(Xi1)的基础上,公司(Y)再次评价每个员工都与第一个员工(Xi1)一起工作时所产生的贡献增加量(偏回归平方和),选拔出贡献最大且有显著性意义的第二个员工(Xi2)。以此类推,不断有员工(Xik)选拔进来,直到公司认为即使再有员工选拔进来,也不会额外增加对公司(Y)的贡献,此时选拔结束,以上即向前法的基本流程。

向前法的优点是可以自动去掉高度相关的自变量,但也有一定的局限性,向前法在自变量选择的过程中,只在自变量引入模型时考察其是否有统计学意义,并不考虑在引入模型后每个自变量p 值的变化,后续变量的引入可能会使先进入方程的自变量变得无统计学意义。

向后法与向前法正好相反,它事先将全部自变量选入回归模型,然后逐个剔除对残差平方和贡献较小的自变量。

如果说向前法是选拔员工,那么后退法就相当于公司裁员,每一次裁掉一个对公司贡献最小且无显著性意义的员工(如剔除标准p>0.01),然后对剩下的员工再次进行评估,裁掉一个贡献最小的员工,以此类推,不断有员工被裁掉,直到公司认为即使再裁掉其他员工,也不会额外减少对公司的贡献,此时裁员停止,以上即向后法的基本流程。

向后法的优点是考虑了自变量的组合作用,但是当自变量数目较多或者自变量间高度相关时,可能得不出正确的结论。

逐步回归法是在向前法和向后法的基础上,进行双向筛选变量的一种方法。也就是说,公司(Y)每引入一个员工(Xi(i=2,3,…,k))后,都要重新对已经进入公司的每个员工的贡献进行评估和检验,如果由于后续引入新员工后,原有的员工的贡献变得不再有显著性,则公司会将其裁掉,以确保公司里每一个员工的贡献都是有意义的。

逐步回归分析的实施过程:每一步都要对已引入回归方程的变量计算其偏回归平方和(贡献),然后选一个偏回归平方和最小的变量,在预先给定的水平下进行显著性检验,若显著则该变量不必从回归方程中剔除,这时方程中的其他几个变量也都不需要剔除(其他几个变量的偏回归平方和因为都大于最小的一个,所以更不需要剔除)。相反,如果不显著,则该变量需要剔除,然后按偏回归平方和由小到大地依次对方程中其他变量进行检验。对影响不显著的变量全部剔除,保留的都是影响显著的变量。接着再对未引入回归方程中的变量分别计算其偏回归平方和,并选其中偏回归方程和最大的一个变量,同样在给定水平下作显著性检验,如果显著则将该变量引入回归方程,这一过程一直持续下去,直到在回归方程中的变量都不能剔除而又无新变量可以引入时为止,这时逐步回归过程结束。

这个过程反复进行,直到既没有不显著的自变量引入回归方程,也没有显著的自变量从回归方程中剔除为止,从而得到一个最优的回归方程。逐步回归法结合了前进法和后退法的优点,因此被作为自变量筛选的一种常用的方法。