5.6.2 负二项回归模型的应用

5.6.2 负二项回归模型的应用

本例使用MASS包中自带的quine数据集,部分数据如图5-11所示。

quine数据集为澳大利亚威尔士州的儿童某一学年缺课天数的调查数据,共有146条,本例仅选取了其中一部分。其中,字段Eth表示是否为原住居民(A指原住居民,N代表不是原住居民);Sex表示性别;Age表示年龄组别(F0、F1、F2、F3);Lrn表示儿童的学习状态(AL指常规儿童,SL指学习较慢的儿童);Days表示儿童该学年的缺课天数。接下来,使用上述数据集进行负二项回归分析。

图5-11 quine数据集(部分)

负二项回归模型的应用步骤如下。

(1)确定自变量和因变量。本例以Days为因变量,其他变量为自变量,构建负二项回归模型。

(2)使用MASS包中的glm.nb()函数构建负二项回归模型,代码如下:

运行上述代码,可得到负二项回归模型的输出结果如图5-12所示。

图5-12 负二项回归模型输出结果

由输出结果可知,本例中是否为原住居民的回归系数在0.1%水平上显著,这表明是否是原住居民会对学生缺课天数造成显著影响;但其他变量的回归系数并不显著,这表明其他变量对学生缺课天数可能并没有太大影响,但实际分析时还需要结合其他因素进一步考察。