SPSS实例详解

四、SPSS实例详解

我们采用“中国教育追踪调查(CEPS)”的学生数据进行演示。

实例8-5:周末每天完成老师布置的作业所花的平均时间

在本例中,我们想要研究这些初中生在过去的一周里,周末每天平均花多少时间完成老师布置的作业。为了计算方便,我们只研究到小时单位,0小时表明作业时间少于1小时。我们可以采用3种方法进行分析。

方法1:使用[描述]菜单

数据打开的步骤详见第二节。选择[分析(A)]→[描述统计(E)]→[描述(D)...](见图8-22),弹出“描述”对话框。我们将“过去一周里,你平均每天花多少时间写学校老师布置的作业(周六和周日,小时)[b14b1]”选入[变量(V):]下面的方框中(见图8-23),再选择右边的[选项(0)...]按钮,出现“描述:选项”对话框(见图8-24)。

图8-22 [描述]菜单

图8-23 “描述”对话框

图8-24 “描述:选项”对话框

在“描述:选项”对话框中,可以选择计算变量的平均值、总和、标准差、方差、范围(即全距)、最小值、最大值、标准误差平均值[2]、峰度和偏度。我们将在所有选项前的方框上打钩,得到的结果如表8-12所示。在结果中可以看到,有效的个案数为19 036个,全距为24,最小值为0,最大值为24,总共加起来是53 592个小时,平均值为2.82个小时,标准差为2.471,偏度为2.572>0(为正偏态),峰度值为12.951,说明峰值比较高,并且远离正态分布。

表8-12 描述统计结果

方法2:使用[频率]菜单

在[频率]菜单中同样可以获得描述统计的结果,而且还可以通过直方图对数据分布有更直观的认识。下面我们采用[频率]菜单重新对初中生周末的作业时间进行分析。

选择[分析(A)]→[描述统计(E)]→[频率(F)...](见图8-6)后弹出“频率”对话框(见图8-7),将“过去一周里,你平均每天花多少时间写学校老师布置的作业(周六和周日,小时)[b14bl]”选入[变量(V):]下面的方框中,再点击“频率”对话框(见图8-7)中的[统计(S)...]按钮,则出现“频率:统计”对话框。在这个对话框中,可以选择百分位值(四分位数、n等分分位数、任意百分位数)、集中趋势(平均值、中位数、众数、总和)、离散趋势(标准差、方差、范围、最小值、最大值、标准误差平均值)、分布(偏度、峰度)。

[四分位数(Q)]可以计算第一个四分位数(25百分位数)、第二个四分位数(50百分位数)和第三个四分位数(75百分位数)。[分割点(U):[]相等组]被选中后(前面方框中打钩),可根据需要填写将变量等分成几等份。在[百分位数(P):]后面的方框中填入任意需要的百分位数,如在一些问卷中,需要分析前27%(高分组)和后27%(低分组)的差别,就可以在[百分位数(P):]后面的方框中输入27后点击[添加(A)],添加完之后,“27.0”将会出现在[百分位数(P):]下方的方框中(见图8-25),在[百分位数(P):]后面的方框中输入73(100减去27)后点击[添加(A)],“73.0”将会出现在“27.0”的下方。如果数据输入错误,那么就可以点击错误的数值,将正确的数值输入[百分位数(P):]后面的方框中,点击[更改(C)]按钮,或者点击错误的数值,点击[除去(M)]按钮,重新输入正确的数值进行添加即可。

图8-25 “频率:统计”对话框

选择所需要计算的统计量,点击[继续(C)]按钮回到“频率”对话框(见图8-7),再点击[图表(C)...]按钮出现“频率:图表”对话框(见图8-8),选择直方图,勾选[在直方图上显示正态曲线(S)],得到的结果如表8-13、表8-14、图8-26所示。

表8-13 频率统计结果

表8-14 频率分布表

图8-26 结果统计图

在表8-12与表8-13中,描述统计的结果是一致的,只是两者的排版有所差别,采用[描述]菜单得到的结果是横向排列的,而采用[频率]菜单得到的结果是竖向排列的。此外,我们从结果中还可以看到,第一个四分位数为1小时,第三个四分位数为4小时,四分位距为3小时。尽管在结果中,有很多同学填写了16个小时以上,我们从常理推断这些数值很可能是乱填的。但是采用四分位距获得的数值并不太受这些极端值的影响。在图8-26中,我们可以更直观地看到学生周末做校内作业时间的分布,其中花2小时做校内作业最为普遍,其次是1小时和3小时。

方法3:使用[探索]菜单

选择[分析(A)]→[描述统计(E)]→[探索(E)...](见图8-27)后,弹出“探索”对话框。

图8-27 [探索]菜单

在“探索”对话框中有3个方框,第一个是[因变量列表(D):],从中可选择我们想要研究的变量,在本例中,即“过去一周里,你平均每天花多少时间写学校老师布置的作业(周六和周日,小时)[b14b1]”;第二个是[因子列表(F):],从中可选择用于分组的变量,在本例中并不需要分组,我们将在下一个例子中进行介绍;第三个是[个案标注依据(C):],从中可选择一个变量用于标注结果中的极值,如我们想要知道周末做课内作业的时间特别多或特别少(即极端值)的学生是否是独生子女,就可以把“你是独生子女吗[b01]”选入该方框(见图8-28)。

图8-28 “探索”对话框

在“探索”对话框中点击[统计(S)...]按钮,出现“探索:统计”对话框(见图8-29),在其中可选择描述、M-估计量、离群值和百分位数。选中[描述(D)],可以输出基本描述统计量,如平均值、中位数、方差、标准差等。针对[平均值的置信区间(C)],系统默认为95%。[M-估计量]可以用来判别数据中有无明显异常值。如果其与离平均值和中数相差较大,则说明数据中可能存在异常值。[离群值(O)]表示偏离的极端数值。[百分位数(P)]会列出5,10,25,50,75,90,95百分位数。

在“探索”对话框中点击[统计(S)...]按钮,出现“探索:图”对话框(见图8-30),勾选[直方图(H)]和[含检验的正态图(O)]。

图8-29 “探索:统计”对话框

图8-30 “探索:图”对话框

再点击[继续(C)]按钮回到图8-28所示的“探索”对话框,点击[确定]按钮,结果如表8-15至表8-20、图8-31至图8-34所示。表8-15和表8-16的结果与前面两种方法得到的结果是一致的。

表8-15 探索结果摘要

表8-16 描述统计结果

针对表8-17的M估计,有4种估计方法:休伯M估计量、图基双权、汉佩尔M估计量、安德鲁波。这4种估计方法分别是Huber,Tukey,Hampel和Andrew 4个人提出来的。其中,休伯M估计量比较适合接近于正态分布的数据,其余的方法比较适合数据中有较多极端值的情况。利用这4种方法获得的数据均比平均值小,说明在数值较大的方向存在极端值,在箱图(见图8-34)中也证实了这一点。

表8-17 M估计结果

注:a表示加权常量为1.339;b表示加权常量为4.685;c表示加权常量为1.700,3.400和8.500;d表示加权常量为1.340×pi。

表8-18百分位数结果列出了5,10,25,50,75,90,95百分位数,第一行是采用加权平均方法计算得出的结果,第二行是采用图基枢纽方法计算得到的Q1,Q2,Q3的结果。

表8-18 百分位数结果

表8-19展示了最高的5个极值和最低的5个极值。由于最高值和最低值都多于5个,并没有将所有的极值都罗列出来。“个案号”代表是第几个个案;由于我们在[个案标注依据(C):]中选择了“你是独生子女吗”,在极值中列出了“你是独生子女吗”;最后一列“值”表示极值的具体数值,最高的极值为24,最低的极值为0。

表8-19 极值结果

注:a表示在较大极值的表中,仅显示了不完整的个案列表(这些个案的值为24);b表示在较小极值的表中,仅显示了不完整的个案列表(这些个案的值为0)。

表8-20正态性检验结果显示,显著性为0.000<0.05,说明不符合正态分布。如果显著性>0.05,则说明数据符合正态分布。由于通过问卷调查获得的数据很难保证其的正态性,而正态性检验的判断标准比较严格,在数据分析时更推荐使用直方图(见图8-31)或Q-Q图(见图8-32、图8-33)来判断正态性。当数据基本满足正态性特征即可接受其为正态分布。在图8-32所示的正态Q-Q图中,斜线表示正态分布的标准线,点表示实际数据分布。各点的分布越接近斜线,说明数据越接近正态分布。在本例中,点的分布与斜线的拟合度不是很好,说明正态分布不明显。图8-33所示的去趋势正态Q-Q图反映了按正态分布极端的理论值和实际值之间的差的分布情况。数据越接近正态分布,数据点的分布离中间的横线越近。在本例中,数据点大部分远离中间的标准线,说明正态分布不明显。

表8-20 正态性检验结果

注:a表示里利氏显著性修正。

图8-31 直方图

图8-32 正态Q-Q图

图8-33 去趋势正态Q-Q图

图8-34 箱图

在图8-34所示的箱图中,用圆点和星号(★)标出的点都是极端值,其中圆点表示该值距离箱子边缘超过1.5倍箱身长度,星号则表示该值距离箱子边缘超过3倍箱身长度。由于我们选择了“你是独生子女吗”作为个案标注依据,在图中会使用是否是独生子女来标记极端值,如果我们不选择个案标注依据,图中就会使用个案编号作为标记(见实例8-5的方法2)。在进一步处理的时候,可以考虑删除这些极端数据。在本例中,选择使用个案标注依据的意义不是太大,因此一般在具体操作时,不选择个案标注依据。

实例8-6:不同性别的认知分数

在本例中,我们分别描述男生与女生的认知分数。

选择[分析(A)]→[描述统计(E)]→[探索(E)...](见图8-27),则弹出“探索”对话框。将变量“认知能力测试标准化得分(使用3PL模型)[cog3pl]”选入[因变量列表(D):]下面的方框,将变量“你的性别是[a01]”选入[因子列表(F):]下面的方框(见图8-35)。在本例中不再选择个案标注依据,因此不再选择[个案标注依据(C):]后面方框中的任何变量。对于[探索:统计]和[探索:图]的操作同实例8-5的方法3(见图8-29、图8-30),再点击[确定]按钮,输出结果如表8-21至表8-26、图8-36至图8-42所示。

图8-35 “探索”对话框

从表8-21中可以看到,男生有9875人,女生有9341人,在认知能力测试标准化得分中,并不存在缺失值。

表8-21 探索结果摘要

从表8-22中可以看到,男生的认知能力测试标准化得分的平均值为-0.0049±0.00888,中位数为-0.0278,方差为0.779,标准差为0.88260,最小值为-2.03,最大值为2.71,全距为4.74,四分位数为1.23,偏度为0.123>0,为正偏态,峰度为-0.394<0,与正态分布相比较为平坦。偏度与峰度离0的距离都比较近,说明比较接近正态分布。女生的认知能力测试标准化得分的平均值为0.0168±0.008 69,中位数为-0.0067,方差为0.706,标准差为0.84017,最小值为-2.03,最大值为2.71,全距为4.74,四分位数为1.19,偏度为0.066>0,为正偏态,峰度为-0.430<0,与正态分布相比较为平坦。偏度与峰度离0的距离都比较近,说明比较接近正态分布。

表8-22 描述统计结果

在表8-23中罗列了休伯M估计量、图基双权、汉佩尔M估计量、安德鲁波等4个估计量,无论是男生还是女生,M估计量均低于平均值。这说明在数值较大的方向存在极端值,在箱图(见图8-42)中也证实了这一点。

表8-23 M估计量结果

注:a表示加权常量为1.339;b表示加权常量为4.685;c表示加权常量为1.700,3.400和8.500;d表示加权常量为1.340×pi。

表8-24百分位数结果列出了5,10,25,50,75,90,95百分位数,第一行是采用加权平均方法计算得出的结果,第二行是采用图基枢纽方法计算得到的Q1,Q2,Q3的结果。

表8-24 百分位数结果

表8-25展示了最高的5个极值和最低的5个极值。男生与女生的前5个最高值并不相同,因此,正好列出5个。而男生与女生的最低值多于5个,表中并没有将所有的极值都罗列出来。“个案号”代表是第几个个案,最后一列“值”表示极值的具体数值。其中,男生最高的极值为4个2.71和1个2.59,最低的极值为5个-2.03;女生最高的极值为2个2.71、1个2.54和2个2.53,最低的极值为5个-2.03。

表8-25 极值结果

注:a表示在较小极值的表中,仅显示了不完整的个案列表(这些个案的值为-2.03)。

表8-26正态性检验结果显示,无论是男生还是女生,认知能力测试标准化得分的显著性均为0.000<0.05,说明都未通过正态分布检验。而在图8-36和图8-37的直方图中,可以看到,男生与女生的认知能力测试标准化得分的直方图基本符合正态分布。在图8-38和图8-39男女生认知能力测试标准化得分的正态Q-Q图中可以看到,实际数据点分布在斜线附近,说明数据比较接近正态分布。在图8-40和图8-41男生与女生的认知能力测试标准化得分的去趋势正态Q-Q图中,大部分数据点也分布在中间横线附近,说明数据比较接近正态分布。

表8-26 正态性检验结果

注:a表示里利氏显著性修正。

图8-36 男生认知能力测试标准化得分直方图

图8-37 女生认知能力测试标准化得分直方图

图8-38 男生认知能力测试标准化得分正态Q-Q图

图8-39 女生认知能力测试标准化得分正态Q-Q图

图8-40 男生认知能力测试标准化得分去趋势正态Q-Q图

图8-41 女生认知能力测试标准化得分去趋势正态Q-Q图

在图8-42的箱图中,我们可以看到,在上下两条横线以外的值都是极端值,并使用个案编号进行了标记。图8-42与图8-34的箱图相比,认知能力测试标准化得分的极端值的个数较少,偏离范围也小。

图8-42 认知能力测试标准化得分箱图