SPSS实例详解

二、SPSS实例详解

我们采用“中国教育追踪调查(CEPS)”的学生数据进行演示。“中国教育追踪调查(CEPS)”是由中国人民大学中国调查与数据中心设计与实施的大型追踪调查项目,其中抽取了全国112所学校、438个班级,对约2万名中学生的情况进行了调查。调查对象包括学生、家长教师及校领导。该项目的具体详情可参见网址:https://ceps.ruc.edu.cn/。下面演示的学生数据可在官网(http://cnsda.ruc.edu.cn/index.php?r=projects/view&id=72810330)进行下载。下载数据时会要求注册,注册好之后即可登录下载。

下载完之后,将数据解压,得到“CEPS基线调查学生数据.dta”文件,其在直接导入SPSS软件后,选择[文件(F)]→[打开(0)]→[数据(D)...](见图8-3),在弹出的“打开数据”对话框下方的[文件类型(T)]的下拉菜单中选择[Stata(*.dta)],然后打开“CEPS基线调查学生数据.dta”文件所在的文件夹即可打开数据(见图8-4)。

图8-3 打开数据

图8-4 “打开数据”对话框

打开数据之后,可将数据另存为SPSS格式的数据,即保存类型选择[SPSS Statistics(*.sav)],以便下次直接用SPSS打开使用(见图8-5)。

图8-5 保存数据

实例8-1:制作不同年级的人数频率分布表。

选择[分析(A)]→[描述统计(E)]→[频率(F)](见图8-6)后,将弹出“频率”对话框(见图8-7)。

图8-6 “频率分布表”菜单

图8-7 “频率”对话框

在弹出的对话框的左边选取需要分析的变量(如“年级[grade9]”),双击该变量或使用中间的箭头将变量选入右边[变量(V):]下面的方框中,按[确定]按钮后可得到频率分布表(见表8-4、表8-5)。

表8-4 频率分布表1

表8-5 频率分布表2

表8-4展示了结果呈现中的第一个表格,该表格展示了该变量的有效值和缺失值的个数;第二个表格,即表8-5为年级的频率分布表。从表中我们可以看到,在这个调查中共调查了19 487个中学生,其中:七年级的学生有10 279个,占总人数的52.7%;九年级的学生有9208个,占总人数的47.3%。

我们在论文报告中会使用表格或文字来报告和描述频率统计的结果。在结果呈现时,一般使用第二个表格(见表8-5)的结果进行报告。

实例8-2:制作不同年级的人数频率条形图

在图8-7中,弹出的“频率”对话框的右边有5个按钮,点击[图表(C)...]按钮则出现“频率:图表”对话框(见图8-8)。根据数据类型,可选择图表类型([无]、[条形图(B)]、[饼图(P)]或[直方图(H)])和图表值([频率(F)]或[百分比(C)])。当选择条形图和饼图时,可以选择使用频率或者百分比;当选择直方图时,可选择是否在直方图上显示正态曲线。

图8-8 “频率:图表”对话框

图8-9展示了分别选择频率和百分比得到的条形图。从图中我们可以看到,在两种情况下,图的形状分布是一致的,不同之处在于纵坐标是采用频率还是百分比。

图8-9 条形图对比

实例8-3:制作不同年级的户口类型饼图

如果我们要使用饼图来比较七年级和九年级学生的户口类型,可分别选择七年级的数据和九年级的数据来作图。在作图之前,我们先查看数据的情况。选中左下角的标签中的[变量视图],在该数据库的第9行可以看到表示年级的变量(一般从标签这一栏可以判断该变量所表示的含义,在我们做调查问卷时,在录入数据阶段也建议在标签栏进行详细标注,以便于后期处理时更容易理解收集的变量数据),将鼠标移至第9行值这一栏的最右边,将出现一个按钮[…](见图8-10)。点击该按钮,将出现“值标签”对话框(见图8-11),从中我们可以得知,在该变量中,“0”表示“七年级”,“1”表示“九年级”。

图8-10 查看变量值

图8-11 “值标签”对话框

选择[数据(D)]→[选择个案(S)](见图8-12)后,出现“选择个案”对话框(见图8-13)后,选择[如果条件满足(C)],并选择[如果(I)...]按钮,则出现“选择个案:If”对话框(见图8-14),在上方的框中输入“grade9=0”(从前文我们知道“0”表示“七年级”),继续点击[继续(C)]按钮,回到“选择个案”对话框,再按[确定]按钮即可。这时,七年级的数据被选中(见图8-15)。在图8-15中,最左边序号被划掉的数据将不会在统计中被使用。

图8-12 [选择个案]菜单

图8-13 “选择个案”对话框

图8-14 “选择个案:If”对话框

图8-15 选择“七年级”数据之后的数据界面

在“频率”对话框(见图8-7)中将“你目前的户口类型是[a06]”选入[变量(V):]下面的方框,在“频率:图表”对话框(见图8-8)中选择[饼图(P)],得到如表8-6、表8-7、图8-16所示的结果。

表8-6 七年级户口类型统计

表8-7 七年级户口类型频率分布表

图8-16 七年级户口类型饼图

表8-6描述了七年级的户口类型的有效值与缺失值。缺失值的产生是由于部分被调查者没有填写问卷,也就是说,在七年级的被调查者中,有653人没有报告自己的户籍类型。从表8-7中可以看到,在七年级的被调查者中,农业户口有5043人,占七年级被调查者总人数的49.1%(百分数),占填写了户口类型的七年级被调查者的52.4%(有效百分数);非农户口共2455人,占七年级被调查者总人数的23.9%,占填写了户口类型的七年级被调查者的25.5%;未填写户口类型的被调查者占了七年级被调查者总人数的6.4%。图8-16展示的是有效百分数(我们在论文报告时,一般报告有效百分数)。从饼图中可以看到,在4种户口类型中,占比最多的是农业户口,几乎占了一半多,没有户口的被调查者占比非常小。

采用同样的方法选择九年级的数据进行分析,得到九年级的结果如表8-8、表8-9、图8-17所示。对比七年级的户口类型,我们可以看到,九年级的农业户口和非农户口比例都比七年级的要高。

表8-8 九年级户口类型统计

表8-9 九年级户口类型频率分布表

续 表

图8-17 九年级户口类型饼图

如果我们要重新选择所有的数据进行处理,可以选择“选择个案”对话框(见图8-13)中的[所有个案(A)]。

实例8-4:年龄直方图

在调查中,年龄是一个连续变量,因此,我们可以采用直方图来表示年龄的分布情况。在该调查中,采用出生年份来调查被调查者的年龄。在图8-7“频率”对话框中,将“你的出生日期-年[a02a]”选入右边的[变量(V):]下面的方框(见图8-18),然后选择[图表(C)]按钮,在“频率:图表”对话框(见图8-8)中选择直方图,随后勾选[在直方图中显示正态曲线(S)],按[确定]按钮后,结果如表8-10、表8-11、图8-19所示。

图8-18 选择出生日期

表8-10 出生日期统计

表8-11 出生日期频率分布表

图8-19 出生年份直方图

从结果中可以看到,被调查者的出生年份以1998—2001年的居多,1999年出生的最多,并不符合正态分布。