11.1.1 初步整理

11.1.1 初步整理

所谓初步整理主要是检查原始资料的真实性和准确性,纠正其中的差错,有时还要编码,即用数字或其他符号代表资料的类别,然后将编好码的资料输入电脑。初步整理主要包括资料的审核、复查、编码、登录、清理等基本方法,为统计整理和分析做好准备。

11.1.1.1 审核

资料的审核就是对原始问卷资料进行校对和订正,提高调查资料的准确性,使调查资料尽可能达到准确、完整、真实和一致,为统计整理和分析做好准备。

资料的审核不仅要求审核者具有一定的技术,而且也要具有一定的社会生活经验和社会学的知识,这样才能敏锐地发现资料中存在的问题。资料审核要使资料达到下列基本要求。

(1)准确性

资料反映的情况应符合事实和逻辑,资料中的数据是准确的。对资料准确性的审核可以采用逻辑检查和经验检查等方法去辨别资料的真伪。例如,在问卷资料中,某人在年龄一栏的回答是13岁,婚姻状况中却填写“已婚”,这显然是不符合事实;家庭人数的回答是4人,但是在家庭成员列出祖父、祖母、父亲、母亲时,就有问题,也许被调查者在回答家庭人数时没有把自己计算在里面;家庭日常支出一般要小于家庭月收入;某些项目的合计数与总计数应当一致;有关主观态度类问题的回答前后应当没有逻辑矛盾。

(2)完整性

检查所有调查项目的资料是否完备无缺,例如有关个人背景的资料是否遗漏,有无答案不全或漏填答案的情况;哪些无回答是问题不适用而产生的,哪些是被调查者应答而未答。如果发现遗漏应重访补上,无法弥补则应注明原因。

(3)真实性

真实性主要表现在两个方面:第一,要检查资料的来源,即问卷资料是否系事先确定的受访者所提供,尤其是在自填式问卷中要特别注意;第二,被调查者提供的资料是否真实,是否就是本人情况的反映。在问卷设计时,很多研究者还在问卷中设计一些非常隐蔽的问题,用来检验被调查者资料的真实性。例如,在问卷中设计这样的问题“您知道我国有以下这些城市吗?”所列的选项有的是真实的,有的是虚假的,或者全部是虚假的,如果被调查者选择那些虚假的城市作为答案,就要考虑这份问卷的真实性。有的用来检验真实性的问题可能更加隐蔽,非研究者一般很难察觉。

(4)一致性

问卷的填答方式要一致。一项问卷调查不能同时采用打勾(√)、打三角(△)、画圈(○)或打叉(×)等多种表示选择的方式。注意计量单位的一致性,如公制、英制、市制单位,以及货币单位和历法(公历和农历)的统一。凡是在资料中出现不同的计量单位都必须统一。

根据资料的准确性、完整性、真实性和一致性的不同程度,有的可以经过核实或者经过补充调查成为有效问卷,有的则要判为废卷。尤其是在完整性、真实性出现比较大的问题时,一般都要作废卷处理。虽然衡量是否为废卷没有一个统一的标准,但是从经验上看,一份问卷中有1/3问题应答而未答,或者个人背景资料没有得到回答,问卷不是由样本中的被调查者填答的,或者用来检验真实性问题的回答证明被调查者的回答是不真实的,并且经过复查后确实如此,或者问卷中存在很多逻辑错误等,这样的问卷一般作废卷处理。

资料审核的方法可以根据调查过程的不同阶段,分为实地审核、小组审核和全面审核(系统审核或集中审核)。一般而言,实地审核和小组审核是和资料的收集同时进行的,它可以在调查现场发现问题,随时修正。实地审核、小组审核一般以访问员和访问小组为单位。资料收集工作完成以后,即问卷调查结束后,就可以开始进行全面审查。规模较小的调查只做一次或二次审核即可,大规模的调查可以采用实地审核、小组审核和全面审核三种方法。

(1)实地审核是在调查现场进行的,一般由组长和访问员负责,它能及时纠正访问员的错误,避免在以后的调查中重犯。第一,当访问员完成了对某个访问对象的问卷调查后,还要复述某些重要的问题,以便核对;对于一些有矛盾的资料要进行追问。在自填式问卷调查中,访问员回收问卷时要对问卷中的一些问题进行提问,以便确认该问卷是否是由样本中的访问对象回答的;是否存在应答未答的问题。第二,每天调查结束后,在调查问卷上交以前,要对每一份问卷进行复核。主要是检查答案是否填写清楚,是否按工作指示填写,疑问处是否写下备注等,问题比较多的问卷是否要进行重访。第三,组长负责实地审核工作,并抽查访问员的问卷,除了复核上述访问员审核的内容外,还要审核答案是否正确,被调查者的地址是否正确无误,访问员是否写下自己的姓名和编号等。

(2)小组审核,即以工作(访问)小组为单位由组长或督导负责。大规模的问卷调查一般时间较长、样本较大,通常将访问员按调查区域分为若干个工作小组,并且每隔一段时间,访问员将已经完成的问卷集中交给组长或督导,此时可以进行小组审核。在组长或督导的组织下,由小组成员交互检查问卷质量。小组审核的任务主要是:一是检查问卷的内容,例如问卷是否整洁,问题答案、被调查者及其地址是否有误。二是检查访问员的工作,例如访问员的工作效率、工作质量,有没有违反调查工作要求等情况,以便纠正访问工作中的差错,并讨论访问员工作中遇到的问题和困难,汇总给课题主持人后,由课题主持人给予指示并提出解决方法。此外,经过资料审核后,对于不合格的问卷还要决定是否重访。

(3)全面审核,也可以称为集中审核。全面审核是在资料收集工作基本结束以后进行的。它可以有两种形式,即全卷审查和系统审核。全卷审核是一份问卷由专门人员独立审核;系统审查是根据问卷的调查项目分为若干个部分,每个部分由专门人员负责审核。两种审核方式各有利弊,前者容易发现前后矛盾的答案,后者较为系统和精细,速度较快。

全面审核有四个方面的工作:第一,检查问卷的答案是否确切、一致和完整。例如,参照被调查者提供的有关资料,检查年龄、收入、教育程度是否有计算错误或笔误;填写符号是否标准;有无前后矛盾的答案,如发现则应参看其他问题的答案予以订正或复查后再订正,无法订正的话,可改填为“不知道”;计算单位是否一致等。第二,按照研究的需要和问卷的质量,决定问卷的取舍。第三,把访问员和被调查者对于调查的意见集中起来,供研究者在撰写研究报告、阐明结果、估计偏误时参考,并为改善以后的研究方法提供经验。第四,在很多情况下,全面审核可以与编码结合在一起,即把被调查者对问题回答的答案代码登录在右边的栏码上;对于开放式问题的答案要按照一定的标准进行归纳、分类和编码。

需要注意的是,经审查发现错误的资料一般要经过复查才能订正。在订正时不能把原来的错误答案擦掉,可以用不同颜色的笔写上更正以后的答案,并写上自己的名字或编号。订正的格式应作统一规定。

在全面审核时,如果由专门人员(校订员)进行,需要对校订员要进行培训。校订员在校订时要注意以下事项:要清楚地了解对访问员和编码员的工作要求,例如研究的性质和意义、主要内容、编码规定等;除规定的校订项目以外,如还要做其他更改,则要请示,不得擅自决定;重大订正一定要经过复查;舍弃的问卷或资料应统一上交。

11.1.1.2 复查

为了使调查资料达到准确性、完整性和真实性的要求,并检查访问员的工作质量,在完成问卷调查之后还要进行资料的复查。资料的复查指的是在问卷调查全部结束之后,对调查样本中的一部分个案进行第二次调查,以检查第一次调查的质量。

资料的复查方法是:首先由研究者按随机抽样的方法在调查样本中抽取5%~15%的个案,然后由访问员重新进行调查。但是不能由原来的访问员去复查,而要由其他访问员去复查。因为资料复查目的除了检查问卷资料的质量之外,还要检查访问员的工作质量,尤其要注意访问员作弊、造假等行为。在商业性调查中这样的复查是必不可少的,学术性调查在经费允许的情况下也应该进行比较规范的资料复查。有的时候,尤其在学术性调查中,由于研究经费比较少,不能像商业性调查那样进行比较严格的资料复查,则可以采用变通的方法进行复查,例如通过打电话了解调查的实际情况,或者研究者到调查点上,对随机选择的调查对象进行访谈等。

由于要进行资料的复查,因此在抽样调查时就要收集有关样本的基本信息,例如被调查者的姓名、家庭电话号码、地址(地址一般在样本名单中有,但要考虑由于搬迁、人户分离等原因产生的地址错误)等。当然,收集这些资料时,要注意信息的安全性,不能泄露给他人;如果被访问者对此有疑问,可以向他说明这些信息主要是为了核实、复查时便于联系。

11.1.1.3 编码和录入

编码是资料整理的一项重要工作,它是将原始资料按照资料的内容分门别类,整理成系统的资料。由于社会调查一般都是大样本调查,需要采用统计方法整理和分析资料,并且借助计算机进行统计和分析,因此必须把问卷上的文字资料转换成计算机能够识别的符号,然后输入到计算机,这个过程我们就叫编码。有关资料编码的具体方法我们在“调查研究”一章中已作详细介绍。当问卷调查和资料审核全部结束之后,可以由编码员把问卷中被调查者选择的问题答案编码过录到右边的栏码上,一方面可以对问卷答案进行审核,另一方面也便于数据输入。

数据输入就是把调查结果即原始数据输入到计算机中储存起来,或者登录在表格上。把问卷资料直接输入到计算机最好采用专门的软件,例如PCEDIT、 DBASE、 FoxBASE、 FoxPro等。利用专门软件可以对编码范围、变量之间的逻辑关系加以控制,减少输入差错。如果没有适当的软件,也可以直接在SPSS输入数据,但是速度较慢。有些重大项目还要采用两次输入数据的方法,用以检查输入差错,保证数据质量。如果是多人参与输入数据的工作,还要将数据拼接在一起。因此,对于输入员来说不仅要熟悉计算机操作和调查问卷,还要统一规定输入格式和文件名。如果没有计算机可以采用“个案简录卡”[1]、“登录表”[2]等方法储存数据。

11.1.1.4 数据清理

把原始数据输入到计算机总会存在一些差错,尤其是采用数字键盘输入,经常会发生上、下、左、右键敲击错误,即使输入软件预设了提示,但是难免会有一些数据上的差错。虽然,这些数据的差错不是很多,但仍要把它们寻找出来,加以改正。输入数据的错误主要有两种——编码幅度错误和逻辑错误,针对两种错误的数据清理方法就是幅度纠错和逻辑纠错。

(1)幅度纠错

所谓幅度错误是指编码值超过了编码的范围或幅度,通常可以运用一定的方法把这样的错误找出来,加以纠正。出现错误的编码通常也叫错码或非法码。例如,“性别”的编码值分别为1和2,对应的是男和女,如果在数据清理时发现3或4等,那就是错码,它们都超过了“性别”编码规定的范围或幅度;同理,如果教育程度的编码是:1=小学及以下、2=初中、3=高中或中专、4=大专及以上,如果出现5或6,就是错码。

幅度纠错的方法首先要查错。以SPSS软件为例,可以执行SPSS软件上的计算变量频数分布(frequency)的命令。根据计算结果(频数统计表)查找输入数据时可能发生的差错。如果发现错误的话,在SPSS软件上执行查找(find)命令,即可发现发生错码的问卷编号(个案号码),然后查找原始问卷,根据问卷上的答案改正。如果把这些错码当作缺省值(即0值)的处理是不对的。

例如,某调查中变量x3是教育程度,编码幅度或有效范围1~4,数据输入结束后,频数统计结果(见表11-1)发现超过编码范围或幅度的有两个编码值,即5, 6,其中编码值为5的有2个个案,编码值为6的有1个个案,执行SPSS的“查找”命令发现出现错码的个案是在第14号、148号、56号三份问卷上,找到原始问卷,根据原始问卷的答案进行修正,重新计算就得到正确的结果。对于奇异数据也可以按此方法清理,例如发现某份问卷的年收入达到100万(在抽样调查中一般很难抽到这样的样本),就可以按照幅度纠错的方法查找原始问卷,查看问卷中的数据是否如此,询问调查员甚至访问对象,问卷中填写的收入是否真实。

表11-1 初次计算结果(教育程度)

(2)逻辑纠错

所谓逻辑错误是指一份问卷中前后两个或多个有关联的问题,回答的结果出现了明显的矛盾,不符合日常经验生活。例如,一项对妇女婚姻满意度的调查,统计结果却发现,对婚姻表示满意的评价与丈夫经常打骂妻子同时存在(见表11-2) ,虽然在生活中可能会有这样的问题,但是还是要查一下,毕竟这种现象不符合绝大多数人的生活经验。又如,住房面积和房间数的统计结果中,发现住房面积在80平方米以上的房间数有的只有1间,也发现有的住房面积在30平方米以下的却有3间或者4间房,这也不太符合生活经验(见表11-3) ;还有父亲的年龄小于子女的年龄,或者两者之间的年龄差距过小或过大,例如表11-4,父亲年龄小于子女年龄的有1例,年龄差距在16岁以下的有4例,差距过大的(59, 60)有2例。父亲的年龄小于子女的年龄肯定是错误的,年龄差距过小肯定存在逻辑矛盾,差距过大虽然在生活中可能存在,但一般在抽样中很少抽到。发现上述问题都要查对原始问卷,如果原始问卷没有错误的话,还要与访问对象核实。

表11-2 婚姻满意度和打骂妻子的情况

表11-3 家庭住房面积和房间数

逻辑纠错方法可以根据变量的测量层次采用不同的方法。对于定类、定序或者定距变量,可以采用交互分类统计(列联表)的方法,检查变量之间是否存在逻辑矛盾。如果发现问题的话,可以按照幅度纠错的方法,执行SPSS上的“查照”命令,找出被认为是错误的编码值,然后根据原始问卷对照另外一个变量,分析到底是哪个变量出错,如果都没有错的话,就要与访问对象核实。例如,表11-2中,出现问题的是婚姻满意度下的“满意”(编码值=1)与打骂妻子下的“经常”(编码值=2)相交之处有3个个案,执行“查找”命令,获知3个样本的问卷编号,然后找出原始问卷查对,分析错误是发生在“婚姻满意度”变量还是“打骂妻子”变量,最后加以纠正。同理,表11-3中,住房面积为80平方米以上(编码值=4)与房间数为“1 ” (编码值=1)相交之处,住房面积为30平方米以下(编码值=1)与房间数为“4”(编码值=4)和“3”(编码值=3)相交之处,有4个个案是有疑问的,需要查出错误所在并加以纠正。

对于定比测量变量可以采用SPSS上的建立新变量的命令(compute ) ,分析两个变量中存在的逻辑错误,然后运用幅度纠错的方法加以纠正。例如,表11-4就是执行compute命令,用父亲年龄减去长子(女)的年龄得到结果,然后根据原始问卷用幅度纠错的方法纠正有疑问的年龄(可能是父亲年龄,也可能是子女年龄)。定类、定序、定距变量的逻辑错误有时也可以用这种方法 检查。

表11-4 父亲和长子(女)年龄差(岁)

经过幅度纠错和逻辑纠错的数据虽然能大大提高数据质量,但是仍然不能杜绝原始数据中存在的问题,尤其是逻辑纠错主要是根据生活常识去判断变量之间的逻辑关系,有些变量关系虽然符合生活逻辑,但是实际上是数据输入时产生的差错,还是无法发现。例如,表11-2对婚姻满意(编码值=1)的调查对象中,也有可能在原始问卷中是表示不满意的(编码值=2) ,但是在输入时输入为“1” ,同样的错误也会发生在其他变量上。虽然现在采用的一些数据输入软件可以在程序上加以设置,通过编程的方法对变量的编码幅度和变量之间的关系加以控制,一旦发生违反程序的数据输入错误就会提出警告,但是,仍然很难杜绝表面上符合编码幅度或变量逻辑而实际上是错误的数据输入。因此,在经费、时间允许的情况下,最好的方法是采用“两次输入法”,即对原始数据输入两次,对两次输入的结果进行比较,若发现其中有错误的话根据原始问卷改正。虽然不能说两次输入数据的方法能够完全杜绝输入差错,但是至少可以大大减少那些表面上符合编码幅度和变量逻辑关系,但实际上是错误的数据。