缺失值和无效值产生的原因
缺失值或无效值出现的原因有以下几种。
(一)被调查者漏填、错填或者拒绝回答
第一种情况是被调查者漏填。网络电子版的问卷因为经常有漏答题的提示,所以漏答的情况已经大大减少。对于纸质版的自填式问卷来说,漏答的现象仍然存在,特别是在被调查者的时间比较紧张(如在马路上随机拦人填写问卷)、题量较大(被调查者失去了耐心),或者是问卷排版不合理(如题与题之间行距太小)的情况下,漏填漏答的情况更容易出现。
第二种情况是被调查者错填。这往往和题项的设计不合理、题目表达不清晰,导致被调查者产生误解有关。如在问卷调查中,我们经常希望知道对方的年龄,为了让问题通俗易懂,有的问卷设计者可能会问“您今年多大?____”。但是这个问题在被调查者读题不仔细的情况下,可能会在相应的空格上填下自己的出生年份,结果就是:“您今年多大?1979”。当年龄数据录入后,我们可能会将大于120的数值都设置为无效值(因为我们假设很少有人大于120岁),那么1979这个数值自然被作为无效值处理掉了。
第三种情况是被调查者拒绝回答。如针对太敏感的问题,或者是涉及个人隐私的问题,被调查者都有可能拒绝回答。所以有些学者习惯将相对较敏感的题项放在问卷的最后面。这样被调查者因为已经完成了前面的题目,所以看到最后的问题时也有更大的动力去做完。即使被调查者拒绝回答,调查员也已经拿到了问卷调查的大部分答案。但是如果调查员将被调查者不愿意回答的问题放在了最前面,则可能导致被调查者对后面的问题也产生了拒绝回答的情绪,使问卷中的缺失值大大增加。
(二)由于调查员的失误导致被调查者漏答或答错
尽管调查员负责提问和填写的问卷大大减少了缺失值和无效值的出现,但是调查员本身的失误也可能带来漏答和错答,而且一旦出现,产生的后果就比较严重。例如,调查员在翻阅问卷时,不小心多翻了一页,则可能导致整页的问题都没有被问到(当然这种情况在被调查者填写自填式问卷时也可能出现)。又如调查员对某一个题目理解错误,因此根据调查员的错误理解收集回来的所有数据都是错误的,只能做无效值处理。
(三)数据录入者的失误
数据录入是一项极其需要耐心和细心的工作,面对海量数据如果是人工录入的话难免会出现错误,这时候就需要配一个检验人员,负责对数据录入的情况进行核对。现在由于通过网络问卷调查获得的数据可以直接导出,已经减少了因为数据录入而带来的错误。