2.2 抽样理论的基础

2.2 抽样理论的基础

2.2.1 普查与抽查

明白了总体和样本的关系之后,抽样就变得容易理解了。所谓抽样调查(sampling)即按一定的程序,从所要研究对象的同质总体中抽出部分样本进行调查,并在一定的条件下,运用数理统计的原理和方法,对总体数量特征进行估计和推断。

在调研中,原始资料的搜集一般分为普查和抽样调查。人们通常会在无法或很难实施普查的情况下使用抽样调查。普查(census)是对总体中每一个个体进行调查。在我国最为典型的普查就是每10年进行一次的全国人口普查。

显而易见,和抽样调查相比,普查需要花费更多的时间、精力和费用。例如,某创作团队想知道哪种类型的古装剧更受大学生的欢迎,哪种类型不受欢迎。无论是从时间的消耗,还是精力和金钱的花费上来看,从全国选择3000名大学生并搜集他们的相关资料都要比调查全国所有在校大学生要经济得多。

但这是不是就意味着抽样调查要优于普查呢?很显然不是。表2-1列举了当其他条件一致时,针对指定条件,普查与抽查的不同要求。

表2-1 抽样调查与普查比较

续表

2.2.2 抽样误差与非抽样误差

当我们意识到抽样调查的实质是通过所抽取样本的特性(统计量)来推估总体的特性(参数)时,误差就在所难免了。但在抽样调查中,误差不仅仅存在于此。

样本是总体的一部分,它虽然具有代表性,但不等同于总体,测量结果与实际结果一定存在差距。因此用抽样得到的结果去推估总体肯定会产生一定的误差,这种由抽样引起的误差叫抽样误差(sampling error)。即使抽取到合适的抽样单位,它们依然有可能无法完全代表既定的目标总体,但通常能得到相对可靠的估计。统计学中用置信水平来衡量这种相对可靠性。置信水平(confidence level)指总体参数值落入样本统计值某一区间的把握性。我们常常听到的置信水平95%,指的是总体参数值落入样本统计值某一区间的概率为95%。这里的某一区间被称为置信区间(confidence interval),它反映了抽样的精确度。置信区间越大,则抽样精确度越低,误差范围则越大;置信区间越小,则抽样精确度越高,误差范围则越小。所以,只要选择抽样调查就会存在抽样误差,抽样误差是客观存在的。

和抽样误差存在于抽样调查中不同,非抽样误差(non-sampling error)既存在于抽样调查中,也存在于普查中,它是指在抽样调查中由人为因素造成的误差,如调研人员对调研目标把握不准确、马虎、心情差,受访者拒绝配合、不认真作答等,都会导致非抽样误差的出现。非抽样误差一旦发生则无法测量,但可以通过一定的措施来尽量克服,比如对访员进行培训,提高访员素质,对调查过程进行标准化管理等。非抽样误差一般与资料的准确程度有关,抽样误差则与样本的代表性有关。

我们来看一个例子:

调研公司建议人民话剧团进行一次观众调查,并提供了多套搜集资料的方案供人民话剧团选择。第一种方案是将问卷放置在剧场座位上,请观众在观看表演之前或之后在座位上填写;第二种方案是请观众离场后在休息区填写;第三种选择是将问卷发放给观众,请他们回去填写后寄回;第四种选择是观众网上购票时随机弹出问卷邀请他们填写(此种方法费用较之其他方法要高);第五种选择是在剧场外拦访路人填写。

1.如果你是人民话剧团的负责人,为了减少误差,你会选择采用哪种方法进行调查?或者你还有其他的方法。

2.请考虑是否需要将竞争对手的忠实观众也纳入样本进行调查以搜集资料?如果需要,可以采取什么样的方法?

在抽样过程中,应尽可能地坚持两个基本原则:随机性原则和效果最佳原则。

随机性原则:抽样时,总体中的每一个个体被抽取的可能性是相等的,而不是由调查人员主观决定的。

效果最佳原则:在调查经费固定的条件下,选取抽样误差最小的方案;在所要求的精确度确定的条件下,使用调查费用最少的方案。