6.2.5 多段抽样

6.2.5 多段抽样

在实际调查中,我们经常会碰到由于总体太大,无法收集总体单位或元素的全部名单,或者即使能够收集,花费的精力和成本也很大。正如前文讲述编制抽样框所提到的,社会学实证研究的总体都比较大,一般都是以省、市,甚至全国为总体,在我国现在的信息条件下,虽然在理论上可以编制以个人为抽样单位的抽样框,但是成本极高。例如,调查某城市全部在校大学生的生存与发展及其价值观念,虽然不能排除可以从教育主管部门获得全市在册大学生的全部名单,直接在大学生中抽样。但是,编制这样一份包括全部在册大学生的(假定全市有50万名大学生)花名册本身就是一件很烦琐的、工作强度很高的工作。更何况,在很多研究中,即使在一个确定的总体内,也无法编制一份没有遗漏的以个人为抽样单位的抽样框。例如,近年来,很多部门和研究单位都非常关注我国改革开放以后新阶层的发育和发展,但是直到现在为止,我们都不能编制出一份以个人为抽样单位的有关新阶层的抽样框。

因此,在总体特别大、很难偏制以个人为抽样单位的抽样框的情况下,通常采用多段抽样方法。多段抽样方法以整群抽样方法为基础,采用多级整群抽样,即从大群体(组织)开始抽样,再抽到比较小的群体(组织),最后抽到个人。它的抽样过程是:大群体(组织)→小群体(组织)→个人。也就是说,多段抽样方法是把抽样分成几个阶段进行。一般而言,根据我国的特点,在进行多段抽样时,开始阶段的抽样单位主要是行政单位或组织。例如,关于某城市全部在册大学生的生存与发展及其价值观念的调查,在抽样时,可以先从大学开始抽样,再在被抽取的学校中抽取学院,最后在被抽取的学院里抽取大学生。由于学院的学生人数相对有限,可以在学院很方便地编制以大学生为抽样单位的抽样框。对于某城市新阶层的调查,可以先从街道和镇开始抽样,再在被抽到的街道和镇抽取居委会和村,最后在被抽取的居委会和村编制出居委会和村所属的全部新阶层成员名单,由于新阶层的数量不是很多,可以对被抽取的居委会和村所属的全部新阶层成员进行调查。

需要注意的是,多段抽样编制抽样框时,事先要大致了解每个抽样阶段所含有的抽样单位规模或数量,从而安排好每个抽样阶段需要抽取的样本数。例如,前例某城市大学生调查样本人数为2000人,全市有公办大学50所,平均每所大学有10个学院,全市大学生共50万名。在具体抽样时,事先需要知道该城市中大学所属学院的平均学生人数,以及最少和最多的学生人数。假定平均每个学院的学生人数大约为1000人,准备在每个学院平均抽取50名学生,就需要抽取40个学院;依此类推,如果每所大学准备抽取2个学院,那么第一级以学校为单位的抽样就需要在全部大学中抽取20所大学。它的抽样过程是:大学→学院→大学生(见图6-5) 。在具体抽样时,当从50所大学抽取20所大学后,可以在被抽取的每所大学中各抽取2个学院,最后平均每个学院抽取50名大学生,为了保证每个学院被抽取大学生的概率一致性,一般采用系统抽样方法。例如,被抽去的40所学院学生总人数为40000人,样本数为2000人,抽样间距为20,即在被抽取的学院中,每隔20人抽取1人,如果甲学院有学生2000人,乙学院有学生800人,按系统抽样,甲学院应抽取100名学生,乙学院应抽取40名学生。如果采用简单随机抽样等方法,需要根据抽样比率(40所学院学生总人数为40000人,样本数为2000人)确定每个学院的样本人数,而不是平均分配样本人数,例如,甲学院样本人数=0.05×2000=100(人),乙学院样本人数=0.05×800=40(人)。

图6-5 多段抽样示例

在多段抽样时,如果总体的异质性程度比较高,在开始阶段抽样时,即抽取大群体(组织)时,要适当扩大抽样比率。如果总体的异质性程度比较低,例如对传统农村进行调查,在开始阶段抽样时,可以采用比较适中的抽样比率。

由于多段抽样是把抽样分成几个阶段进行,每个阶段的抽样都会产生抽样误差,因而它的抽样误差比任何抽样方法都大得多。而且,改革开放以后,不仅是城市,即使在农村,总体的复杂性是计划经济时期不能相比的。因而,对于不同的研究课题和调查对象,总体的异质性程度,即总体单位或元素的差异程度只有高低之分。因此,无论就多段抽样本身所具有的局限性,还是就当代中国的社会分化程度来说,多段抽样方法都会产生比较大的抽样误差。

从经验上说,在同等条件下,为了降低多段抽样方法产生的抽样误差,常用的方法主要是:

第一,提高开始阶段的抽样比率,适当降低最后阶段的抽样比率,从而保证样本能够在总体中得到比较广泛的分布。按上例,第一阶段,即对大学的抽样比率是第二阶段,即对被抽取的学校所属学院抽样比率是第三阶段,即对被抽取的学院所属大学生的抽样比率是

第二,由于多段抽样方法是多种抽样方法的组合,即在每个抽样阶段可以根据研究需要分别采用简单随机抽样方法、系统抽样方法和分层抽样方法。为了降低多段抽样的抽样误差,可以在开始阶段采取分层抽样方法,例如在本例中,第一阶段和第二阶段抽样就可以采用分层抽样方法,最后阶段采取系统抽样方法:第一阶段可以把所有大学分为综合性大学和非综合性大学两种类型,采用等比分层抽样抽取大学;第二阶段可以在被抽取的学校中根据文科学院和理工科学院的分布情况抽取规定的学院,在具体抽样时,既可以规定每所大学各抽取2个学院,也可以根据学校的规模,即学生人数多少抽取学院数;第三阶段就可以在被抽取的学院中按系统抽样方法直接抽取大学生。

第三,由于多段抽样方法的每个阶段都有比较明确的抽样框,可以获得用来评估样本质量的资料或变量,因此在每个阶段抽样结束时都可以根据有关指标评估样本质量。

但是多段抽样方法存在一个明显的缺陷,即它假定总体是正态分布的,如果总体分布是偏态的话,就会产生很大的抽样误差。假如全市大学生一半集中在5所大学,还有一半学生分散在45所大学中,即使按0.4的概率抽取大学,那些规模很大的学校最终入选样本的大学生也是较少的,按0.4的概率,可以抽到2所规模很大学校,共4个学院4000名学生,最终被抽取的学生只有200名(按学生的分布,规模很大学校的样本数应该占一半,即1000人)。为了弥补上述缺陷,可以采用经过修正的多段抽样方法,即PPS抽样方法。