6.2.6 PPS抽样

6.2.6 PPS抽样

所谓PPS抽样就是“概率与元素的规模大小成比例的抽样” ( sampling with probability proportionate to size, PPS) ,是多段抽样方法的特定形式。在多段抽样中,假定总体中的每个单位都具有同等被抽中的机会,并不考虑每个单位规模的大小和人数的多少。例如,在假定的50所大学中,有的是国家重点大学,有的是地方性学校;有的学科门类齐全,科研教学水平显著,有的只是专业性的学校或者科研教学水平一般;有的学校学生数达数万人,有的只有几千人。在多段抽样中,那些水平较高、影响较大、规模较大的学校很有可能不被抽中,这样的结果对于样本的代表性是有影响的。因此,PPS抽样方法的最大特点是单位规模的大小影响到被抽取的概率,也可以说,单位的规模越大,被抽中的概率也越高。因此,就单位规模对概率的影响来说,PPS抽样方法是一种不等概率抽样。

PPS抽样方法的步骤如下(具体示例见表6-2) :

表6-2 PPS抽样方法举例

注:①代表通过查对随机数表获得的入选号码和入选元素;②代表通过系统抽样方法获得的入选号码和入选元素,系统抽样的间距为起抽号为10097。

(1)在确定的总体内,编制单位(或组织)的抽样框,给每个单位按序编号,并且统计好每个单位的人数。例如,某城市共有50所高校,收集好每所学校的学生数,给每所学校编上号码。

(2)把每个单位的人数累积相加,根据累积人数确定每个学校的号码范围。例如,02学校的累积人数:5000+35000=40000; 03学校累积人数:40000+40000=80000;两学校的号码范围分别为005001—040000,040001—080000。

(3)根据规定的抽样元素数量,按照选择号码范围,查对随机数表抽取单位,也可以根据系统抽样方法抽取单位。一个单位的抽样元素内含若干个被调查对象。例如,在某城市如果有50所大学共50万名大学生,样本为2000名学生,如果一个抽样元素内含100名调查对象,则一共有20个抽样元素。一所学校被入选的抽样元素越多,也就意味着被调查的学生越多。抽样元素内含的调查对象数量,主要根据第一级抽样单位覆盖面的大小来决定,也就是说,如果适当增加第一级样本的数量,抽样元素内含的人数就相应减少。在完成第一级抽样时,需要对样本质量进行评估,发现样本具有较大的偏差,可以重新抽样,直到抽取出代表性较高的样本。从抽样实践来看,在一次抽样中,系统抽样要比简单随机抽样更能体现总体结构,或者说对总体更具有代表性。

(4)在被抽取的单位中,按照抽样元素的多少进行第二次抽样,直接抽到大学生。当然单位规模很大,被抽取的调查对象很多时,也可以通过多段抽样方法抽取被调查对象。例如,09学校有50000名学生,被抽到两个抽样元素,即200名学生,直接抽取大学生存在一定的困难,可以通过多段抽样方法抽取大学生,当然也可以继续采用PPS方法抽样。

虽然就单位规模对概率的影响来说,PPS抽样方法是一种不等概率抽样,但是由于单位规模较大被抽取的概率较大,在单位内部抽取样本时,概率较小;而单位规模较小被抽取的概率较小,在单位内部抽取样本时,概率较大。两相抵消,PPS抽样方法仍然是等概率抽样。

例如:

08学校按学生人数被抽中的概率:8000/500000=0.016

08学校内部学生被抽中的概率:100/8000=0.0125

09学校按学生人数被抽中的概率:50000/500000=0.1

09学校内部学生被抽中的概率:100/50000=0.002

08学校学生被抽中的概率:20(0.016×0.0125)=0.004

09学校学生被抽中的概率:20(0.1×0.002)=0.004