2.3.1 常用的抽样方法
抽样调查的领域涉及如何用有效的方式得到样本数据。最常用的问卷调查方式包括通过邮件、报刊、网络等手段调查、电话调查和面对面调查等。这些调查都利用了问卷,而问卷的设计则很有学问,对于问卷中不同的用词、问题的次序和问题的选择与组合等都需要先思考再落实,因为这涉及包括心理学、社会学等知识。面对面调查则需要对调查者进行培训。
抽样调查的设计目的之一是确保样本对总体的代表性,以保证后继推断的可靠性。概率抽样假定每个个体出现在样本中的概率是已知的,这种概率抽样方法使得数据能够进行合理的统计推断。但是为了节省调查的费用和时间,常常采取基于方便或常识判断的非概率抽样方法。对从非概率抽样得到的数据进行统计推断要非常慎重,它依赖具体的抽样方案是如何设计的,也依赖它是如何实施的。这种统计推断往往无法根据完善的统计理论来进行,也很难客观地建立抽样误差的范围。
在抽样调查时,最理想的样本是简单随机样本。但是由于随机抽样的方法实践起来不方便,所以在大规模调查时一般不用这种全局随机抽样的方法,而只是在局部采用随机抽样的方法。下面介绍几种抽样方法。这里没有深奥的理论,读者完全可以根据常识判断在什么情况下无法获取简单的随机样本,以及下面每个抽样方法有什么优点和缺点。另外,一般仅有少数人有机会来确定抽样方案,读者仅需把这些方法当成常识来了解就可以了。
下面介绍一些概率抽样方法。
1.系统抽样
系统抽样也称为每n个名字选择方法。这是先把总体中的每个单元编号,然后随机选取其中之一作为抽样的开始点。根据预订的样本量决定“距离”n。在选取开始点之后,通常从开始点开始按照编号进行所谓的等距抽样。
例如,要调查某社区65岁以上的老年人的退休收入情况时,就可以按照老年人的年龄,把这个社区的65岁以上的老年人排列起来,随机地确定第一个老年人后,每隔5个人抽一个老人调查。这就是等距抽样的调查方法。也就是说,如果开始点为5号,“距离”n=10,则下面的调查对象为15号、25号,等等。不难理解,如果编号是随机选取的,则这和简单随机抽样是等价的。
2.分层(分类)抽样
分层抽样是指按照总体中个体的某特征,把总体中的个体分为若干群(类),然后对各个群内的个体进行简单随机抽样。例如,调查某地区居民的消费状况时,应事先把该地区居民分为城镇居民、农村居民等几类,然后对每一类的个体用简单随机抽样的方法进行抽样。这样就确保了每一类都有相应比例的代表,能比较准确地反映该地区居民的消费状况。分层抽样的一个“副产品”就是同时可以得到各类的结果。
3.整群抽样
整群抽样是指先将总体中的各个个体按照某一标志量分为若干群,然后以群为单位,对群进行(简单)随机抽样,最后对抽出来的各个群中的个体进行普查。这是先把总体划分成若干群,整群抽样和分层抽样不同,这里的群是由不相似或异类的(heterogeneous)个体组成的。比如,对某县进行调查时,首先要在所有村中选取若干村子,然后只对这些选中的村子的人进行全面或抽样调查。整群抽样的主要应用是所谓的区域抽样(area sampling),那时群就是县、镇,或者其他适当的关于人群的地理划分。
4.多级抽样
在群体很大时,往往在抽取若干群之后,再在其中抽取若干子群,甚至再在子群中抽取子群,等等。最后只对最后选定的最下面的子群进行调查。比如,在全国调查时,先抽取省,再抽取地市,再抽取县区,再抽取乡、村,最后抽取户。在多级抽样中每一级都可能采取不同的抽取方法。因此,整个抽样计划可能比较复杂,成为多级混合型抽样。
例2.6 分层抽样的做法是什么?