6.2.2 系统抽样
系统抽样方法亦称机械抽样或等距抽样。它将总体各单位或元素按序编上号码后,计算抽样间距,然后从间距以内的任意一个数字开始,按这个间距抽取样本,直到抽满规定的样本为止。例如从5000人抽取200人,先将5000人从第一人开始依次从第1号编到5000号,用总体单位数5000除以样本数200,求得抽样间距为25,然后采用抽签法或随机号码表,从25以内的数字中随机抽出一个数字,作为起抽号,以此数起,按25为间距开始抽样,直到抽满200人为止。如果开始抽出的数字为15,即从15开始,每隔25抽取一个样本,直至抽满200个样本。其过程如下:
第1个样本号:15
第2个样本号:15+25=40
第3个样本号:15+2×25=65
第4个样本号:15+3×25=90
...
第199个样本号:15+198×25=4965
第200个样本号:15+199×25=4990
根据上例,系统抽样的步骤如下:
(1)编制抽样框,并对总体的单位或元素按序编号。
(2)计算抽样间距,即其中,D为抽样间距或间隔,N为总体数,n为样本数。
(3)确定起抽号,即第一个样本的号码;起抽号一般按随机方法在抽样间距内获得,可以保证起抽号小于或等于抽样间距值,如果大于的话,最后一个样本号码必然就会超出总体数。如果上例起抽号为26,第200个样本号就是:26+199×25=5001,已经不在总体范围之内。
(4)从起抽号(F)开始,按抽样间距抽取样本,直到抽满规定的样本数。即F, F+D, F+2D,…, F+ (sn-1)D。其中,F为起抽号,D为抽样间距,sn为样本序号。上例第199个样本,F, D, sn-1分别为15, 25, 198。
但是,在实际生活中,一个确定的总体数并不一定是尾数为零的数值。例如某单位有5012人,样本数仍为200人,此时抽样间距为[5],如果抽样间距仍然按25计算,那么5000以后的12位个人,就永远不可能被抽取到,这是违背抽样原理的。因此,起抽号仍然要在抽样间距内按随机方法选取。由于现在的抽样间距值是带有小数的,已经不能直接在这个数值内获得,一个变通的办法是在总体数值中抽取一个数字,然后除以样本数,或者把带有小数的抽样间距值中的小数点去掉,在这个数值内抽取起抽号后,再恢复小数点。例如,按第一种办法,直接在5012内随机选取起抽号,如4842,除以200,起抽号为24.21;按第二种办法,把25.06看成2506,按随机方法选取一个数字,如2502,再除以100,起抽号即为25.02。两种方法实际上都要求做到,按随机方法抽取的起抽号,都必须在抽样间距内或者最多等于抽样间距值。
问题是当获得的起抽号带有小数时,在总体中无法找到相对应的数值。因此,一般情况下,可以采用直接进位法或者四舍五入法。本书采用的是直接进位法,即不管小数的大小一律进位到整数。因为从理论上说,带有小数的某个样本在总体中的号码,实际上意味着作为整数的那个号码已经被超过了,失去了被抽取的资格。例如,若起抽号为24.21,按直接进位法,第一个样本在总体中的号码应该是25,而不是24,因为24.21大于24, 24已经失去了被抽取的资格。同理,如果样本在总体中的号码带有小数,一律直接进位到整数,而不考虑它们小数的大小。但需要注意的是起抽号和抽样间距在本例中仍然是带有小数的,不能进位到整数。如果起抽号为24.21,在5012人中要抽取200人,其过程如下:
显然,系统抽样方法与简单随机抽样方法相比,两者差别不大,但是更加简便,比较适合总体和样本比较大的情况。
在系统抽样方法中,有两个问题需要讨论。
第一,在对抽样框的名单编号时,是否可以按照一定的标准编号?例如,在5000人的总体中,如果在编号时按照收入的高低,由高到低进行编号。由于起抽号要在抽样间距值25中随机抽取,如果抽到处于极端位置的数值,如1或者25,按照系统抽样的方法,就会得到一个误差比较大的样本。以1为起抽号所组成的样本平均值会大大高于总体的平均值;反过来,以25为起抽号所组成的样本平均值会大大低于总体的平均值。因此,在一般情况下,对于初学者来说,最好不要按照一定的标准编号,以免出现比较大的抽样误差。
但是,根据一定的标准对总体成员编号,然后按间距抽样,在特定的情况下可以得到一个代表性程度较高的样本。也就是说,既然知道在抽取起抽号时,如果抽到处于抽样间距值中两个比较极端的值,会产生较大的抽样误差,就可以采用多次抽样的方法,选择一个处在抽样间距中间位置的数值,即中位数,或者是接近于中位数的数值作为起抽号,抽取的样本的平均值就与总体平均值的差异不大。就这个意义上说,系统抽样方法能够比简单随机抽样方法获得代表性更高的样本。
第二,系统抽样方法在理论上会出现所谓的“周期性误差”,即总体单位或元素的排列与抽样间距和起抽号出现对应性的周期性分布。在这种情况下也会出现很大的抽样误差。例如,在城市中调查居民对环境噪声的评价,如果被调查的居民小区住房都是标准化的“公房”,每幢楼都是六层,每层有四户(见图6-4)。在这种情况下,如果不小心的话,调查样本就会由沿马路居住的住户所组成,或者大部分调查对象是住在沿马路的。根据这个样本所得到的资料就会有较大的偏差。其原因在于,抽样时所确定的起抽号以及抽样间距正好与住房的排列存在着对应。当然这样的情况是非常极端的,一般很少出现。但是我们在抽样时一定要注意因为“周期性误差”的存在而产生较大的抽样误差。
图6-4 标准化“公房”住宅小区示意图