6.2.3 分层抽样
分层抽样方法亦称类型抽样。它是将总体单位或元素按其属性、特征分为若干个层次或类型,然后在各类型或层次中按随机原则抽取样本,而不是从总体单位或元素中直接抽取样本。例如,在一个5000人的总体中,男性有3000人,女性有2000人,样本为200人。根据总体中的男女性别比率(分别为3/5,2/5) ,在200人的样本中,男女也应分别占3/5和2/5,即分别为120人和80人。我们只要在3000名男性和2000名女性中按简单随机抽样方法或系统抽样方法分别抽取120名男性和80名女性。样本中的性别比和总体中的性别比是完全一致的。
因此,分层抽样方法的一个最大的优点就是在同等条件下可以大大提高样本代表性。现代社会调查中,总体往往比较复杂,即总体的异质性程度较高。总体的异质性程度越高,它对样本的要求也越高,也就是说,在总体异质性较高的情况下,样本对总体的代表性将会受到很大影响。在这种情况下,除了增加样本量之外,最好的方法是采用分层抽样方法。如果在编制抽样框时能够获得反映总体特征的一些资料,如年龄、性别、职业、收入等,根据研究的需要选择适当的标准进行分层或分类,然后抽样,就可以在同等条件下,获得一个代表性程度较高的样本。因此,分层抽样比较适合研究那些情况复杂、总体单位或元素之间差异较大、范围较广的总体。
显然,在分层抽样中,如何选择一个合适的标准进行分层或分类是最为关键的。分层标准的选择既要能够反映总体最主要的特征,并且与研究密切相关,同时又要能够比较方便地获得,并且能够把总体分为不同的层次或类型。因此,分层标准的选择主要有三个原则:
第一,把需要研究的主要变量或相关变量作为分层的标准。因为这样的分层标准能够直接满足研究的需要。例如,当研究大学生的生活状况时,最能解释大学生生活状况的是家庭收入;当研究大学生的学习方法时,比较能够反映大学生学习方法差异的主要是专业。因此,家庭收入和专业是研究大学生生活状况或学习方法比较好的分层标准。需要注意的是,研究变量虽然最能满足研究的需要,但是在很多情况下,这些资料是无法获得的,它们本身需要通过抽样调查才能知道。例如,调查大学生的阅读情况,最好的分层标准无疑是大学生的读书量或者是读书类型,但是这些资料是事先没有的,需要通过调查才能知道。因此,在大多数情况下,只能选择与研究有关的变量。由于反映抽样单位属性的变量与研究有着非常密切的关系,这些变量在研究中往往起着解释或说明的作用,如个人的性别、年龄、教育程度、党派关系等,并且这些变量一般容易获得,因此研究者往往选择那些能够反映抽样单位属性,又容易收集到的变量作为分层标准。
第二,选择的分层标准能够反映层次或类型的主要特征,也就是既能保证层次内部具有较大的同质性,又能保证层次之间具有较大的异质性。例如,研究大学生的学习方法,可以将“专业”作为分层标准,不同专业的学习方法是不同的,并且相同专业的大学生具有较高的同质性,不同专业之间的大学生又有明显的差异。但是,如果要研究大学生的价值观念,采用专业作为分层的标准显然不如采用大学生的生源地(大城市、中等城市、小城镇、农村)、党派关系(中共党员、共青团员、无党派)或者家庭背景(父母职业等)。虽然就专业本身来说,能够保证层次内部的同质性和层次之间的异质性,但是相对于大学生的价值观念来说,还不能说不同专业大学生的价值观念有明显的差异,或者说专业分层不能保证相同专业的大学生在价值观念上有较大的同质性。相反,大学生的生源地分层或者党派关系分层、家庭背景分层比较能够反映相同生源地或党派关系、家庭背景的大学生在价值观念上有较大的同质性。因此,判断层次内部的同质性和层次之间的异质性,不能单纯根据分层标准的本身,还要考虑研究目的。把两者结合起来,才能全面判断被选择的分层标准对于层次内部同质性和层次之间异质性的影响。
第三,在选择分层标准时还要考虑所选择的标准能否把总体明显地分为不同的层次,或者说要选择总体单位或元素中差异较大的变量作为分层的标准。例如,年龄通常是分层的主要标准,但是如果研究的是大学生的价值观念,年龄就不足以把大学生总体明显地分为不同的层次。就年龄本身来说,大学生群体一般处于18~23岁,属于青年期,也很难区分青年前期、青年中期和青年后期。因此,如果以年龄作为分层的标准,最好能区分出老年、中年和青年。另外,处于大学生阶段(本科)的年龄变量对于他们的价值观念来说一般不具有明显的层次,哪怕把每个年龄分为一个层次,也不能区分出大学生价值观念的差异。又如,对一些地质、煤矿、石油、农林院校的大学生来说,如果以大学生生源地作为分层标准是不能把大学生明显地分为不同层次的,因为在这些学校中,生源地主要是农村或小城镇,来自大中城市的学生相对较少。
从以上的分析可以看到,分层标准的选择最重要的原则是第一条,即尽可能选择研究的主要变量或相关变量作为分层的标准;同时,再考虑分层标准能否使层次内部和层次之间具有同质性和异质性,能否明显地区分出不同的层次。分层变量的选择主要与研究目的有关,单独地考虑所谓的同质性和异质性或者层次性意义不大。
分层抽样的具体方法主要是等比抽样,即按比率抽样。前面所举的男女性的例子就是等比抽样。在等比抽样中,首先要计算总体中不同层次或类型的数量占总体的比率;然后在样本中也按这个比率进行分配;最后,在总体的各层次中按比率直接抽样。
但是,在某些特殊情况下,为了能够有效地获得在总体中所占比率较低的某些特殊层次的样本资料,可以谨慎地采用异比抽样方法,即不按比率抽样或异比抽样。例如,在5000人的总体中,男性有4500人,女性有500人,男女比率为9 ∶ 1,样本为200人。按等比抽样方法,男女在样本中的人数分别为180人和20人。无疑,只有20人的女性样本对于深入分析女性群体的状况是不够的。因此,为了能够增加分析的有效性和可信性,可以适当增加女性样本的数量,即采用异比抽样的方法,男性和女性在样本中各为100人。但是这样的抽样方法实际上违背了抽样的等概率原则,男女抽样概率是不同的,由原来的男女一样的概率即0.04 (1/25) ,变为男性为0.02 (1/45) ,女性为0.2(1/5) ,女性被抽取的概率大大高于男性。如果以异比抽样方法所获得的样本资料直接推论总体,将会产生极大的误差。假如在5000人的总体中,男性的平均收入是2000元,女性的平均收入是1000元,其平均收入应为但是如果利用异比抽样方法所获的样本收入资料去推论总体平均收入的话,总体平均收入将会被大大低估,样本调查的平均收入只有
因此,在异比抽样的条件下,如果要利用样本的资料推论总体,需要对各层次的资料作加权处理,即重新调整样本中各层次所占的比率,使数据资料恢复到原来总体中各层次所占的比率。加权处理的公式为:
在本例中,男性权数是女性权数是
以各自的权数分别乘以异比抽样的男女各自的总收入,加总后平均数即为样本平均收入,以此才能推论总体的平均收入
由于异比抽样违反了等概率抽样原则,因此在一般的情况下不宜采用,即使采用的话必须充分地估计到推论总体时所产生的偏差。