6.1.4 抽样步骤

6.1.4 抽样步骤

各种抽样方法虽然都有自己的抽样过程或步骤,但是就其一般情况而言,抽样主要包括界定总体、编制抽样框、选择抽样方法、抽取样本和样本评估等步骤:

6.1.4.1 界定总体

一个明确的、具有清晰边界的、可以操作的总体对于抽样是非常必要的。界定总体就是根据构成总体的三大因素:地域(地点)、时间、对象,对总体的边界进行具体、详细的规定,从中抽取样本。对总体的具体规定关键在于对构成总体的三大要素给予明确、详细的说明,力图达到可以操作的要求。例如,上例关于2006年某城市大学生生存与发展及价值观念的调查,首先要确定总体的所属时间,一般可以按照时间点(时点)的规定确定总体的时间。在本例中,虽然已经确定为2006年,但是在对总体的时间规定中最好精确到月,例如调查是在2006年10月进行,总体的时间规定也应该是这个时间。其次,要明确总体的所在地域或地点。对于某城市大学生的调查,它的地点或地域是比较明确的,即凡是在某城市行政区域内的大学都属于总体的范围[3]。但是有些调查的总体地域或地点的规定稍微复杂一些,例如调查某城市市民的生存、发展及价值观念。由于近几年来城市化的发展,原来的市郊农村都规划为市区,绝大多数农民也成为具有城市户籍的市民。此时调查对象是某城市市民,就要根据课题的需要确定调查总体的是指该城市全部行政区,还是指该城市中心城区。第三,对象的具体规定。根据前例,构成总体的单位或元素是个人,即大学生。但是,仍然需要规定什么是大学生。是仅仅指全日制学校的在校大学生,还是包括成人教育学校、电视大学或自学考试在内的全部大学生?如果仅指全日制学校在校大学生,那么民办大学大学生是否包括在内?大学生仅仅是指本科学生,还是包括专科、高职、研究生在内的全部学生?以上所讲的“城市市民”也有这样的问题(例如,市民是否包括长年居住在城市的外来务工者),也要具体规定。

如果对大学生的调查假定其总体为公办大学的本科学生,本例的总体就是:2006年10月在某城市行政区划内的公办大学的全部本科学生,即2006年10月在册的(不包括休学)、尚未毕业的全部在校本科学生。这样的规定既可以包括某些特殊的专业如医科(本科是五年制)以及因为各种原因推迟毕业的学生,也把那些提前毕业或者因为各种原因除名的学生排除在外。

对于总体的详细规定可以保证在一定的时空条件下,确保构成总体的单位或元素不被遗漏。因为总体单位或元素的遗漏有可能会破坏等概率抽样原则,使抽样产生偏差。

6.1.4.2 编制抽样框

编制抽样框就是在明确规定的总体内,搜集总体中全部抽样单位的名单,并按序编号,为实施抽样做好准备。一次抽样结束后,还要对样本质量进行评估,因此在编制抽样框时,还要注意搜集那些可供评估的资料。例如,在抽样单位为个人的情况下,需要收集能够反映抽样单位属性的资料,如年龄、性别等;若抽样单位为组织或群体,需要同时收集反映组织或群体属性的资料,如人数、组织或群体性质等。

根据大学生调查的例子,若总体是一所有2万名本科生的大学,抽样单位是大学生,就必须收集2万名学生的名单及他们的年龄、性别、专业等资料,然后按序编号。但是对于总体很大的调查来说,通常是采用多段抽样方法,根据抽样的阶段性,分别编制相应的多级抽样框。

例如,关于大学生调查的例子,若总体是某城市全部公办大学所有在册本科学生,假如某城市共有50所大学,当年在册大学生有50万名。若以个人为抽样单位,并且假定能够获得以个人为抽样单位的抽样框,抽样框字数就近200万。显然这是一个非常庞杂的工作。这种情况下,一般会采用多段抽样的方法,即把抽样分成几个阶段进行。如果抽样分为三个阶段“学校→学院→学生”,首先要把该城市全部50所公办大学的名单收集到,建立第一级抽样框;若从50所大学里抽取10所大学,就要收集10所大学所有的学院名单,建立第二级抽样框;若从被抽取的大学里所有学院,即第二级抽样框里抽取30个学院,就要收集30个学院所有在册本科学生的名单,建立第三级抽样框。

在编制抽样框时,最为关键的是根据总体的规定,毫无遗漏地搜集构成总体单位或元素的名单,否则会造成严重的抽样偏差。20世纪30年代,美国总统大选前的结果预测就曾经发生过严重的抽样框编制错误,造成预测的失败。1936年,美国民主党的候选人是在任总统富兰克林·罗斯福,共和党的总统候选人是阿尔夫·兰登。大选结果表明,罗斯福以61%的得票率获得第二届任期。但是,当时美国一家非常流行的新闻杂志《文学文摘》在大选之前进行了一次大规模的总统候选人的民意测验,所获调查结果显示,有57%的选民支持共和党候选人阿尔夫·兰登,有43%的选民支持民主党的候选人富兰克林·罗斯福。事实证明,《文学文摘》民意测验的结果与选举结果大相庭径。但是这家著名杂志在1920、1924、1928和1932年总统候选人的民意测验中都是成功的,即民意测验的结果和实际的总统当选人是一致的。是什么原因造成了1936年《文学文摘》总统候选人民意测验的失败?最后发现是在编制抽样框时发生了严重错误。1936年的民意测验,《文学文摘》仍然按照以前的民意测验方法,根据电话簿和车牌登记名单编制抽样框。但是,它没有注意到1936年美国还处在最严重的经济萧条后期,很多中产阶级沦为贫民,汽车、电话对于不少人来说成为奢侈品。因此,以电话簿和车牌登记名单作为编制抽样框的基础,显然会将很多贫困选民排除在外。同时,罗斯福的新经济政策显然受到贫民的支持。因此,《文学文摘》根据电话簿和车牌登记名单编制的抽样框,它的民意测验实际上只能反映富人的意愿,贫民中的很多人已经被排除在它的抽样框之外,最终必然导致民意测验的失败,该杂志也因此于1938年倒闭(艾尔·巴比,2000a: 245) 。这个事例说明,编制抽样框并不仅仅是一个技术性问题,它还要求研究者了解社会经济的变化状况,根据现实状况的变化编制相应的抽样框。

对于一些特殊问题的研究,编制抽样框仍然是一件很困难的工作。例如,对于中间阶级或中产阶级的调查,首先涉及如何界定中产阶级。即使从职业的角度去理解中产阶级的属性,也很难获得与中产阶级有关的职业所构成的抽样框。一些边缘性群体的抽样框也很难获得,如吸毒者、艾滋病患者、同性恋者、乞丐等也很难编制抽样框。因此,编制抽样框本身就是抽样方法中一个值得研究的问题。

6.1.4.3 选择抽样方法

概率抽样的基本方法主要有:简单随机抽样方法、系统抽样方法、分层抽样方法、整群抽样方法和多段抽样方法。研究者可以根据研究目的、调查对象特点以及总体规模采用适当的抽样方法。一般来说,影响抽样方法选择最为直接的因素主要是总体规模的大小、调查对象的特点及总体的差异性。如果总体的规模比较小,例如一所学校、一家企业,可以在以个人为抽样单位的抽样框中,采用简单随机抽样方法、系统抽样方法和分层抽样方法直接在总体中抽样;对于规模很大的总体,一般采用的是多段抽样方法或PPS抽样方法;对于总体单位或元素差别不大,即同质性较高的总体,可以采用整群抽样的方法。

同时,在多段抽样中,可以把不同的抽样方法组合在一起。对于整群抽样,既可以采用简单随机抽样方法,也可以采用系统抽样方法或分层抽样方法。此外,分层抽样方法在同等条件下,更能提高样本的代表性;简单随机抽样方法最符合抽样随机性要求;系统抽样方法相对来说比较方便。

6.1.4.4 实施抽样

所谓抽样就是按照一定的抽样方法,从总体中(抽样框)抽取调查样本的过程。一般来说,抽样最好由研究者亲自实施或者在研究者指导下进行,因为抽样实施直接影响着样本的质量,关系到抽样偏差的大小。虽然在抽样方案中对于抽样方法作了非常详细、具体的说明,但是在实际抽样中,总会遇到一些预先没有估计到的问题。例如在大城市实施抽样时,会遇到基层组织不能配合,不愿意提供与抽样有关的资料,或者已经编制好的抽样框与实际状况不太相符等情况。如在大城市抽样,一般要依赖居委会的帮助根据户口簿抽样,但由于城市人口的流动较大以及户籍管理上的问题,经常会发生人户分离的情况。

在规模较大的总体中抽样时,一般由研究者负责第一级和第二级抽样,最后一级的抽样有时由调查员或者督导员实施。因此,调查员或督导员要具备有关抽样的具体知识。同时,在收集资料的过程中,总会遇到拒访或者调查对象由于特殊情况不能接受调查。因此,在抽样时,还要根据实际情况抽取一定比率的预备样本。

6.1.4.5 样本评估

虽然从理论上说,概率抽样可以获得一个能够代表总体的样本。但是,在一次抽样中,有时并不一定能够达到这个要求。例如,如果总体所有对象的平均年龄是40岁,在一次抽样中,样本的平均年龄是50岁或者30岁。虽然是遵循严格的概率抽样方法,但是可以看到样本存在较大的偏差。如果贸然进行调查的话,调查结果或资料就会产生很大的误差,并且由于抽样调查的成本一般很高,不可能再进行第二次调查,从而造成无法弥补的损失。因此,在一次抽样中并不一定能够获得一个代表性程度比较高的样本,往往需要进行多次抽样,通过对各种抽样结果比较,选择一个相对于总体来说代表性比较高的,或者偏差比较小的样本。

为了能够获得一个代表性比较高、偏差比较小的样本,在一次抽样后,要对样本质量进行评估。评估样本质量的方法是:将能够获得的反映总体一般状况的指标(通常是年龄、性别等)与样本的同类指标进行比较,差异较大的就需要重新抽样。两者的差异一般控制在5%以下;对于那些精确度有更高要求的抽样调查来说,误差应该更小。根据上例,样本的平均年龄最好控制在40× (1±5%)以内,即38~42岁。为了能够对样本质量进行评估,在编制抽样框时必须同时收集与评估指标有关的资料或数据。