2.1 抽样的相关概念

2.1 抽样的相关概念

抽样是日常生活中每每被用到的一个概念。当创作者想知道自己参与的一部电影究竟是被观众如何评价时,一般不会也不可能去询问每个去影院观看了电影的观众,而是选择了某些院线的一些场次中的一部分观众作为调查对象,这就是在运用抽样的方法。而人们会选择这么去做是因为大家都默认了一个前提,即认为从一个既定的较大的群体中选择出一小部分,这一小部分群体身上所得到的信息同样适用于较大的群体。只有这一前提确实成立,例子中的行为才会有意义。那么如何才能让这一假设成立呢?或者说如何才能让所选择群体中的一小部分能够最大化地代表群体呢?这就涉及现代抽样的相关概念。

2.1.1 总体与样本

所谓总体(population)或同质总体,是指提供所需信息的全体,一般用大写字母N表示。回到上面关于观影评价的例子,根据定义,我们要研究的总体应该是所有去电影院看过这部电影的人。然而事实上,我们不可能抽取到完全能够代表总体中所包含的各种特性的个体作为调研对象,而且所搜集到的信息也不可能囊括所有观影者的所有想法。因此在市场调查中调研人员往往并不考虑整个总体,而是考虑总体中特定的某些部分,这些部分由调研目标所决定,被称为既定目标总体(defined target population),简称目标总体。比如,2019年暑期《还珠格格》再次重播,某调查公司接受委托进行相关调研,他们想知道00后对这部电视剧的态度以决定是否开发相关文创产品在城市进行销售。那么所有看过《还珠格格》的00后都是总体中的个体,但这实际上对调研结果意义不大,因为这样所描述的总体过于模糊、大而无当。该调研公司应该明确对象边界,比如可以根据调研目的把调查对象设定在2019年7月到8月收看了《还珠格格》并居住在人口超过100万的城市[1]中的00后。

总体所表现出的所有特征被称为参数(parameter),也被称为总体值。它是关于总体的指标——是客观存在的,但是也是未知的,抽样的目的就是为了“得到”这些参数。

定义了目标总体,调研人员就顺利得到了符合条件的全部抽样单位,即样本框(sampling frame)。样本框也被称为抽样范围,是一份关于全部抽样单元的资料,从中可以抽出样本单位,比如从某高校选择300名同学作为调查对象,那么包含有全校所有学生姓名的名单就是本次调查的样本框。但如果是从该校所有专业中抽取部分专业作为调查对象,那么样本框就不再是学生名单而应该是包含该校所有专业的专业目录。样本框提供了确认和接触总体中个体的途径,常见的样本框如现成的人员名单、点名册、电话号码簿等。

而样本(sample)是存在于总体中的一部分。它由从总体中按一定程序选取的部分个体或抽样单元组成,一般用小写字母n来表示。样本是总体的子集,相对较小,但精心选择的样本能够准确地反映出总体的特征。样本中包含个人或部分的数量,就是所谓的样本量。

样本表现出的特性被称为统计量(statistic),也被称为样本值。它是样本的指标,是从样本中计算出来的,是相应参数的估计量。一般通过样本的统计量来估计参数。图2-1描述了总体与样本的关系。

图2-1 总体参数与样本统计量