二、样本
从总体中取得一部分个体,这一部分个体称为样本.取得样本的过程称为抽样.一个样本中每一个个体称为样品.样本中个体的个数称为样本容量.
在数理统计中,采取抽样的方法是随机抽样法,即样本中每一个个体(样品)是从总体中被随意地抽取出来的.随机抽样分重复抽样和非重复抽样两种.以例1为例,从1000个产品中抽取一个容量为10的样本,如果随机抽取一个产品检查后放回,再随机抽取一个检查后又放回,直至取到10个个体为止,这种方法称为重复(或返回)抽样.如果每取一个检查后不再放回,直至取得10个个体为止,或者一次抽取10个,这种方法称为非重复(或无返回)抽样.需要指出,随机抽样得到的样本,所含样品是有一定次序的,通常按它被摸到的先后顺序排列.
从总体X随机抽样得到的样本可以用n维随机向量表示(X1,X2,…,Xn).现在考察它的概率分布,在重复抽样中,由于每次取出一个个体检查后放回,总体成分不变(总体分布不变),所以X1,X2,…,Xn是独立同分布的,并且每一个随机变量的分布与总体分布相同.对于非重复抽样,则分两种情形:在有限总体情形中,因取出一个个体后改变了总体的成分,所以随机变量X1,X2,…,Xn不相互独立;在无限总体情形中,每取出一个个体后并不改变总体的成分,所以随机变量X1,X2,…,Xn仍然是独立同分布的,并且每一随机变量的概率分布都是总体分布.
在实际情况中,我们有时遇到的是对有限总体采用无返回抽样.此时,如果样本容量n相对于总体容量N(总体中个体总数)很小,实际上要求,可以把X1,X2,…,Xn近似地看成独立同分布,而且每个随机变量的分布都是总体分布.
如果样本(X1,X2,…,Xn)中各个个体独立同分布,且每一随机变量的概率分布是总体分布,则称它为简单随机样本.这种样本数学上比较容易处理.
样本(X1,X2,…,Xn)是n维随机向量,这是对具体进行一次抽样而言.在抽样后获得它的一组观察值(x1,x2,…,xn),称为样本值.为方便起见,有时样本与样本值亦可统称为样本.
例4 某食品生产厂家生产的某种袋装食品规定净含量为250 g.然而由于随机性,事实上不可能使所有该种食品的净含量均为250 g.现从该厂家生产的此种食品中随机抽取10袋测定其净含量,得到的结果如下:
249 250 248 251 250 251 249 252 248 249.
这10个结果即是一个容量为10的样本值,对应的总体为该厂生产的此种食品的净含量.