总体、个体、随机样本
总体、个体、样本是数理统计学中三个最基本的术语.
通常把研究对象的某一个或几个数量指标的全体称为总体,而把构成总体的每一个对象的某一个或几个数量指标称为个体.总体中所包含的个体的个数称为总体的容量,容量有限的总体称为有限总体,容量无限的总体称为无限总体.本书讨论的是研究对象的某一个数量指标的情形.例如,研究2005级我校本科生“概率论与数理统计学”的期末考试成绩情况,则2005级我校全部本科生“概率论与数理统计学”的期末考试成绩是一个总体,2005级我校一名本科生“概率论与数理统计学”的期末考试成绩就是一个个体.又如,考察某批灯泡的寿命,则该批灯泡寿命的全体是总体,而一个灯泡的寿命就是一个个体.研究对象的某一个数量指标的取值在客观上服从一定的分布,是一个随机变量,用X表示,通常用“总体X服从什么分布”来表示.
要将一个总体的性质了解得十分清楚,最精确的方法是对每个个体进行观察,但这一方法由于受人力、物力和时间等因素的限制,实际上是不太可能的.即使人力、物力和时间允许我们对个体进行逐个观察,这样做往往也是不现实的.例如,灯泡的寿命问题,如果将全体灯泡的寿命都测试出来,这批灯泡也全毁了.在数理统计中,人们都是通过从总体中抽取一部分个体,根据获得的数据来对总体分布得出推断.被抽出的部分个体叫作总体的一个样本.
所谓从总体抽取一个个体,就是对总体X进行一次观察并记录其结果.我们在相同的条件下对总体X进行n次重复的、独立的观察.将n次观察结果按试验的次序记为X1,X2,…,Xn,则(X1,X2,…,Xn)是n维随机向量,X1,X2,…,Xn是相互独立的且都是与X具有相同分布的随机变量.于是有如下定义:
定义1 设X是具有分布函数F的随机变量,若X1,X2,…,Xn是具有同一分布函数F的相互独立的随机变量,则称X1,X2,…,Xn为从分布函数F(或总体F,或总体X)得到的容量为n的简单随机样本,简称样本,记为(X1,X2,…,Xn),当n次观察一经完成,得到X1,X2,…,Xn的观察值x1,x2,…,xn称为样本值,也记为(x1,x2,…,xn).
由上面的定义知,(X1,X2,…,Xn)为来自总体X的样本,必须满足:①代表性,即每个Xi与总体X有相同的分布;②独立性,即X1,X2,…,Xn为相互独立的随机变量.
当总体的容量是有限时,采用有放回抽样就能得到满足上述条件的样本,但有放回抽样有时很难办到.当样本容量n与总体容量N之比充分小时,常常将不放回抽样近似看作有放回抽样来处理.
若X1,X2,…,Xn为F的一个样本,则X1,X2,…,Xn相互独立,且它们的分布函数都是F,所以(X1,X2,…,Xn)的分布函数为
又若X具有概率密度函数f,则(X1,X2,…,Xn)的概率密度函数为