二、常见的统计量

二、常见的统计量

1.样本均值及其抽样分布

img

设X1,X2,…,Xn为取自总体X的样本值,其算术平均值称为样本均值,一般用img表示,即

img

在分组样本场合,样本均值的近似公式为

img

其中k为组数,Xi为第i组的组中值,fi为第i组的频数.

例1 某单位收集到20名青年人某月的娱乐支出费用数据:

img

该月这20名青年的平均娱乐支出为多少?

解 由统计的20名青年人该月的娱乐支出费用数据,使用公式(7.1)进行计算可得

img

将这个数据分组可得到如下频数频率分布(表7-7):

表7-7

img

对表7-7的分组样本,使用公式(7.2)进行计算可得

img

我们看到两种计算结果的不同,事实上,由于公式(7.2)未用到真实的样本观测数据,因而给出的是近似结果.

关于样本均值,有如下性质.

定理1 若把样本与样本均值之差称为偏差,则样本的所有偏差之和为0,即imgimg

定理2 样本与样本均值的偏差平方和最小,即在形如img的函数中,img最小,其中c为任意给定常数.

下面考虑样本均值的分布.现在我们给出关于样本均值抽样分布的一个重要结论.

定理3 设X1,X2,…,Xn是来自总体X的样本,img为样本均值.

(1)如总体分布为N(μ,σ2),则img的精确分布为img

(2)若总体分布未知或不是正态分布,但E(X)=μ,则n较大时,img的渐进分布为img,常记为img.这里渐进分布是指n较大时的近似分布.

2.样本方差与样本标准差

img

设X1,X2…,Xn为取自总体X的样本,则它关于样本均值的平均偏差平方和

img

称为样本方差,其算术根img称为样本标准差.相对样本方差而言,样本标准差通常更有实际意义,因为它与样本均值具有相同的度量单位.在n不大时,常用

img

作为样本方差(也称无偏方差),其算术根img也称为样本标准差,在实际中,S*2比S2更常用.

在这个定义中,n为样本量,img称为偏差平方和,n-1称为偏差平方和的自由度.其含义是:在img确定后,n个偏差中img只有n-1个值可以自由变动,而第n个则不能自由取值,因为img.

样本偏差平方和有三个不同的表达式:

img

它们都可用来计算样本方差.

在分组样本场合,样本方差的近似计算公式为

img

其中,Xi,fi为第i个区间的组中值和频数.

例2 考察例1的样本,我们已经计算得img=99.4,其样本方差与样本标准差分别为多少?

img

3.样本矩及其函数

样本均值和样本方差更一般的推广是样本矩,这是一类常见的统计量.

img设X1,X2,…,Xn是样本,则统计量

img

称为样本k阶原点矩,样本一阶原点矩就是样本均值.统计量

img

称为样本k阶中心矩,样本二阶中心矩就是样本方差.

当总体分布关于中心对称时,用img和S*刻画样本特征很有代表性.而当其不对称时,只用img和S*就显得很不够.为此,需要一些刻画分布形状的统计量.这里我们介绍样本偏度和样本峰度,它们都是样本中心矩的函数.

img

img

样本偏度γ1反映了总体分布密度曲线的对称性信息.如果数据完全对称,则不难看出B3=0,不对称的数据则B3≠0.这里用B3除以img是为了消除量纲的影响,γ1是个相对数,它很好地刻画了数据分布的偏斜方向和程度.

img

img

样本峰度γ2反映了总体分布密度曲线在其峰值附近的陡峭程度.当γ2>0时,分布密度曲线在其峰值附近比正态分布来得陡,称为尖顶型;当γ2<0时,分布密度曲线在其峰值附近比正态分布来得平坦,称为平顶型.

例3 表7-8是两个班(每班50名同学)的英语考试成绩,分别计算两个班级的平均成绩、标准差、样本偏度及样本峰度.

表7-8

img

下面我们分别计算两个班级的平均成绩、标准差、样本偏度及样本峰度,表7-9和表7-10分别给出甲班和乙班的计算过程.

表7-9 甲班成绩的计算过程表

img

表7-10 乙班成绩的计算过程表

img

可算得两个班的平均成绩、标准差、样本偏度、样本峰度分别为

img
img

由此可见,两个班的平均成绩相同,标准差也几乎相同,样本偏度分别为-0.16和0.068,显示两个班的成绩基本是对称的.但两个班的样本峰度明显不同,乙班的成绩分布比较平坦,而甲班则稍显尖顶.