二、常见的统计量
1.样本均值及其抽样分布
设X1,X2,…,Xn为取自总体X的样本值,其算术平均值称为样本均值,一般用表示,即

在分组样本场合,样本均值的近似公式为

其中k为组数,Xi为第i组的组中值,fi为第i组的频数.
例1 某单位收集到20名青年人某月的娱乐支出费用数据:

该月这20名青年的平均娱乐支出为多少?
解 由统计的20名青年人该月的娱乐支出费用数据,使用公式(7.1)进行计算可得

将这个数据分组可得到如下频数频率分布(表7-7):
表7-7

对表7-7的分组样本,使用公式(7.2)进行计算可得

我们看到两种计算结果的不同,事实上,由于公式(7.2)未用到真实的样本观测数据,因而给出的是近似结果.
关于样本均值,有如下性质.
定理1 若把样本与样本均值之差称为偏差,则样本的所有偏差之和为0,即
定理2 样本与样本均值的偏差平方和最小,即在形如的函数中,
最小,其中c为任意给定常数.
下面考虑样本均值的分布.现在我们给出关于样本均值抽样分布的一个重要结论.
定理3 设X1,X2,…,Xn是来自总体X的样本,为样本均值.
(1)如总体分布为N(μ,σ2),则的精确分布为
;
(2)若总体分布未知或不是正态分布,但E(X)=μ,则n较大时,的渐进分布为
,常记为
.这里渐进分布是指n较大时的近似分布.
2.样本方差与样本标准差
设X1,X2…,Xn为取自总体X的样本,则它关于样本均值的平均偏差平方和

称为样本方差,其算术根称为样本标准差.相对样本方差而言,样本标准差通常更有实际意义,因为它与样本均值具有相同的度量单位.在n不大时,常用

作为样本方差(也称无偏方差),其算术根也称为样本标准差,在实际中,S*2比S2更常用.
在这个定义中,n为样本量,称为偏差平方和,n-1称为偏差平方和的自由度.其含义是:在
确定后,n个偏差中
只有n-1个值可以自由变动,而第n个则不能自由取值,因为
.
样本偏差平方和有三个不同的表达式:

它们都可用来计算样本方差.
在分组样本场合,样本方差的近似计算公式为

其中,Xi,fi为第i个区间的组中值和频数.
例2 考察例1的样本,我们已经计算得=99.4,其样本方差与样本标准差分别为多少?

3.样本矩及其函数
样本均值和样本方差更一般的推广是样本矩,这是一类常见的统计量.
设X1,X2,…,Xn是样本,则统计量

称为样本k阶原点矩,样本一阶原点矩就是样本均值.统计量

称为样本k阶中心矩,样本二阶中心矩就是样本方差.
当总体分布关于中心对称时,用和S*刻画样本特征很有代表性.而当其不对称时,只用
和S*就显得很不够.为此,需要一些刻画分布形状的统计量.这里我们介绍样本偏度和样本峰度,它们都是样本中心矩的函数.

样本偏度γ1反映了总体分布密度曲线的对称性信息.如果数据完全对称,则不难看出B3=0,不对称的数据则B3≠0.这里用B3除以是为了消除量纲的影响,γ1是个相对数,它很好地刻画了数据分布的偏斜方向和程度.

样本峰度γ2反映了总体分布密度曲线在其峰值附近的陡峭程度.当γ2>0时,分布密度曲线在其峰值附近比正态分布来得陡,称为尖顶型;当γ2<0时,分布密度曲线在其峰值附近比正态分布来得平坦,称为平顶型.
例3 表7-8是两个班(每班50名同学)的英语考试成绩,分别计算两个班级的平均成绩、标准差、样本偏度及样本峰度.
表7-8

下面我们分别计算两个班级的平均成绩、标准差、样本偏度及样本峰度,表7-9和表7-10分别给出甲班和乙班的计算过程.
表7-9 甲班成绩的计算过程表

表7-10 乙班成绩的计算过程表

可算得两个班的平均成绩、标准差、样本偏度、样本峰度分别为


由此可见,两个班的平均成绩相同,标准差也几乎相同,样本偏度分别为-0.16和0.068,显示两个班的成绩基本是对称的.但两个班的样本峰度明显不同,乙班的成绩分布比较平坦,而甲班则稍显尖顶.