二、常见的统计量
1.样本均值及其抽样分布
在分组样本场合,样本均值的近似公式为
其中k为组数,Xi为第i组的组中值,fi为第i组的频数.
例1 某单位收集到20名青年人某月的娱乐支出费用数据:
该月这20名青年的平均娱乐支出为多少?
解 由统计的20名青年人该月的娱乐支出费用数据,使用公式(7.1)进行计算可得
将这个数据分组可得到如下频数频率分布(表7-7):
表7-7
对表7-7的分组样本,使用公式(7.2)进行计算可得
我们看到两种计算结果的不同,事实上,由于公式(7.2)未用到真实的样本观测数据,因而给出的是近似结果.
关于样本均值,有如下性质.
下面考虑样本均值的分布.现在我们给出关于样本均值抽样分布的一个重要结论.
2.样本方差与样本标准差(https://www.daowen.com)
设X1,X2…,Xn为取自总体X的样本,则它关于样本均值的平均偏差平方和
样本偏差平方和有三个不同的表达式:
它们都可用来计算样本方差.
在分组样本场合,样本方差的近似计算公式为
其中,Xi,fi为第i个区间的组中值和频数.
3.样本矩及其函数
样本均值和样本方差更一般的推广是样本矩,这是一类常见的统计量.
称为样本k阶原点矩,样本一阶原点矩就是样本均值.统计量
称为样本k阶中心矩,样本二阶中心矩就是样本方差.
样本峰度γ2反映了总体分布密度曲线在其峰值附近的陡峭程度.当γ2>0时,分布密度曲线在其峰值附近比正态分布来得陡,称为尖顶型;当γ2<0时,分布密度曲线在其峰值附近比正态分布来得平坦,称为平顶型.
例3 表7-8是两个班(每班50名同学)的英语考试成绩,分别计算两个班级的平均成绩、标准差、样本偏度及样本峰度.
表7-8
下面我们分别计算两个班级的平均成绩、标准差、样本偏度及样本峰度,表7-9和表7-10分别给出甲班和乙班的计算过程.
表7-9 甲班成绩的计算过程表
表7-10 乙班成绩的计算过程表
可算得两个班的平均成绩、标准差、样本偏度、样本峰度分别为
由此可见,两个班的平均成绩相同,标准差也几乎相同,样本偏度分别为-0.16和0.068,显示两个班的成绩基本是对称的.但两个班的样本峰度明显不同,乙班的成绩分布比较平坦,而甲班则稍显尖顶.