样本数据的整理与显示

三、样本数据的整理与显示

1.经验分布函数

设X1,X2,…,Xn是取自总体分布函数为F(x)的样本,若将样.本.观测..值.由小到大进行排列,为x(1),x(2),…,x(n),则称X(1),X(2),…,X(n)为有序样本,用有序样本定义函数如下:

img

则Fn(x)是一非减右连续函数,且满足

img

由此可见,Fn(x)是一个分布函数,并称Fn(x)为经验分布函数.

经验分布函数的图形如图7-1所示.

img

图7-1 经验分布函数

例5 某食品厂生产听装饮料,现从生产线上随机抽取5听饮料,称得其净重为(单位:克)

img

这是一个容量为5的样本,经排序可得有序样本

img

其经验分布函数为

img

2.频数频率分布表

样本数据的整理是统计研究的基础,整理数据最常用的方法之一是给出其频数分布表或频率分布表,我们从一个例子开始介绍.

例6 为研究某工厂工人生产某种产品的能力,我们随机调查了20位工人每天生产的该种产品的数量,数据如下:

img

对这20个数据(样本)进行整理,具体步骤如下:

(1)对样本进行分组.首先确定组数k,作为一般性原则,组数通常在520个,对容量较小的样本,通常将其分为5组或6组,容量为100左右的样本可分7到10组,容量为200左右的样本可分9到13组,容量为300左右及以上的样本可分12到20组,目的是使用足够的组来表示数据的变异.本例中只有20个数据,我们将其分为5组,即k=5.

(2)确定每组组距.每组区间长度可以相同也可以不同,实用中常选长度相同的区间以便于进行比较,此时各组区间的长度称为组距,其近似公式为

img

本例中,数据最大观测值为196,最小观测值为148,故组距近似为d=9.6,方便起见,取组距为10.

(3)确定每组组限.各组区间端点为a0,a0+d=a1,a0+2d=a2,…,a0+kd=ak,形成如下的分组区间

img

其中a0略小于最小观测值,ak略大于最大观测值,本例中可取a0=147,a5=197,于是本例的分组区间为

img

通常可用每组中的组中值来代表该组的变量取值,组中值=(组上限+组下限)/2.

(4)统计样本数据落入每个区间的个数——频数,并列出频数频率分布表.本例的频数频率分布表如表7-2所示,从表7-2中可以读出很多信息,如40%的工人产量为157167;产量少于167个的有12人,占60%;产量高于177的有3人,占15%.

表7-2 频数频率分布表

img

3.样本数据的图形显示

前面我们介绍了频数频率分布的表格形式,它也可以用图形表示,用图形表示显得更加直观.

(1)直方图

频数分布最常用的图形表示是直方图,它在组距相等的场合常用宽度相等的长条矩形表示,矩形的高低表示频数的大小.在图形上,横坐标表示所关心变量的取值区间,纵坐标表示频数,这样就得到频数直方图,若把纵轴改成频率就得到频率直方图.

为使诸长条矩形面积和为1,可将纵轴取为频率组距,如此得到的直方图称为单位频率直方图,或简称频率直方图.此三种直方图的差别仅在于纵轴刻度的选择,直方图本身无变化.

(2)茎叶图

除直方图外,另一种常用的方法就是茎叶图.

例7 某公司对应聘人员进行能力测试,测试成绩总分为150分.下面是50位应聘人员的测试成绩(已经排过顺序)

img

我们用这批数据给出一个茎叶图,把每一个数值分为两部分,前面一部分(百位和十位)称为茎,后面部分(个位)称为叶,如:

img

然后画一条竖线,在竖线的左侧写上茎,右侧写上叶,就形成了茎叶图.应聘人员测试成绩的茎叶图如图7-2所示.

img

图7-2 测试成绩的茎叶图

茎叶图的外观很像横放的直方图,但茎叶图中叶增加了具体的数值,使我们对数据的具体取值一目了然,从而保留了数据中全部的信息.

在比较两组样本时,可画出它们的背靠背的茎叶图,这是一个简单、直观而有效的对比方法.

例8 下面的数据是某工厂两个车间某天各40名员工生产的产品数量(表7-3),我们将这些数据放到一个背靠背茎叶图上(图7-3).

表7-3

img
img

图7-3 两车间产量的背靠背茎叶图

在图7-3中,茎在中间,左边表示甲车间的数据,右边表示乙车间的数据.从茎叶图可以看出,甲车间员工的产量位于上方,乙车间员工的产量大多位于中间,乙车间的平均产量高于甲车间.乙车间各员工的产量比较集中,而甲车间员工的产量比较分散.