计量资料统计描述
(一)频数分布
通过调查或实验等方式所收集得到的原始资料一般都是杂乱无章的。为了能一目了然地发现数据的分布特征,便于后续的统计分析,通常会对原始数据进行整理,制作频数分布表。
抽样调查某地120名健康成年男性的红细胞数,试编制红细胞数的频数分布表(表9.1)。
表9.1 120名健康成年男性的红细胞数(×1012/L)
频数分布表的编制步骤如下:
1.计算全距(Range,R)
全距即数据的最大值与最小值之差。本例红细胞数最大值为6.18,最小值为3.29,求得:
R=最大值-最小值=6.18-3.29=2.89(×1012/L)
2.确定组数与组距
分组应恰到好处地展示数据特征,一般取8~15组为宜,通常取10个组。组距(Interval,i)为组与组间的距离,在实际工作中需尽量取整,方便划计。
本例中,i=2.89/10=0.289≈0.3。
3.确定各组段
即确定各组上限与下限。每个组段的起点称为组段的下限(Lower Limit),终点称为组段的上限(Upper Limit)。分组时,第一组段应包含最小值。为划计方便,组段下限一般尽量取整数或整齐的数值。例如,本例最小值为3.29,组距为0.3,各组段下限可取3.2、3.5、3.8……最后一个组段同样应包含最大值,如本例最大值为6.18,最后一个组段则为5.9~6.2。在确定各组段时,必须注意:连续的各组段切忌重叠。故除最后一个组段外,其余各组均应仅包含其下限值,而不包含其上限值,见表9.2第(1)列。
4.划计频数,列出频数分布表
在原始数据中逐一观察,并计数各组段内的数据个数(即频数),见表9.2第(2)列。在此基础上,可计算各组段的频率、累计频数和累计频率,分别列于表9.2的(3)至(5)列。
表9.2 120名健康成年男性红细胞数(×1012/L)的频数表
续表
5.绘制频数分布图
以红细胞数作横轴,频数或频率作纵轴,绘制频数分布图,将更为直观地表达出红细胞数的分布规律。该例为连续型计量资料频数分布的直方图(图9.1)。
图9.1 120名健康成年男性红细胞数直方图
由频数分布表和直方图,可以较为清晰地发现数据的分布规律:
①揭示数据的分布特征。通过表9.2和图9.1,可以发现一组数据的分布范围、峰值所在以及对称与否3个特征。对于本例而言,这组红细胞数分布在3.2~6.2,其中在组段“4.7~”频数最多,形成了一个峰,而其余两侧的数据逐渐递减,基本对称。
②提示资料的分布类型。计量资料的分布类型常见两类:一类是对称分布(Symmetric Distribution),其中包括一种尤为重要的正态分布。这在生物医学领域是相当常见的,如本例数据以组段“4.7~”为中心基本对称,近似正态分布。另一类则为偏态分布(Skewed Distribution),如果频数分布偏向数值较小的一侧,而长尾偏向右侧,称为正偏态分布(Positive-skewed Distribution);相反,如果频数分布偏向数值较大的一侧,而长尾偏向左侧,则称为负偏态分布(Negative-skewed Distribution)。100名正常成人血清肌红蛋白含量的负偏态分布见图9.2。
③描述分布的集中位置和离散程度。由表9.2与图9.1可以发现:120名健康成年男性红细胞数分布同时具有集中位置(Central Tendency)与离散程度(Discrete Tendency)。一方面,样本来自于同质的总体,使得该人群的红细胞数将趋向同一数值,即频数分布最多的组,此为集中位置;另一方面,同质总体中的个体间存在变异,即该人群的红细胞数不可能均为同一个数值,而将与集中位置产生或多或少的距离,则为离散程度。对于一组定量变量资料而言,集中位置与离散程度必定同时存在,这在生物医学领域中具有普遍性。
图9.2 100名正常成人血清肌红蛋白分布
(二)计量资料统计描述指标
利用频数分布表和直方图,只能得到集中位置和离散程度的大致情况。在实际工作中,若想精确地用数字予以描述,则需计算相应的统计学指标。一般地,平均数(Average)用于描述一组计量资料的集中位置,常用平均数有算术均数、几何均数和中位数。常用离散程度的指标有全距、四分位间距、方差、标准差和变异系数。
1.算术均数
算术均数简称均数(Mean),用于描述单峰对称分布,尤其是服从正态分布资料的集中位置与平均水平。在偏态较大的情况下,算出的均值容易受到频数分布两端极大或极小值的影响,不能真正地反映分布的集中趋势,此时应考虑改用其他指标。总体均数用希腊字母μ表示,样本均数用表示。一般依据样本量的大小,有两种计算方法可以使用。
(1)直接法
直接法就是直接将所有原始观察值相加,再除以总例数。其计算公式为
式中,n为样本含量,x1,x2,…,xn为原始观察值,∑表示求和。
【例9.1】测得8名大一女生的身高(cm)分别为162、158、157、149、155、170、167、162,试求其算术均数。
【解】按式(9.1)得
(2)频数表法
对于样本含量较大的数据集,可以在编制频数表的基础上计算均数。其计算公式为
式中,f为各组段的频数;x0为各组段的组中值,作为各组观测值的代表,x0=(组段上限+组段下限)/2。
【例9.2】试用频数表法计算例9.1资料的均数。
【解】首先确定各组段的组中值x0,见表9.3的第(2)列。然后计算(2)、(3)两列的乘积,其结果列在第(4)列。按式(9.2),算术均数为
与直接法求出的均数4.72×1012/L相比,两种方法计算的均数相差不大。
表9.3 120名健康成年男性红细胞数(×1012/L)的均数计算表
2.几何均数
医学研究中有一类比较特殊的资料,服从对数正态分布,即经过对数转换以后服从正态分布的任意随机变量的概率分布,如抗体滴度、细菌计数、血清凝集效价、某些物质浓度等。其数据特点是观察值间按倍数关系变化,对此可以计算几何均数(Geometric Mean)以描述其平均水平,用字母G表示。
根据观察值个数的多少,几何均数同样有两种计算方法。
(1)直接法
计算公式为
式(9.3)表示先求每个观察值的对数,计算其算术均数后,再求反对数。一般采用以10为底的常用对数进行转换。
【例9.3】某研究者对10名急性血吸虫病患者进行间接血凝试验(IHA)检测其抗体滴度效价,其检测结果为1∶640、1∶1280、1∶1280、1∶2560、1∶2560、1∶2560、1∶2560、1∶5120、1∶5120、1∶10240。试计算其平均抗体滴度。
【解】本例采用以10为底的对数,根据原始数据计算可得
G=lg-1[(lg640+2×lg1280+4×lg2560+2×lg5120+lg10240)/10]
=lg-1(3.4082)≈2560
所以,这10名患者的平均抗体滴度是1∶2560。
(2)频数表法
计算公式为
【例9.4】某医院妇产科对100名妊娠合并梅毒患者进行妊娠期驱梅治疗,12周后测定其抗体滴度见表9.4。试求其平均抗体滴度。
表9.4 100名患者的平均抗体滴度计算结果
续表
【解】计算可得:
可知,这100名患者的平均抗体滴度是1∶4。
3.中位数与百分位数
将一组观察值从小到大按顺序排列x1≤x2≤…≤xn,居中心位置的数值即为中位数(Median),记为M。由于中位数仅取决于它在数据序列中的位置,而不是由全部观察值计算得出,因此不受少数特别大或特别小的极端值影响,可用于描述呈明显偏态或两端无确定数值资料的集中位置。当变量呈对称分布时,理论上中位数和均数相同,但对于样本资料,由于计算均数时利用了所有的观察值,所以比中位数更稳定。中位数的计算也分为直接法和频数表法两种。
(1)直接法
基于原始数据,样本含量n为奇数时:
样本含量n为偶数时:
式中,x右下角括号内数字表示该x处于一组升序数列中的确切位置。
【例9.5】某厂发生食物中毒,9名患者潜伏期(h)分别为16、2、6、3、30、2、l0、2、24。试求其中位数。
【解】先将数据由小到大排列为2、2、2、3、6、10、16、24、30。由于n=9为奇数,按照式(9.5):
故9名患者潜伏期的中位数为6h。(2)频数表法
此时,需了解百分位数的概念。百分位数(Percentile,Px)是一个表示位置的指标,它将原始观察值分成两部分,理论上有x%的观察值小于Px,有1-x%的观察值大于Px。由此可见,百分位数P50就是中位数。故中位数是指在一组升序排列的数据中,位次居中的那个值。因此,频数表法公式为
式中,L为欲求的百分位数所在组段的下限;i为百分位数所在组段的组距;fx为百分位数所在组段的频数;n为样本含量;∑f L为小于该百分位数所在组的累计频数。
【例9.6】某地130名健康成年男性血清肌红蛋白(μg/L)数据见表9.5,试求其P25、P75以及中位数。
表9.5 某地130名健康成年男性血清肌红蛋白(μg/L)频数表
【解】先寻找欲求的百分位数分别落在哪个组,由累计频率列可见,P25位于“20~”这个组段,P75位于“30~”组段,而中位数,即P50位于“25~”组段。
将相应数据分别代入式(9.7):
4.极差与四分位间距
极差(Range)又称为全距,一组观测值中最大与最小值之差,用于粗略地、初步地描述数据的分布范围和离散程度,用字母R表示,R=最大值-最小值。
极差仅利用最大值和最小值的信息,易受样本含量的影响,不稳定。当资料呈明显偏态时,不能反映分布内在特征。因此,提出用四分位数间距(Interquatile Range)表示一组数列中间50%的数值范围,用字母Q表示,计算公式为
Q越大,表示数据间变异越大。实际工作中,常把中位数和四分位数间距配合使用于描述偏态分布资料的集中位置和离散程度。
【例9.7】计算例9.6中某地130名健康成年男性血清肌红蛋白数据的四分位数间距。
【解】前面已求出该数据的两个百分位数P75与P25,即可直接求出四分位数间距为
5.方差与标准差
对于一组正态分布的定量变量资料而言,从频数分布图可以很容易地观察到每个观察值x与均数μ之间或多或少存在着差别,即可用离均差之和∑(x-μ)来反映所有观察值的离散程度。但差值(x-μ)有正有负,正负相抵使得∑(x-μ)=0。而用∑|x-μ|反映所有观察值的离散程度虽不存在正负相抵的问题,但在数学处理上比较困难。故考虑将每个观察值的离均差平方后再求和,即用离均差平方和∑(x-μ)2反映所有观察值的变异大小。同时,考虑到参加计算的个体数量越多,离均差平方和往往会越大,所以对离均差平方和按例数取平均,即为方差。总体方差用σ2表示,其计算公式为
在实际工作中,总体均值μ常常未知,N也往往很大乃至无穷。因此,在抽样研究中常使用样本均数估计总体均数,即可用样本方差来估计总体方差。一般地,样本方差用S2表示,其计算公式为
式中,x为样本均数;n为样本含量;分母n-1为自由度(Degrees of Freedom,ν),表示当x给定时,随机变量x能“自由”取值的个数。任何统计量的自由度ν=n-限制条件的个数。这里受到∑(x-μ)=0这个条件限制,故为n-1。
方差虽然能较好地反映一组观察值的偏离程度,但方差的量纲是原变量量纲的平方,同时方差也将原始数据的真实变异人为地扩大了。因此,在实际应用中需要将其还原,这就形成了标准差。同样地,标准差越大,意味着观察值的离散程度越大。具体地,标准差是方差的正平方根,公式为
6.变异系数
实际工作中,当需要比较量纲不同的变量间,或量纲相同但均数差别较大的变量间的变异程度时,需要使用到变异系数。其计算公式为
式中,S为样本标准差;为样本均数。
变异系数没有单位,消除了量纲的影响。变异系数越大,意味着相对于均数而言,变异程度越大。
【例9.8】抽样调查某地大二女生的身高和体重,得知其身高均数为165cm,标准差为3cm,体重均数为45kg,标准差为3kg。试比较该地大二女生身高与体重的变异程度。
【解】虽然已知身高和体重的标准差数值均为3,但其单位不一致,导致直接不可比。故选择变异系数,身高和体重的变异系数分别为
因此,通过假设检验可进一步可知,该地大二女生体重的相对变异大于身高。