离散趋势(Dispersion)

二、离散趋势(Dispersion)

数据的离散趋势是指一组数据的分散程度。在描述数据离散趋势时,最常用的统计量是全距(Range)、四分位数(Quartile)、方差(Variance)和标准差(Standard Deviation,SD)。

(一)全 距

全距是指在一组数据中,最大值和最小值的差。它是比较容易计算的,但是它对极端值比较敏感。例如,在毕业生毕业后年收入的这个例子中,最大值为500万元,最小值为8万元,全距为492万元。但是在收入为500万元的同学的收入缩水到20万元的情况下,全距就变成了12万元。

全距的优势在于不仅可以测量变异,还可以囊括整个分布。例如,在设计手铐时,就需要测量成人手腕大小的全距。如果手铐不够大,就会导致有些人的手腕因为太大而无法套入;如果手铐不够小,就会有人因为手腕太小而逃脱。

(二)四分位数

分位数是将调查的数据进行划分的数据点,常用的有二分位数(即中位数)、四分位数、百分位数等。

四分位数是在统计中较为常用的分位数。与中位数一样,计算四分位数需要先将数据按照从小到大的顺序进行排列:第25%的数据,即第25个百分位数被称为第一个四分位数,标记为Q1;第50%的数据,即第50个百分位数被称为第二个四分位数,标记为Q2;第75%的数据,即第75个百分位数被称为第三个四分位数,标记为Q3。Q1,Q2和Q3可以将变量分为4个相等的部分,通过Q1和Q3的比较,分析数据变量的趋势。由于中位数相较于平均值,能更好地描述数据的集中趋势,使用四分位数来描述数据会更合适。在毕业生的年收入这个例子中,四分位数的算法如下:(n+1)/4=2.75,则Q1在第二与第三个数字之间;(n+1)/2=5.5,Q2在第五与第六个数字之间,与中位数相同;3(n+1)/4=8.25,Q3在第八与第九个数字之间。Q 1=0.75×10+0.25×9=9.75万元,Q2=12.5万元,Q3=0.25×18+0.75×15=15.75万元。使用(Q3-Q1)可以得到四分位距。四分位距反映了数据的离散程度。

与四分位距相比,四分位数的缺点在于,无法精确反映数据整体分布的情况,也无法简单地应用到高级统计中。

如前所述,在问卷调查中,我们还经常使用27%的分位数。

(三)方 差

方差是分析数据离散程度时最常用的统计量,在推论统计中扮演着非常重要的角色。我们把样本x与样本平均值之间的距离叫作离差分数(Deviation Score)。方差是指各离差平方和的平均值。计算公式如下:。方差越小,说明该组数据的分布越集中;方差越大,说明该组数据分布的离散程度越大。

例如,我们对两个小组的语文水平进行了测试,每个小组有5位同学:A组同学的分数分别为87,84,88,85,86;B组同学的分数分别为96,76,93,95,70。这两组同学的平均分数均为86分,但是A组同学的语文水平差别比较小,而B组同学的语文水平差异比较大。经计算,A组的方差为2.5,B组的方差为146.5,B组的方差比B组的全距还大。这是由于方差的计算是基于离差的平方得到的。为了对这个问题进行修正,我们采用标准差来表示样本的离散程度。

(四)标准差

标准差是对方差取平方根得到的统计量,它对数据离散程度的估计更准确、更详细,并且在推论统计中起着举足轻重的作用。标准差的计算公式为。根据前述语文水平测试的例子A组的标准差为1.58,B组的标准差为12.1。这说明A组的离散程度比较小,B组的离散程度比较大。