频率分布(Frequency Distribution)
频率分布是采用列表的形式对数据进行描述总结。在频率分布中,频数是指变量值落在某区间或某类别中的次数;百分比也叫百分数,是指频数占总样本数的百分比;有效百分比是指各频数占有效样本数的百分比(有效样本数指总样本数减去缺失样本数);累计百分数是指百分比累加起来的结果,最终的值为100%。
对于名义变量(如性别)和顺序变量(如年级)的数据,由于数值的种类较少,最适合使用频率分布表来呈现。如表8-3展示了被调查者的学校、性别、年级的基本情况,其中频数表示属于该类别的有多少人,百分数表示该类别的人数占所有人数的比例,累积百分数是指将前面的百分比相加得到的百分数。例如,××工程学院的人数累积百分数为46.8%,即为××中医药大学的人数百分数(12.4%)与××工程学院的人数百分数(34.4%)之和。每个变量最后一个类别的累积百分数为100.0%。
表8-3 被调查者的基本特征

该表格节选并改编自张建齐:《“90后”大学生人际信任、自立人格与人际关系的相关研究》,2012年学位论文,第31页。
与名义变量和顺序变量相比,数值型变量的数值范围很广,如果事先没有进行归类,简化数值的种类,频率分布表则可能显得庞大冗长。在简化时,我们通常会先进行分组。分组时,一般先计算全距(最大值与最小值之间的差距),再根据全距决定组数及组距,确定各组的上下限后,对测量值进行分组。在一个给定的数据区间中,最小值也可以称为分组区间的组下限,最大值也可以称为分组区间的组上限。组距就是组下限和组上限之间的差值,也称为分组区间。组数和组距的确定并没有固定的标准,一般来说,在确定一个频率分布的组距时,我们希望将所有的分组区间的组距设定为一个均等的值。在具体的研究中,也可按照研究的需要或者通用的标准来进行分组。例如,对于学生成绩的划分,我们可以采用0—9分,10—19分,20—29分……这样10分一组进行划分;也可将0—59分归为不及格,60—69分归为及格,70—79分归为中等,80—89分归为良好,90—100分归为优秀。在样本量较少的情况下,为避免太多组的频数为0或者很小的情况,组的个数最好不要超过样本数的平方根。[1]例如,在样本数为25的情况下,最好不要超过5组;在样本数为36的情况下,最好不要超过6组。在大样本的情况下,为了能够更好地描述样本分布的情况,建议可分成10—20组。分组时组数过少,不利于得到关于分布的详细描述;分组过细过多,同样会因组太多而不能很好地描述分布的情况。
在频率分布中,通过累加某个区间及其前面所有区间的频率就能够得到累积频率。通过累积频率我们可以计算得到累积频率分布,此外,我们还能够计算得到累积百分数分布。