集中趋势(Central Tendency)
数据的集中趋势是指数据集中的程度,即对这组数据中心的估计。常用的关于数据集中趋势的统计量主要有3种:平均值、中数和众数。
(一)平均值(Mean,M)
平均值是描述数据集中趋势最常用的统计量。平均值的计算方法是:将所有数值相加,然后除以数据总个数,即平均值
。例如,学生在某门考试中的平均成绩就等于学生成绩的总和除以参加该门考试的学生人数。
(二)中位数(Median)
中位数是指按顺序排列的一组数据中处于最中间位置的数。中位数的计算方法是:先将一组数据按照从小到大的顺序进行排序,然后选出位于中间位置的那个数,这个数就是这组数据的中位数。如果这组数有奇数个,那么中位数就是排序后位于(n+1)/2位置的那个数值;如果这组数有偶数个,因为(n+1)/2不是整数,所以在这种情况下,我们定义这组数据的中位数为离(n+1)/2位置最近的两个数的平均值。例如,我们调查了A班10位毕业生工作一年后的年收入分别为10万元、8万元、500万元、9万元、12万元、10万元、13万元、14万元、18万元、15万元。排序的结果为8万元、9万元、10万元、10万元、12万元、13万元、14万元、15万元、18万元、500万元。对于这组数据,n=10,(n+1)/2=5.5,由于5.5不是一个整数,该组数据的中位数就是经过排序后的第5个和第6个数的平均值,即12.5万元。
中位数是通过排序得到的,它不受最大、最小两个极端数值的影响。部分数据的变动对中位数没有影响,当一组数据中的个别数据变动较大时,常用它来描述这组数据的集中趋势。例如,在毕业生毕业工作一年后的年收入这个例子中,如果用平均值表示,那么这10个毕业生毕业工作一年后的年平均收入为60.9万元,而实际上,除了那个收入为500万元的毕业生外,其他人的年收入都远低于平均值。可见,采用中位数更能真实地反映毕业生毕业后收入的情况。此外,使用平均值容易受到极端值(500万元)的影响。如果这名年收入为500万元的毕业生在调查的那一年收入受到其他情况影响只有20万元,那么这10个毕业生毕业后的年平均收入将从原来的平均60.9万元变为12.9万元。
(三)众数(Mode)
众数是指在一组数据中出现次数最多的数。如果想知道一组数据的众数,就需要将数据按照大小进行排序,并记录每个数值在这组数据中出现的次数,出现次数最多的数就是这组数据的众数。在上面那组数据中,10万元出现了两次,是这组数据中出现次数最多的数。因此,10万元就是这组数的众数。在一些分布中,众数可能不止一个。例如,在双峰分布中就存在两个出现次数最多的数值。在处理名义变量时,其他集中趋势(如平均值)均无法测量,众数就成为表示该变量集中趋势的唯一指标。例如,通过图8-2,我们知道在大学生网络社交的动机中,“与现实中认识的人保持联系”这个选项选择的人最多,其便为众数。