9.3 描述统计
一、基本原理
描述统计是统计分析的基础,它包括数据的收集、整理、显示,对数据中有用信息的提取和分析,通常用一些描述统计量来进行分析。
集中趋势的特征值:算术平均数、调和平均数、几何平均数、众数、中位数等。其中均数适用于正态分布和对称分布资料,中位数适用于所有分布类型的资料。
离散趋势的特征值:全距、内距、平均差、方差、标准差、标准误、离散系数等。其中标准差、方差适用于正态分布资料,标准误实际上反映了样本均数的波动程度。
分布特征值:偏态系数、峰度系数,他们反映了数据偏离正态分布的程度。
二、内容与步骤
下面给出的一个例题是来自SPSS软件自带的数据文件“Employee.data”。该文件包含某公司员工的工资、工龄、职业等变量,我们将利用此例题给出相关的描述统计说明。本例中,我们将以员工的当前工资为例,计算该公司员工当前工资的一些描述统计量,如均值、频数、方差等描述统计量的计算。
1.频数分析(Frequencies)[1]。
(1)频数分布概述。
基本统计分析往往从频数分析开始,通过频数分析能够了解变量取值的状况,对把握数据的分布特征是非常有用的。比如,在某项调查中,想要知道被调查者的性别分布状况,频数分析的第一个基本任务就是编制频数分布表。SPSS中的频数分布表包括的内容有:
①频数(Frequency),即变量值落在某个区间中的次数。
②百分比(Percent),即各频数占总样本数的百分比。
③有效百分比(Valid Percent),即各频数占有效样本数的百分比。这里
有效样本数=总样本-缺失样本数
④累计百分比(Cumulative Percent),即各百分比逐级累加起来的结果。最终取值为百分之百。
频数分析的第二个基本任务是绘制统计图。统计图是一种最为直接的数据刻画方式,能够非常清晰、直观地展示变量的取值状况。频数分析中常用的统计图包括:条形图、饼图、直方图等。
(2)频数分析的应用步骤。
在SPSS中实现频数分析的步骤如下:
①选择菜单“【文件】→【打开】→【数据】”在对话框中找到需要分析的数据文件“SPSS/Employee data”,然后选择“打开”。
②选择菜单“【分析】→【描述统计】→【频率】”,如图9.15所示。

图9.15 Frequencies对话框(https://www.daowen.com)
③确定所要分析的变量。例如,年龄。
在变量选择确定之后,在同一窗口上,点击“Statistics”按钮,打开统计量对话框,如图9.16,9.17所示,选择统计输出选项。

图9.16 统计量子对话框

图9.17 Charts子对话框
④结果输出与分析。
点击Frequencies对话框中的【确定】按钮,即得到下面的结果。
表9.2中给出了总样本量(N),其中变量Gender的有效个数(Valid)为474个、缺失值(missing)为0。
表9.2 描述性统计

表9.3中,Frequency是频数,Percent是按总样本量为分母计算的百分比,Valid Percent是以有效样本量为分母计算的百分比,Cumulative Percent是累计百分比。
表9.3 Gender频数分布表

图9.18变量Gender的条形图,图9.19变量Gender的饼图。

图9.18 变量gender的条形图

图9.19 变量gender的饼图
2.描述统计(Descriptive)[2]。
SPSS的【描述】命令专门用于计算各种描述统计性统计量。本节利用某年国内上市公司的财务数据来介绍描述统计量在SPSS中的计算方法。具体操作步骤如下:
(1)选择菜单【分析】→【描述统计】→【描述】,如图9.20所示。

图9.20 描述对话框
将待分析的变量移入Variables列表框,例如,将每股收益率、净资产收益率、资产负债率等两个变量进行描述性统计,以观察上市公司股权集中度情况和负债比率的高低。
Save standardized values as variables,对所选择的每个变量进行标准化处理,产生相应的Z分值,作为新变量保存在数据窗口中。其变量名为相应变量名前加前缀Z。标准化计算公式:

(2)单击【选项】按钮,如图9.21所示,选择需要计算的描述统计量。各描述统计量同Frequencies命令中的Statistics子对话框中大部分相同。

图9.21 选项子对话框
在主对话框中单击ok执行操作。
(3)结果输出与分析。
在结果输出窗口中给出了所选变量的相应描述统计,如表9.4所示。从表中可以看到,我国上市公司前两大股东持股比例之比平均高达102.9,说明“一股独大”的现象比较严重;前五大股东持股比例之和平均为51.8%,资产负债率平均为46.78%。
表9.4 描述统计量表

另外,从偏态和峰度指标看出,前两大股东持股比例之比的分布呈现比较明显的右偏,而且比较尖峭。为了验证这一结论,可以利用Frequencies命令画出变量Z的直方图,如图9.22所示。

图9.22 变量Z的直方图
3.探索分析(Explore)。
调用此过程可对变量进行更为深入详尽的描述性统计分析,故称之为探索分析。它在一般描述性统计指标的基础上,增加有关数据其他特征的文字与图形描述,显得更加细致与全面,对数据分析更进一步。
探索分析一般通过数据文件在分组与不分组的情况下获得常用统计量和图形。一般以图形方式输出,直观帮助研究者确定奇异值、影响点,还可以进行假设检验,以及确定研究者要使用的某种统计方式是否合适。
在打开的数据文件上,选择如下命令:选择菜单“【分析】→【描述统计】→【探索】”,打开对话框,如图9.23所示。

图9.23 探索分析
因变量列表:待分析的变量名称,例如,将每股收益率作为研究变量。
因子列表:从源变量框中选择一个或多个变量进入因子列表,分组变量可以将数据按照该观察值进行分组分析。
标准个案:在源变量表中指定一个变量作为观察值的标识变量。
在输出栏中,选择两者都表示输出图形及描述统计量。
选择【统计量】选项,选择想要计算的描述统计量,如图9.24所示。

图9.24 选择想要计算的描述统计量
对所要计算的变量的频数分布及其统计量值作图:打开“Plots对话框”,出现如图9.25所示的界面。

图9.25 对所要计算的变量的频数分布及其统计量值作图
◆结果的输出与说明。
(1)Case Processing Summary(见表9.5)。
表9.5 Case Processing Summary

在Case Processing Summary表中可以看出,female有216个个体,Male有258个个体,均无缺失值。
(2)Descriptive(见表9.6)
表9.6 Descriptive

续表9.6

(3)职位员工薪水直方图如图9.26所示。

图9.26 Gurrent Salary
(4)茎叶图描述。
茎叶图自左向右可以分为三大部分:频数(Frequency)、茎(Stem)和叶(Leaf)。茎表示数值的整数部分,叶表示数值的小数部分。每行的茎和每个叶组成的数字相加再乘以茎宽(Stem Width),即茎叶所表示的实际数值的近似值。
Current Salary Stem-and-Leaf Plot for gender=Female
Frequency Stem & Leaf
2.00 1.55
16.00 1.6666666666777777
14.00 1.88889999999999
31.00 2.0000000000000111111111111111111
35.00 2.22222222222222222222233333333333333
38.00 2.44444444444444444444444444555555555555
22.00 2.6666666666677777777777
17.00 2.88888899999999999
7.00 3.0001111
8.00 3.22233333
8.00 3.44444555
5.00 3.66777
2.00 3.88
11.00 Extremes (>=40800)
Stem width: 10000
Each leaf: 1 case(s)
(5)箱图。
图中灰色区域的方箱为箱图的主体,上中下三条线分别表示变量值的第75、50、25百分位数,因此变量的50%观察值落在这一区域中,如图9.27所示。

图9.27 Gender
方箱中的中心粗线为中位数;箱图中的触须线是中间的纵向直线,上端截至线为变量的最大值,下端截至线为变量的最小值。