11.1.2 统计整理
统计整理是在初步整理的基础上进行的,它主要是运用统计方法简化资料,在对资料分类(组)和汇总的基础上,使资料更加条理化和系统化。本章介绍的统计整理方法主要是统计分类(组)、统计表、统计图等。
11.1.2.1 分类和分组
从本质上说,分类和分组都是一种分类方法,即根据研究对象的某些特征将其区分为不同种类或组别。分类适用于全部数据,分组只限于测量层次较高的数据,习惯上将它们称为统计分组或统计分类。在问卷调查中,大部分分类和分组在设计问卷时就已完成了,但是有的变量,例如年龄、收入等,会在调查结束、资料输入到计算机后再进行。开放性问题只能是在调查结束后再分类或分组,其中也包括有些问题含有的“其他”类选项,在统计后如发现这类选项所占比率超过5%,甚至更多,必须对“其他”重新分类,使得“其他”类所占的比率保持在5%以下。同时,在统计分析过程中,研究者还要根据研究的需要对原来的分类或分组重新分类或分组,一般称为再分类或再分组,从编码来说就是再编码。
(1)分类及其意义
分类方法主要有现象分类法和本质分类法。现象分类法是根据事物外部特征或外在联系进行分类的方法;本质分类法是根据事物的本质特征或内部联系进行分类的方法,本质分类法也被称为科学分类法。
现象分类法可以帮助调查者建立资料存取系统,便于资料的存取、查找和利用。现象分类往往会把本质上相同的事物分为不同的类别,不能正确认识事物的本质,因此在整理资料的过程中要力求从现象分类过渡到本质分类。本质分类不仅是资料的存取和检索系统,而且是研究者对客观事物之间关系的认识。因此,本质分类实际上涉及理论分析工具,而不是一个纯技术性问题。本质分类是在具体学科理论指导下进行的,反映了研究者的理论视角。例如,对社会分层如果仅按照收入标准的话,最多只能反映社会的贫富差距,但是按照韦伯的财富、声望和权力进行社会分层的话,就不仅仅反映了收入的多寡,更反映了现代社会的复杂的分层现象(阶级、地位群体和政党),而如果按照马克思的阶级理论进行分层的话,工业社会就分为两大对立的阶级:有产阶级和无产阶级。
在分类过程中,现象分类是一个从具体到抽象的过程,即“合并同类项”的过程,例如职业分类在我国统计中就有小类、中类、大类之分,小类有数百种,中类有几十种,大类只有八种,这可以看作是现象分类;但是如果从社会分层的角度出发,根据职业权力大小进行分类就是本质分类。由现象分类到本质分类反映了研究者的理论背景和对现象的概括能力以及概念的抽象能力。例如,在研究闲暇生活时,问卷中涉及的有关闲暇活动都是很具体的,可能有十几种类别(活动),但是在分析和概括时研究者就要进一步抽象,比如分为“高雅休闲类、大众娱乐类、学习类、健身类”等,在其背后实际上隐藏着研究者的一种假设:不同阶层的休闲方式是不同的。在一项关于社会工作者生活状况的调查中,当问到关于参加社工的动机时,原来问卷上的备选答案是“我很愿意帮助他人;社工在我国是一项很有前途的工作;现在的工作不好找,能有这样的工作也可以;为了使自己的生活不过于平淡;社工是一项神圣的工作;其他”。研究者根据调查结果进一步概括为三类:追求高尚(我很愿意帮助他人;社工是一项神圣的工作);职业发展(社工在我国是一项很有前途的工作;为了使自己的生活不过于平淡);谋求生存(现在的工作不好找,能有这样的工作也可以)。这样的分类基本上是一种本质分类或者接近于本质分类,它一方面更能反映现象的本质,另一方面大大简化了资料,隐藏了研究者自己的理论解释。从统计分析的角度看,分类越简单,对变量之间关系的解释就越清楚。
这种对资料的再分类也可以看作是后编码,是在数据库建立以后,在计算机上编制一定的程序(在SPSS软件中执行Transform下的Recode命令)完成的。对于开放性问题,则需要在数据输入以前对所有答案逐个分析,对那些冗长繁杂的答案进行归纳和概括,然后选择其中具有代表性的答案作为类别的标准,并将其他答案按其主要倾向分别归之于这些类别之下。例如,在问及“您的工作目的是什么?”时,每人的答案各不相同,经过分析后,或许能概括出“奉献社会”“自我实现”“谋求生存”“其他”作为工作动机的类别标志,然后将类似答案分别归于这些类别之下。
(2)分类标志
类别是以其标志(值)为指示的,因此,分类标志是指一个概念或变量(项)下类别的标志(值),是对概念的指示或标示,即类别标志。分类标志可以分为两类:品质标志分类和数量标志分类。
第一,品质标志分类。它是以反映事物属性或性质差异为分类标志。例如,性别按男、女分为两类;企业按所有制分为国有、集体、私人、合资、外资等几类。有些品质标志在反映事物性质特征时定义具体明确,不会产生歧义,有些标志则不然。例如,“家庭”是指具有婚姻关系和血缘关系共同生活的群体,但是对于什么是“共同生活”在操作上会发生很多问题,这需要研究者根据实际情况确定一个明确的标准,然后才能把家庭分为不同的类型。
第二,数量标志分类。它是以反映事物数量差异为分类标志。例如,年龄可以分为29岁及以下、30~39岁、40~49岁、50~59岁、60岁及以上。数量界限不是随意规定的,它要根据研究者的需要而定,尤其是与理论解释密切相关的分类。例如,年龄分组一般是按照人口统计标准,但是有时研究者为了研究的需要可以提出自己的分组标准,可以按出生年份把年龄分为1965年及以前、1966一1978年、1979年以后,显然这样的年龄分组包含了特定的时代背景,即“文化大革命”前出生、“文化大革命”中出生、“文化大革命”后出生[3]。研究者也许想通过这样的年龄分组说明或解释一些问题,比如价值观念、生活方式等。因此,在社会研究中按数量标志分类除了按照一般的统计标准之外,更多的是以品质分类为基础。就如人们把月收入5000元以上作为高收入,3000~4999元为中等收入,3000元以下为低收入,都是按品质标志分类下的数量标志分类。
数量标志的形式有两种:①单值分类,例如,按家庭人口数可以分为1人、2人、3人、4人、5人及以上(见表11-14) ;②组距分类,适用于样本人数(次数)很多、范围很广的数据。上面讲到的年龄分组、收入分组都是组距分类(见表11-7) 。单值分类、组距分类也叫作单值分组和组距分组。
11.1.2.2 统计表
统计表是在对原始数据整理、汇总、分组统计以后,对统计结果的表现形式,它可以直观地告诉读者变量的分布状况或基本特征,是统计整理中最常用的方法,也是显示统计结果最简单的方法。但在制作统计表时往往容易犯一些常识性错误。
统计表就是把被说明的变量及其统计指标和数值用表格形式表示出来。统计表给人以一目了然、清晰简洁的印象,数据易于对照比较,因此,在统计结果的表达中得到广泛的应用。
统计表的结构:从统计表的形式看,统计表由表号、总标题、横行标题、纵栏标题、指标数值、注释和资料来源等要素组成。表号是表的序号,位于表顶端左角,有时可在表号后加冒号,与总标题隔开。总标题是表的名称,位于表的上端中央,总标题要简要说明表的内容、时间和空间。横行标题又称横标目,是横行的名称,位于表的左侧,在简单表和分组表中是用来说明横行的内容,在复合表中是用来表示其中的一个变量类型(通常是因变量)。纵栏标题又称纵标目,是纵栏的名称,一般位于表的右上方,说明纵栏资料的内容。指标数字是对调查资料进行统计汇总、计算的结果,位于横行标题和纵栏标题相交的部分。凡是利用他人统计表或者是根据他人统计数据制作或改编的统计表都要说明资料来源,有时要对统计方式、统计指标等采用注释的方法进行解释。
从统计表的内容看,统计表由主词和宾词两部分构成,规范的统计表读起来就是一句完整而通顺的句子。主词就是统计表所要说明的对象,宾词是用来说明主词的各项指标。一般来说,主词列于横行的左端,宾词列于纵栏的上方。在复合表中,主词是因变量,即要说明的对象,宾词是自变量。(统计表的具体结构见表11-5、表11-6)
统计表的类型:统计表按同一总体是否分组和指标或变量组合可分为简单表、分组标和复合表三种。简单表是对总体不经任何分组的统计结果。简单表的主词是按调查单位或时间进行简单排列的(见表11-7) 。分组表也称次数分布表,是对同一总体按某一指标或变量进行分组以后的统计结果,对于连续变量或比较大的样本一般都采用分组表。所谓次数,是指各组内出现的个案数目或相对次数(频率或百分比)。次数分布表反映了按某一标志分组后,各组数据的分布情况,以此可以研究总体或样本的构成。分组表主词只按一个标志进行分组或分类,按照分组方法的不同,次数分布表可以分为单值次数分布表(见表11-13)和组距次数分布表(见表11-5) 。
表11-5 2000年我国人口年龄结构
表11-6 2002年上海大学生性别和毕业出路的选择(%)
表11-7 某班2014年下半年上课迟到人数
复合表是对同一总体将两个或三个指标或变量结合起来分组的统计结果,也称为交互分类统计表或列联表。由于复合表是由两个或以上的指标(变量)组合在一起,因此有自变量和因变量之分,或者说明变量和被说明变量之分。从统计整理的角度看,在制作复合表时,数据的汇总和计算按照自变量(说明变量)的方向汇总或计算,在比率下端有时用括号写上该标志的绝对数。复合表经常被用来分析两个变量之间的关系,因此是调查研究中运用最为广泛的统计表(见表11-6) 。
统计表的制作:统计表的制作要求是:规范、简明、实用、美观。在具体制作时要注意以下问题。①表的标题既要措词简洁又要确切说明表的内容,使人一目了然。②表的纵栏标题和横行标题要准确反映变量取值的含义,纵、横标题之间要合理安排。③表中的数据资料必须注明计量单位,如果表中只有一种计量单位,可置于表的右上方;如有多个计量单位,可将计量单位写在相应的纵栏标题处,用括号括起来(见表11-5) 。④对于一般频数分布表应列出合计栏,放在表的最后一行;在复合表(列联表)中,如果需要的话可将各种专门的统计值,如卡方值(x 2) 、自由度(df ) 、显著水平(p) 、相关统计值(γ、 λ、G、 E)等写在表的最下面一行。⑤表内线条要简单,表的左右不封口,表头与表身之间以线条隔开;表身尽量不要用竖线和横线,线条越简单越好;表的最上面和最下面的横线可以用稍粗的线条,其余均用细线。⑥表内数字小数点要对齐,数字精确度要一致;相同的数值也都要一一写出,在无数字或不可能有数字时要以短横线“—”来代替,数字暂缺则以“…”表示。上述⑤和⑥是很多人不太注意的问题。
11.1.2.3 统计图
统计图是将抽象的统计数字,通过点、线、面、体等几何图形,实物形象,地图以及各种色彩等绘制的,整齐而有规律的、简明而又知其数量关系的图形。统计图具有直观、形象、生动的特点,使人望图知意,一目了然。所以统计图能使统计数据通俗化,利于阅览,能把事物或现象的全貌形象化地呈现出来,给人以清晰深刻的印象,便于理解和记忆。
统计图可以分为条形图、圆形图、折线图、直方图、线性图等。
(1)条形图:是以柱桩的长短或高低表示事物和现象的大小或多少,主要用于具有可比性的间断性资料(定类或定序)。条形图的柱桩宽度没有意义,但各宽度必须相等;以基线为零点,等距划分;柱桩的长度和宽度要保持适当的比例。条形图可以分为单式条形图(见图11-1 )和复式条形图(见图11-2)。
图11-1 某年某校教师技术职称分布
图11-2 某年甲乙两村产业结构比较(%)
(2)圆形图(饼状图):用于间断性资料,主要目的是显示各部分在整体中所占的比重以及各部分之间的比较。所显示的资料多以相对数为主(见图11-3 ) 。若比较两种性质类似的资料,应取半径相同的两个圆,圆中各部分的排列顺序要一致。
图11-3 某年某调查样本教育程度分布
(3)折线图:又称曲线图。它是通过上下变化的曲线反映变量随时间变化的过程或发展趋势。折线图也有单式(见图11-4)和复式(见图11-5)之分。
图11-4 某省1990—1995年高考录取率(%)
图11-5 某省1990—1995年城乡高考录取率(%)
(4)直方图:是以矩形的面积表示组距次数分布的图形。在直角坐标系中,以横坐标上的等距宽度表示组距分组,以纵坐标表示次数,高度为对应的各组次数。通过次数分布图,可以直观地看到数据的分布情况,各组次数的多少,分布是否对称等(见图11-6) 。
图11-6 2004年上海读书调查读者收入分布
资料来源:2004年上海市读书抽样调查。
在直方图中,矩形的高度与矩形的面积是对应的,全部的矩形面积之和等同于全部的次数。若将每个矩形上端的中点连接起来,便成为次数折线图(见图11-7,本折线图是利用SPSS软件绘制的,若手工绘制,只须将矩形顶端的中点连接起来)。
图11-7 2004年上海读书调查读者收入分布(次数折线图)
资料来源:2004年上海市读书抽样调查。
折线图的面积与原来的矩形面积是比较近似的。可以想象,随着组距变小,矩形会增多,由此得到的折线会逐渐变得光滑,逐渐成为曲线,其面积越来越接近原来的矩形面积,按照数学中的极限原理,折线最终成为曲线,其面积最终等于矩形面积。也就是说,曲线围成的面积可以表示相应的次数,这为人们从理论上研究次数分布提供了直观基础。
(5)线性图:用于连续或近似连续性的资料。凡是表示两个变量之间的函数关系,描述某一变量随着另外一个连续或近似连续变量发生的变化,用线性图表示是比较好的方法(见图11-8) 。
图11-8 2004年上海读者月收入与购书费用的关系
资料来源:2004年上海市读书抽样调查。
统计图的制作要求除了要准确地显示统计数据外,还要力求简单、生动、富有艺术性;要标明单位和尺度;图形宽度与高度的比例要适当。统计图除了可以手工绘制之外,还可以利用Excel和SPSS等软件绘制[4]。
11.1.2.4 列联表分析
列联表又称两变量交互分类表,是用来分析两个变量之间关系的最基本的方法。它是将研究所得到的数据按照两个不同的变量及其标志进行分类,显示两变量之间的数据分布及其依存关系。读懂列联表中的统计意义,是本科学生应该掌握的基本知识。
由于社会研究中的相关统计值一般都比较低,而且有的相关统计值如λ,τy, η2的取值范围是0至1,即使相关统计值比较高,也很难说明变量之间关系的具体内涵。因此在很多情况下,研究者需要通过解读列联表中两个变量之间数据分布的特点,分析变量之间的关系,对相关统计值作补充说明。列联表解读是一个非常重要的方法,尤其是在普通社会调查报告中运用最为广泛,可以帮助读者了解统计表的数据意义。解读的方法主要是在确定自变量之后,比较相对比率(不要比较自变量自身的比率),对于定序及以上的变量还可以利用总体百分比分析变量变化的具体方向。
表11-8 从事社工前后的收入变化(元/月)
表11-9 教育程度与读书困难
表11-8、表11-9是运用SPSS软件计算并直接输出的完整的列联表。表11-8来自一项有关社会工作者的调查,分析的是参加社工以前和参加社工以后本人收入的变化。表中每一栏的第一行是绝对值,即次数(频数);第二行是横向百分比;第三行是纵向百分比;第四行是总体百分比。最右边和最下面是边缘次数或比率栏,又称合计栏。解读列联表最关键的是要确定哪个是自变量,哪个是因变量。有时候自变量和因变量是因果关系,但是在很多情况下,自变量也可以看作是说明性变量,因变量看作是被说明的变量,例如表11-8中就很难说哪个是自变量,哪个是因变量,它们也不是因果关系。因此,在解读列联表时,暂且不要确定变量关系是因果关系,而是把说明性或解释性变量当作自变量,把被说明变量或被解释变量当作是因变量。在列联表中,自变量可以根据百分比的计算方向来确定,即按照百分比方向计算的那个变量就是自变量。表11-8中,如果把“参加社工以前的月收入”看作是“自变量”,其百分比就是横向百分比,但是在分析时要看纵向百分比。例如,“参加社工以前的月收入”为2000~2999元的人中,“上月收入”为4000~4999元的占全部“上月收入”为4000~4999元的25.0%, 2000~2999元的占全部“上月收入”为2000~2999元的80.0%, 1000~1999元的占全部“上月收入”为1000~1999元的22.6%, 999元及以下的占全部“上月收入”1000元以下的50.0%。在进行比较分析说明时,不需要重复统计表的数据,而是用概括的语言说明其特征。根据以上数据,我们可以这样表述:“在未从事社工时月收入为2000~2999元的调查对象(180人)中,上月收入低于从事社工以前收入的比率(25.7%)与上月收入高于从事社工以前收入的比率(25.0%)相比差别不大。”括号内的比率不能按照横向百分比累计相加,而是将相关次数除于相应的总次数,即(20 + 70) / (40+310)=0.257;收入较以前高的25%在表上可直接看到。
对于定类变量的列联表有时可以采用边缘比率中纵向百分比(最后一列各格中第三行,可以看作这一标志值的平均比率)进行比较,主要是分析哪些变量标志值的百分比明显高于平均比率。表11-9来自一项读书调查,自变量毫无疑问是教育程度,因变量是读书中遇到的最大困难。选择“没有时间”的比率明显超过平均比率(31.7%)的是大学本科(38.6%)和硕士(40.7%)。如果数据比较集中,就不要与平均比率进行比较。例如,可以根据表中数据表述为:抱怨“好书太少”的主要是硕士(25.9%) ,选择“书太多、难以选择”的主要是初中及以下教育程度的人(21.1%) ,认为“书价太贵”的主要是高中、中技、中专教育程度的(34.5%) 。这样的表述,尤其是把有关百分比写在括号里,就可以略去表格,以免研究报告中有大量的统计表显得比较拘谨。读者可以参照有关读书困难的一般描述,看看这些困难主要反映在哪些人身上。
对于两个变量都是定序或以上的,可以借用社会分层和流动研究中“流动表”[5]的分析方法,利用总体百分比(每格数据第四行)的数据反映变量变化的方向。在表11-8中可以发现,从事社工以后收入得到提高的占15.9%,基本不变的占60.4%,下降的占23.9%。因此,总体上看收入下降的比率要超过收入上升的。具体计算方法是:首先把统计表按对角线分为两半,对角线下面(左下角)的总体百分比数据累计相加就是现在收入低于参加社工以前的( 3.2+11.1+1.6+3.2+3.2+1.6=23.9%) ;对角线上面(右上角)的总体百分比数据累计相加就是现在收入高于参加社工以前的(6.3+1.6+3.2+1.6+3.2=15.9%) ;对角线上的总体百分比数据累计相加就是现在收入与参加社工以前基本差不多的(28.6+12.7+4.8+1.6+12.7=60.4% ) ,三项合计为100.0%(有时由于四舍五入的原因,总加以后变为100.1%, 99.9%甚至是100.2%, 99.8%,此时仍应看作100.0%) 。