参考阅读 统计分析初级知识
统计分析是量化资料分析最重要的方法,它可以为社会研究提供清晰、精确的形式化语言,能够帮助人们探索和预测社会现象的发展趋势。 因此,是人们认识社会现象的一种重要分析工具。 当然统计分析不能离开质性分析或理论分析,它要在质性分析的基础上,对概念加以界定和分类,统计分析的结果需要一定的理论加以解释。从这个意义上说,统计分析只是一种认识手段或工具。统计分析方法主要分为描述统计和推论统计,按照变量的多少又可分为单变量分析、双变量分析和多变量分析。按照本书的教学要求和目的,本章介绍的是统计分析的初步知识,也可以视为资料统计整理的一种方法,其中包括集中量数分析、离散量数分析以及相关、回归、推论的基本常识。
一、频数和频率统计
频数和频率统计是统计整理中最基本的方法,在定比测量中还有单值分组和组距分组统计,对于定序及以上的测量数据还有向上累计统计和向下累计统计。
频数(次数)统计就是计算一组数据中不同取值的个案次数分布;频率(百分比)统计就是计算一组数据中不同取值的频数(次数)相对于总数的比率分布。频数和频率统计可以简化资料,对于一个比较大的样本来说可以清楚地发现数据的基本特征。此外,频率统计还能比较不同样本或不同类别的异同。频数和频率统计既可以分开统计,也可以合在一张统计表中。
例11-1 某班20名学生父亲的职业是:工人、工人、工人、工人、干部、干部、干部、干部、干部、专业技术人员、专业技术人员、专业技术人员、专业技术人员、专业技术人员、商业工作者、商业工作者、商业工作者、商业工作者、农民、农民。
例11-1的频数统计和频率统计结果见表11-11。
表11-11 某班学生父亲职业分布次数表
对于定比测量的数据进行频数或频率统计,在样本比较大的情况下必须采用分组统计的方法。其中分组标志值分布范围比较小,例如家庭人口、生育子女数、房间数可以采用单值分组方法(参见表11-12) ;分组标志值分布范围比较大,例如年龄、收入、住房面积等就要采用组距分组方法(参见表11-13) 。
表11-12 某调查家庭人口分布状况
表11-13 某调查年龄分布状况
在组距分组中,将组距中的起点数值(最小数值)称为下限,将终点数值(最大数值)称为上限。如果某一个案值正好与某一组距中上限一致,应遵循统计分组的“上限不在内”原则,将其划归下一组。例如某人年龄是40岁,就应该把他归在40~49岁一组。 因为,属于定比测量的数量数据一般都是连续变量,例如年龄作为定比测量,在一个比较大的样本中可以有无数个年龄数据:18.11岁、18.12岁、18.13岁,等等,是无法穷尽的。 因此,严格地说属于定比测量的数据当它转换为定距测量时,按表11-13应该是:30岁以下、30~40岁、40~50岁、50~60岁、60岁以上,每个年龄组的下限和另外一个年龄组的上限是重叠的。在此情况下,统计汇总时就要按照“上限不在内”的原则。只是为了便于人们阅读数据,统计分组才显示为非连续变量,即每个年龄组之间是“间断”的。
对于定序及以上的测量层次,还可以计算向上累计次数(cf↑)、向上累计比率(c% ↑),或者向下累计次数(cf↓ ) 、 向下累计比率(c% ↓)。 向上累计表示某一标志值以上的累计次数或比率, 向下累计表示某一标志值以下的累计次数或比率。累计次数或比率的计算是根据标志值的大小方向计算的,在变量标志值由低到高排列的情况下(如表11-12、表11-13所示), 向上累计是从最高的标志值(表11-12中家庭人口为5人及以上)向上累计相加;向下累计是从最低的标志值(家庭人口为1人)向下累计相加。例如,表11-12中,我们可以从统计表中直接看到家庭人口在3人及以下的有85户(向下累计),家庭人口在3人及以上的占70.0%; 同理,在表11-13中,年龄在39岁及以下的有35人,年龄在30岁及以上的占85.0%。
二、集中量数分析
集中量数又称数据的中心位置、集中趋势,它是用一个典型值或代表值反映一组数据的一般水平或平均状况,表明多个事物的某一数量属性在一定时间、地点和条件下的共同性质。集中量数既可以说明某种社会现象在一定条件下的一般状况,也可以比较不同空间同类现象的差异程度和特定现象在不同时间中的变化,甚至可以分析社会现象之间的依存关系。
用集中量数来代表一组数据,对原始数据来说,是一种简化的过程。集中量数虽然丧失了原先数据所具有的实在性,然而这种丧失是以科学的抽象为前提的, 因而它能帮助我们更深入地了解这组数据。常用的集中量数计算方法有:算术平均数、中位数和众数。
(一)算术平均数
平均数的计算方法主要有调和平均数、几何平均数和算术平均数。其中算术平均数是最常用的方法,简称平均数、均数、均值。平均数(Mean)一般以M表示。如果M是由变量x计算得来的,可记为,用公式表示:
其中,xi为各次观测的结果,即观测值或实际调查数据,n为观测的次数,S为总和或总加。在不至于引起混淆的地方,可以简记为
。此式表明,平均数的基本含义是全部的“数值”之和除以全部的“次数”,平均数是数据的“数值”中心。
1.由原始资料求算术平均数
例11-2 某厂10个职工某月奖金分别为220元、180元、150元、145元、125元、110元、95元、90元、85元、60元,求他们的平均奖金数。
解:根据计算公式得
2.由分组资料求算术平均数
对于大样本来说,通常是根据分组资料计算平均值,其中包括单值分组资料和组距分组资料。计算公式分别为:
公式11-2适用于单值分组计算,公式11-3适用于组距分组资料计算。其中f代表权数,表示一个变量值或数据出现的次数,xm代表组中值
a.由单值分组资料求算术平均数
例11-3 某100户家庭人口分布见表11-14,求平均家庭人口。
解:根据计算公式得
b.由组距分组资料求算术平均数
例11-4 某样本共有100人,年龄分布见表11-15,求平均年龄。
解:根据计算公式得
需要注意的是,由组距分组资料求算术平均数必须要由组中值代表组距才能计算均值。因为,组距分组变量是定距测量,是不能做乘除的。 当由组中值代表组距时,实际上就是把定距测量转变为定比测量,并且假定该组的各个数值集中于中央一点,或各数值对于中央点的值是对称分布的。其次, 由组距分组资料求均值要求组距的上下两端,即最小组距和最大组距的两端必须是封口的,不能是开口的(例如:≤29, ≥ 60 ) 。最后,组距分组资料一般被看作是连续变量,虽然在统计表的形式上由于采用“上限不在内”汇总方法,表现为非连续变量,但实际上仍然是连续变量。 因此,在计算组中值时还是把每个组距看作是连续的,例如,20~29仍然被看作为20~30,
表11-14 某调查家庭人口分布状况
表11-15 某调查年龄分布状况
(二)中位数
中位数又称中数,简写为Md。顾名思义,是指处于一组按大小顺序排列的数据的中间位置的那个数值。对于那些只有大小、高低、强弱等顺序的定序变量, 由于不能对它们进行乘除运算,无法用平均数表示它们的集中量数,一般采用中位数作为集中量数。 中位数的意义在于:在一个有序排列的数据中,各有一半数据的值在它之上或之下。
1.求中位数的基本步骤
①先将数据按大小或高低排列;②计算累计次数(如果由原始数据求中位数,则不需要计算累计次数);③计算中位数的位置,即;④在原始数据和单值分组资料中可以通过观察找到中位数位置(值)所对应的中位数。
2.由原始数据求中位数
例11-5 某班7名学生数学期终考试成绩分别为65, 78, 80, 85, 87, 90, 92,求中位数。
根据观察, 中位数位置是从最低分或最高分数下来第4个学生的分数85分就是中位数。
数据的个数若是偶数,例如上题,假如有8名学生,数学考试成绩分别为65, 78,80, 85, 87, 90, 92, 95。此时中位数位置应该是中位数位于第4名学生和第5名学生之间, 中位数=(85+87) /2=86(分)。
中位数最适用于定序变量。
例11-6 以下分别是9名男生和10名女生的论文成绩:
男:优、优、良、良、良、中、中、中、差
女:优、优、良、良、良、中、中、中、中、差
求中位数位置,男生的中位数在第5位,女生的中位数在第5和第6位之间。通过观察可知, 男生的中位数是“良”,女生的中位数在第5位和第6位之间, 中位数是“良和中之间”。
3.由定序分组资料求中位数
例11-7 某村青年教育程度调查结果如表11-16,求教育程度的中位数。
表11-16 某村青年教育程度分布状况
中位数位置是(89+1) / 2=45,由累计次数可以看到“45”包含在累计次数为“55”这一栏中, 因此教育程度的中位数是“初中”。
4.由单值分组资料求中位数
例11-8 某调查有家庭100户,家庭人口分布见表11-12。求家庭人口数的中位数。
中位数位置是(100+1)/2=55.5,由累计次数可以看到“55.5”包含在累计次数为“70”这一栏中, 因此家庭人口数的中位数是“3(人)”。
5.由组距分组资料求中位数
由组距分组资料求中位数相对复杂一些,由于计算公式有“下限公式” (11-4)和“上限公式” (11-5) ,上限公式适用于向上累计次数,下限公式适用于向下累计次数。因此,在计算中位数的位置时应该使用
,而不是,否则在同时使用两种公式计算同一变量的中位数时,会出现计算结果的不一致。计算公式中的L下和L上分别代表某一组距的下限和上限,fmd代表的是中位数所在组的次数,Cf下或Cf上分别代表的是中位数所在组以下或以上的累计次数,i代表的是中位数所在组的组距。
例11-9 某样本共有100人,年龄分布见表11-17,求年龄的中位数。
表11-17 某调查年龄分布状况
首先求中位数的位置:100/2=50;然后根据中位数的位置值查找中位数所在组, 由于“50”包含在向下累计次数“76”或者向上累计次数“56” 中, 由此观察, 中位数所在组是“40~49” , 中位数所在组的次数是“32”。
需要注意的是,在由组距分组资料求中位数时与求平均数一样,仍然是把组距看作是连续变量, 因此统计表中的“40~49”应看作是“40~50” ,组距是“10”。
(三)众数
调查研究中的很多变量属于定类测量,既不能用平均数,也不能用中位数反映它们的集中量数, 因此只能用众数反映定类变量的集中量数。所谓众数,就是指一组数据中重复出现次数最多的值(Mode ) ,即多数的概念,简写为Mo。在定类变量中,众数是指出现次数最多的变量的标志(项目),而不是具体的数值。
求众数最主要的方法是直接观察法,在一组数据(一个变量)中, 出现次数最多的标志或项目就是众数。例如,表11-14中出现的最高次数是“55”,它所对应的“3”就是众数,即在100户家庭中, 多数是“三口之家”,Mo=三口之家。又如:
例11-10 调查某个地区,发现回族有4800人,汉族有564人,藏族有245人,求众数。
根据观察,人数最多的是回族,因此,M。=回族,即在这个地区中,回族占多数。
在组距分组资料中,次数最多一组的组中值即为众数。例如,表11-17中, 出现次数最多(32人)的年龄组是40~49岁,所以众数为45岁,也就是说在这100人中, 多数人的年龄是45岁。但是这样的众数是估算的,它是假定组距内的次数分配是均匀的, 因此有时候还需要采用类似于计算中位数的公式进行计算。
要使用11-6这个下限公式,变量标志值的排列必须由低到高,其中fmo代表众数所在组的次数,f下和f上分别代表众数所在组的下一组和上一组的次数,L下代表众数所在组的下限,i代表组距。根据表11-17数据,众数的计算结果为:
集中量数的三种计算方法各有自己的特点:平均数对数据的利用效率最高,它可从无秩序的数据中直接求出,其计算可运用数学方法,运算的结果可以成为其他统计运算的基础,因此,在数理统计中,得到最广泛的运用。其主要缺点是由于每个数据都加入运算,容易受极端数值的影响,这在数据较少的情况下表现得比较明显。
中位数不受极端数值的影响,在两端极端数值不明确的情况下,仍可求出中位数。实际上, 中位数只要知道一个数据的值(即正中间那个数据的值)就够了,其余数据的值即使一无所知也无所谓,这也说明中位数对数据的利用效率较低。
众数是量化程度最低的一个集中量数,仅说明数据中哪种情况最多。一组数据中各类别的次数如果相差悬殊,众数可以成为反映这组数据的较好指标,如果各类别的次数很接近,众数的意义就不大;而且, 当一组数据出现两个及以上峰值时, 即有两个或两个以上类别出现的次数同时都是最多时,众数就不适用了。
三、离散量数分析
集中量数是以一个数值来代表一组数据,表示着一组数据的一般特征和水平。但是,数据资料还有其分散的一面, 即离散趋势的一面, 因此仅靠集中量数还难以准确地说明一组数据的分布状况。
例11-11 某车间两组员工的收入分布如下:
如果只看平均数,两组员工收入是一样的,平均数都是800元。但是稍加注意就会发现两组情况大不一样, 甲组每个员工之间的收入都差不多,数据波动不大;乙组员工之间的收入相差很大,数据很离散,数据波动很大。 因此,为了比较全面地反映数据的特点,除了需要求出集中量数外,还需要计算离散量数。离散量数也称离散趋势、离中量数或差异量数,它表示一组数据的差异情况或离散程度,反映的是数据的波动状况。
集中量数和离散量数是一种对应关系,集中量数的代表性程度,需要由离散量数来说明:离散量数越大,集中量数的代表性越小;反之,离散量数越小,集中量数的代表性越大。集中量数是指量尺上的一个点,离散量数是指量尺上的一段距离,两者相结合,才能比较清晰地反映一组数据的整体分布状况。因此,离散量数值越大,数据的离散程度就越大,集中量数的代表性就越小。常用的离散量数主要有:全距、异众比率、 四分位差、标准差以及相对离散量数。
(一)全距
全距也称极差或两点距,是一组数据中最大值和最小值之差。全距的大小与集中量数的代表性程度成反比,即全距越大,集中量数的代表性越低。例11-11中甲组的全距是80(元)、乙组的全距是1200(元),但是平均收入都是800元,显然乙组平均收入的代表性就较低,组员之间收入的离散程度较高。
全距虽然是表示离散程度最简明的方法,计算方法最容易,但数据最不可靠, 因为全距只由数据中的两个极端数据来决定,其余数据均不起作用。一般情况下,全距只用于预备性检查, 目的是大体上了解数据的分布范围、确定分组。
(二)异众比率
异众比率是反映众数代表性的离散量数,用VR表示,主要是用于定类变量。它是指非众数次数与总体内全部次数或个案数的比率, 即:
其中,fmo指众数的次数,n为全部次数或个案数。
由此可见,异众比率的意义是指出众数不能代表的那一部分个案在总体中的比率。异众比率数值越小,众数的代表性越大。回族作为众数要比三口之家作为众数的代表性程度更高。
(三)四分位差
四分位差是反映中位数代表性的离散量数,通常用符号Q表示,主要适用于定序变量。它是指在一组数据中, 中间50%的次数所占的距离。计算四分位差首先要确定四分位数。所谓四分位数是将一组数据按高低、大小的顺序加以排列,并将其分为四个相等的部分,位于第的数据称为第1四分位数, 以Q1表示,位于第
的数据称为第2四分位数,也就是中位数, 以Q2表示,位于第
的数据称为第3四分位数, 以Q3表示。 四分位差就是指Q1-Q3这段距离。这段距离拥有50%的数据资料,其距离的大小,反映了这段距离内数据的疏密。距离越小,说明这些数据越是密集,也即离散程度越小(参见图11-10) 。
图11-10 四分位数的数据分布
四分位差的计算公式在定序和定距变量中略有不同:
计算四分位差时,关键是计算Q3与Q1的数值, 四分位数的计算与中位数的计算原理完全相同,计算步骤也极为相似。
1.由原始资料求四分位差
例11-6中,Q3为“中”, Q=Q3-Q1=优_-中;
Q3位置=2.75 × 3=8.25, Q3为“中”, Q=Q3-Q1=良+-中。因此,男生和女生的四分位差略有差异,也就是说男生处于中间50%的学生论文成绩在优_和中之间;女生处于中间50%的学生论文成绩在良+和中之间。
2.由定序分组资料求四分位差
表11-16中,查累计次数是包含在“55”一组中的,Q1=初中,Q3位置=22.5 × 3=67.5,包含在累计次数为“85”一组中,Q3=高中。因此,Q=Q3-Q1=高中-初中,即处于中间50%青年教育程度在高中和初中之间。
需要注意的是,对于定序变量,“-”号只表示这段距离的起止点,意味着“从什么到什么”。
3.由单值分组资料求四分位差
表11-12中,查累计次数(cf↓)是包含在“30”一组中,Q1=2(人),Q3位置=25.25 × 3=75.75,包含在累计次数为“85”一组中,Q3=3(人)。
因此,即处于中间50%的家庭人数在2至3人之间;或者在正态分布的条件下,Q=3±0.5(人)。
4.由组距分组资料求四分位差
由组距分组资料求四分位差相对复杂一些,计算公式与求中位数相似,这里仅介绍下限公式:
其中,L下1和L下3分别代表第一和第三四分位数所在组的下限,fm1和fm3分别代表第一和第三四分位数所在组的次数,Cf下1和Cf下3分别代表第一和第三四分位数所在组以下的累计次数。
表11-17中,
因此,即处于中间50%调查对象年龄在49.7至30.5(岁)之间;或者处于中间50%调查对象在正态分布的条件下,其年龄Q=41.9±9.6(岁)。
如同中位数一样, 四分位差也不能充分利用数据资料,量化程度较低,其计算结果无法进一步用于其他计算。但是,定序变量的离散量数计算,只能采用这种方法。
(四)标准差
标准差也称为均方根差,它是各单位标志值与平均数离差平方和的平均数的平方根,标准差的平方即方差。标准差是计算变量变异程度的重要方法。由于标准差最符合数学原理,因此是用来计算变异量的常用方法。但是标准差主要适用于定比测量,或者由定比测量而转换的定距测量。标准差的基本公式如下:
其中,S代表标准差,x代表个案值或各单位标志值,代表平均值,n代表样本数,Σ代表总加或总和。
1.由原始数据求标准差
根据例11-2:
例11-11中,经计算甲乙两组员工的标准差分别为28.3(元)、 424.3(元),乙组的收入差距要远远高于甲组。
2.由单值分组资料求标准差的公式稍有变化
其中,f代表次数或权数。根据例11-3:
3.由组距分组资料求标准差
计算公式基本上同公式11-13。但是其中x为xm,即组中值。根据例11-4,标准差计算结果为:
集中量数和离散量数的计算方法基本上是一种对应关系, 即众数与异众比率、 中位数与四分位数、平均数和标准差各自成对,各自的特点也成对相似。
集中量数和离散量数的计算方法虽然有多种,但是我们还是强调,在选择具体的计算方法时,要根据变量的测量层次,尽可能选择最符合数学原理的计算方法,能选择平均数和标准差的,就不要选择中位数和四分位数,而众数和异众比率应被视为最后一种选择。集中量数、离散量数和变量测量层次的关系见表11-18:
表11-18 集中量数、离散量数和变量测量层次的关系
注:星号(①)是指三种计算方法最适用的测量层次。
四、相对离散量数分析
上述离散量数中除异众比率外,都属于绝对离散量数, 因为它们和原数据都具有相同的测量单位。这种以绝对数值出现的离散程度,对于描述一组数据本身的分布状态来说是极有价值的,而且也能在个案数目相近、算术平均数大体一致的不同组数据间做直接比较。但是,如果各组数据的量度单位不同,或者量度单位虽然相同,但平均数差别较大,就不能用绝对离散量数比较两组数据的离散状况。例如,身高的标准差为10 cm,体重的标准差为3 kg,两者量度单位不一致,就无法比较离散程度孰大孰小。但是相对离散量数就可以比较不同度量单位的差异程度。例如,前面计算的家庭人口和民族各自的异众比率,可以看出家庭人口的离散程度要大于民族的,家庭人口众数的代表性程度要小于民族的。因此,相对离散量数为计算和比较不同数据的离散程度或趋势提供了新的方法,常用的相对离散量数主要有离散系数和标准分数。
(一)离散系数
又称变差系数,它是标准差(s)与算术平均数()之比,是一个相对量,不受计量单位等因素的影响。因此可以比较同一总体不同变量的离散状况,也可以比较不同总体相同变量的离散状况。与绝对离散量数一样,离散系数越大,数据的离散程度就越大,集中量数的代表性就越小。离散系数用CV表示,其计算公式如下:
离散系数既可以比较不同度量单位的两组及以上数据的离散程度(见例11-12) ,也可以比较相同度量单位,但均值差异较大的两组及以上数据的离散程度(见例11-13) 。
例11-12已知某地区人均住房面积20平方米,标准差15平方米,人均月收入2500元,标准差2200元,试问住房面积与人均月收入两个变量的差异哪个更大?
所以,收入的差异程度更大。
例11-13调查得到A城市人均月收入2500元,标准差1500元,B城市人均月收入1 500元,标准差1200元,试问哪个地区的收入差异更大?
所以,B城市的收入差异更大,虽然B城市的标准差要小于A城市。
(二)标准分数
标准分数又称z分数,它是表示某一个案(某一数据)在群体(该组数据)中所处相对位置的量数。标准分数用z表示,某个案的z值越大,表明该个案在分布中的位置(排名)越靠前;若z为负值,则负值越大,排名越靠后。 由于z分数没有实际单位, 因此既可以确定原始数据在总体分布中的位置,也可以对不同分布中的若干个个案的排序进行比较。标准分数的公式为:
例11-14某省职工人均年收入为18000元,标准差是8500元,该省电信行业职工人均年收入为29000元,请问该省电信行业职工收入处在全省什么水平上?
查正态曲线下的面积表,z=1.29时,相对水平或位置为0.90 (z=1.29时,正态曲线下对应的累积面积为0.90) 。因此,全省有90%的职工收入低于电信行业的职工。
例11-15某校期末考试,全校语文平均成绩为=80分,标准差s1=4.5分,数学平均成绩为
=87分,标准差s2=12.5分。某学生语文考试成绩是85分,数学考试成绩是95分,若从相对名次的角度看,该生哪门课程的成绩考得好?
解:若从绝对成绩看,该生是数学考得好。但从排名前后的角度看待成绩,名次的前后还取决于总体的状况。计算两门成绩的标准分数:
1.11 > 0.64, 因此该生的语文分数在全校中的名次要比数学分数更靠前,也就是说在这个学校里,该生语文考得更好。查正态曲线下的面积表,z=1.11时,相对水平或位置为0.86;z=0.64时,相对水平或位置为0.74。也就是说,全校分别有86%的同学的语文成绩和74%的同学的数学成绩在该生之后。
通过z分数不仅可以在不同个案之间进行直接比较,还可以将同一个案不同方面的z分数相加,得到综合名次从而进行比较。
例11-16表11-19是甲、乙两名学生在不同科目上的考试成绩以及全体考生的平均成绩和标准差,若看总分, 乙生略高于甲生,但从z分数角度看,也就是从综合名次看,却是甲生高于乙生。
表11-19 两考生在全体考生中的相对水平或位置
五、相关、回归、推论简述
这里介绍的集中量数和离散量数是统计学中最基本的知识,除此之外,还有计算变量之间关系的相关统计和回归分析, 以及把统计结果推论到总体的方法。后面的方法涉及两个变量或多个变量之间的关系。鉴于篇幅,这里只概要地介绍相关、 回归和推论的常识以及一些对本科学生比较有用的分析方法,供大家在学习中参考。
(一)相关和相关分析方法
事物之间的联系大致可以分为两类,一类是确定性关系,变量之间存在着一一对应的关系,即函数关系;另一类是不完全确定的关系,两个变量之间存在着相互依赖、相互影响的关系,却不是严格的一一对应关系,称为相关关系。相关关系反映的是变量之间是否存在联系以及联系的程度。确定性关系与相关关系之间往往无法截然区分,一方面, 由于测量误差等随机因素的影响,确定性关系在现实中往往通过相关关系表现出来;另一方面,当人们对客观事物的内部规律了解得更深刻时,相关关系又有可能转化为确定性关系。
相关关系主要有三种形式,即正相关、负相关和零相关。正相关是指两个变量之间同方向变动的关系, 即一个变量的数值增大,另一变量的数值也增大,反之亦然。例如,收入越高,支出越多,或收入越低,支出越低,两者就是正相关关系。变量之间反方向变动的关系叫作负相关,即一个变量的数值增加时另一变量的数值降低。例如,夫妇教育程度越高,生育意愿越弱。所谓零相关是指两个变量之间不存在相关关系。例如,人的出生时间与气候是没有关系的(见图11-11)。根据相关的强度大小,还可以分为强相关、弱相关、强负相关、弱负相关。相关的表现形式除了直线相关还有曲线相关等。
图11-11 正相关、负相关和零相关的散点图表示
因果关系是相关关系的特殊形式,它是指当一个变量(x)变化时,会影响或导致另外一个变量(y)的变化,但是反过来, 当y变量发生变化时,却不会引起x变量的变化。在因果关系中,发生在前面并引起另外一个变量发生变化的变量, 即x变量称为自变量,因为x变量的变化而发生变化的变量,即y变量称为因变量。判断因果关系的条件有三个:第一,因果关系是单向关系(x→y),或不对称的相关关系。相关关系则是双向关系(xy),当x发生变化时,y也随之变化,反过来也一样。第二,变量x与变量y在时间上有先后关系,即原因变量x(自变量)发生在前,结果变量y(因变量)发生在后。第三,变量x与变量y的关系不是同源于第三个变量的影响。即变量x与变量y之间的关系不是某种虚假的或表面的关系。例如,某项研究发现居住环境越差,盗抢犯罪率越高,两者存在很强的相关关系。但是进一步分析就会发现,实际上两者都和贫困有关。 因为贫困,只能居住在环境很差的地方; 因为贫困,就容易发生偷盗、抢劫犯罪。
对于相关关系和因果关系的异同,我们可以通过分析一些具体的社会现象来认识。例如,“交往与感情”就是相关关系,它们之间的关系是双向关系,也是同时发生的(也属于共变关系);“收入与支出”就是因果关系,它符合上面讲的三个条件。但是,并不是所有的符合上面所讲的三个条件的变量之间的关系都可以称为因果关系。例如教育水平与收入之间很难说是因果关系,“条件关系”也许更为恰当,影响收入高低的是劳动贡献或工作业绩,教育水平可能是影响劳动贡献或工作业绩的条件。实际上在分析收入高低的原因时还涉及理论的解释,不同的理论对收入的因果关系解释可能是不同的。从这个意义上说,判断因果关系除了要根据上述三个条件之外,还与研究者所选择的理论有很大关系。
用一个统计值表示两个变量之间的相关程度,就是相关统计量。相关统计量的数值范围在-1到1之间,绝对值越大,说明变量之间的相关性越强。若相关统计量大于0,表明变量之间呈正相关,若小于0,是负相关,若等于0,则是零相关。假如等于1或-1,表明非确定性的相关关系转化为确定性的函数关系。如何根据相关统计值判断相关关系的强弱,有些学者根据经验判断,认为0.3以下的相关统计量是低度相关或弱相关,0.3~0.7是中度相关,0.7及以上被看作高度相关或强相关。但是,实际调查研究中的相关统计量很难达到0.5以上,更多的相关统计量在0.3左右或以下。这是因为在调查研究中,大量的变量是定类测量或定序测量,并且受到多元社会因素的影响。因此, 以上关于相关关系强弱判断的相关统计值的大小只能作为参考。
相关统计量只是表示相关程度的一个比率数值,它既不是反映相关的百分数,也不是相关量的等单位量度。例如,如果两个变量之间的相关统计量为0.6,并不是说这两个变量有60%的相关;若另有两个变量的相关为0.3,我们只能说0.6的相关程度要比0.3高,但不能说前者的相关是后者的两倍。
在计算相关统计量时,一般要求两个变量服从正态分布,并且,两个变量的数据量至少在50以上,如果数目过少,偶然性的影响会增大,相关统计量就会失去意义。
对于不同层次的变量,其相关统计量的计算方法是不相同的。这是因为变量类型的不同相关的意义也有不同。如果两个变量都是定距层次的,可以根据两个变量在数值上的共同变化关系来理解它们之间的相关,即“一个变量的数值增大,另一变量的数值也随之增大或减小”。基于共变基础上的相关统计量也就是一般数理统计上所讲的相关系数。然而,对于定类层次或定序层次的变量,却无法套用共变的概念去理解它们之间的相关,因为“共变”是指数值上的共同变化,包括数值上的增加或减少,而定类、定序变量的数据是没有数值意义的,不存在数值上的增加或减少,也就谈不上数值之间的共变。例如,对于定距变量“收入”和“支出”,可以这样解释:一个人的收入如果从1000元增加到1500元,他的支出可能会从600元增加到800元,这就是数值上的共变。但是,对于定类变量来说,例如“性别”与“支出”,假定“1”代表男性,“2”代表女性,从1变到2,数值变化是没有意义的,我们不能说“当性别由‘1’增加到‘2’时,支出会减少200元。”这里的“1”和“2”仅是分类的符号,而不是数值的大小。定序变量具有高低、大小、强弱等的顺序关系,在此意义上可以用共变的概念解释它们之间的相关。但是,定序变量不能进行加减运算, 因而无法说明共变的程度。 因此,对于定类和定序变量,人们不是从共变而是从“连同发生”的角度来理解相关,即如果一个变量中的某种情况(类别)发生了,则另一变量中的某种情况(类别)更可能发生,例如,如果“性别”是“男性”,他的“支出”可能会增加。
显然,这里隐含着根据一个变量去预测或估计另一个变量的意思。事实上,人们正是根据预测的准确程度来界定定类或定序变量之间的相关,并由此提出了消减误差比例的概念。所谓消减误差比例(PRE ) ,是指当两个变量具有相关关系时,用其中一个变量(x)的数据分布去预测另一变量(y)的数据时,应该比不利用x的数据分布去预测y更能够减少预测误差,即预测得要更准确一些。简单地讲,如果两个变量之间存在相关,那么,就可以根据一个变量去预测或估计另一个变量, 以估计的准确程度作为两个变量之间的相关程度。
因此,在作相关分析时要根据变量的测量层次选择与之匹配的相关统计方法。在两个变量的相关分析中,常用的方法主要有: λ(lambda ), τy(tau-y) , G(gamma), η2(eta,相关比率),r(皮尔逊相关系数,简称相关系数)等。它们与变量的测量层次的关系见表11-20:
表11-20 双变量相关统计方法与变量测量层次的关系
注:加星号(①)的是指对于特定测量层次最适用的相关统计方法。
(二)回归分析
回归分析和相关分析既有联系又有区别:第一,相关关系是一种非确定性关系,变量之间不存在完全精确的函数表达式,但是通过大量观测数据可以找出存在于它们之中的统计规律性,并且可以用一个近似的函数式来表达变量之间的关系。回归分析就是在分析观测数据的基础上,确定一个能反映变量之间关系的近似函数表达式。 因此,回归分析是研究相关关系的一种有效方法。第二, 回归分析是对具有相关关系的现象,根据其关系形态建立回归方程,并通过回归方程直观地、具体地描述变量之间的相关。
但是,相关表示的是两变量之间的相互关系,它们的关系是双向的,不存在因变量和自变量的区别,而回归有因变量和自变量之分,它们的关系是单向的,并且具有预测功能。因此,相关是回归的必要条件,有相关关系不一定有回归关系,没有相关关系,肯定没有回归关系。
回归分析是一种比较复杂的方法,既有线性回归(其中包括一元和多元),也有非线性回归(其中也包括一元和多元)。从初学者的角度看,一元线性回归可以帮助我们理解回归分析所包含的原理。在散点图中(见图11-10) ,如果散点图的形状具有一种趋势:随着xi的增大,yi也相应增大,或者随着xi的增大,yi却相应减小,可以对这些“散点”“配”一条直线,这些散点分布在这条直线周围,但不全在这条直线上。如果求出这条直线所对应的方程,就可以根据xi的值去近似地估计yi的值,具体说明x与y之间的关系。
显然,在这些散点中可以作无数条直线,其中必有一条可以最佳地拟合这些散点。所谓最佳拟合,是指根据这条直线由xi估计yi得到的估计值相比由其他所有直线得到的估计值误差最小,这条最佳直线称为回归线。回归线的函数式可以表示为:
即y对x的回归方程,式中常数项a称为截距,b称为回归系数。回归系数b实际上是回归直线的斜率,反映了自变量x对因变量y的作用幅度。根据=a+bx计算出的值
只是一个估计值。凡是估计值
必然处在回归线上,然而实际观测值y却未必处在回归线上,两者之间一般都存在误差,记作e,也即:y-
=e,也可表示为y=a+bx+e, 即回归模型。y与x之间的关系由两部分组成,一部分是由于x的变化引起的y的线性变化部分,即a+bx部分,另一部分是由其他未考虑到的变量和一切随机因素引起的,即e。只要求出a值、b值、e值,根据x就可以对y值进行预测。
随着数理统计的发展,回归分析不仅适用于定比、定距变量,也可用于定类、定序变量。现代回归分析方法或者采用虚拟变量的方法,或者采用对数线性回归技术,使其适用于所有的变量类型。
(三)推论统计
所谓推论统计指的是由样本资料的结论推断总体的统计方法, 即在所掌握的信息不完全的情况下所作的一种归纳性推理。从推论统计的内容看,推论统计可以分为两大类,一类是参数估计,另一类是假设检验。
参数估计主要采用区间估计的方法,它是在点估计的基础上,在一定置信度(可信度)的前提下估计总体参数所在的范围,它给出的是一个区间值而不是一个点值, 比如:a<μ <b。置信度也称可信度或置信概率,指的是估计值的可靠性,用1-α表示。1-α指的是概率。在一定的置信度前提下,总体参数所在的范围称为置信区间。置信区间反映了估计的精确性, 区间范围越小说明估计越是精确。一个良好的区间估计,应该是置信度高,置信区间小,既可靠又精确。然而,两者却是相互制约的,在样本容量一定的情况下,置信度越大,相应的置信区间越宽,即估计越不精确。使区间估计既可靠又精确的有效方法是增加样本容量。在可靠性与精确性两个条件中,人们都是事先规定置信度,然后计算置信区间。常用的置信度为95%或99%,也即α=0.05或0.01。 区间估计的意义在于:如果进行n次随机抽样,得到n个随机样本,有n个, n个置信区间。n个置信区间中,有的包含总体参数μ,有的不包含;包含μ的区间的概率为(1-α)。假如α=0.05,就是说进行100次随机抽样,大约有95个区间包含总体参数,另有5个可能不包含。或者说,犯错误的可能性为5%。
区间估计不仅可以用于对总体参数的估计,也可以用于对总体比例的估计。区间估计的结果可以这样表述“本研究有95%把握,认为全市年人均文化消费支出为73.8~86.2元。”或者“本研究的结论是:全市家庭中,拥有电脑的比率为50%~60%的可能性是95%。”区间估计的关键在于计算标准误(SEr),知道标准误后,就可以写出区间估计的公式,根据具体的数据计算出区间估计值。
推论统计的另一类是假设检验。假设检验也称显著性检验,是研究者从理论或专业知识出发,对研究总体的有关特征提出一定的研究假设。通过抽样调查的方法获得样本数据,根据样本数据的统计结果,从概率的角度对假设的真实性做出判断,即根据样本结果证实或推翻总体有关假设的一种统计方法。
例如,某官员声称,某地区生活水平明显提高,平均人均月收入已达1200元。某研究者对此表示怀疑,以抽样调查的方法去验证该官员的结论。他从该地区随机抽取1000人,调查得到平均人均月收入1100元,标准差800元,根据这个调查结果,能否证实或否定该官员的结论呢?
对于样本平均数=1100元和总体平均数μ=1200元之间产生的100元差异的原因,可以有两种解释:第一,总体平均数μ确实等于1200元。
与μ之间的偏差纯粹是偶然误差导致的;第二,总体平均数μ实际上不等于1200元,而是低于1200元。
两种解释哪一种是正确的?官员的结论是针对该地区这个总体的,学者的结论来自样本调查。两者范围不一致, 出现偏差是必然的。按照正常思路,如果总体平均数确实等于1200元,那么样本的平均数应该在其附近波动,偏离太大的可能性是很小的,如果偏离太大了,人们自然会产生怀疑,偏差100元是大还是小?从概率的角度分析,先假定第一种解释是正确的, 即μ=1200元,在此前提下计算发生的概率,根据以上数据和有关公式,概率为0.00004[6]。就是说,假定总体平均数μ为1200元是真实的,在此前提下,抽到样本平均数
小于或等于1100元的可能性仅为0.00004,或者说,由偶然误差导致样本平均数偏离总体平均数100元的可能性为0.00004。按照“小概率事件在一次观察中不可能出现”的原理,如此小的概率事件在一般情况下是不会发生的,现在却发生了,人们自然会对原先的假定μ =1200元产生怀疑:μ不可能等于1200元,应该小于1200元,原先的假定是错误的。这便是假设检验的基本思路。
假设检验的步骤主要是:①建立虚无假设和研究假设;②选择适当的显著性水平(α),并查出其临界值;③根据样本数据计算统计值;④比较临界值和统计值的绝对值,若临界值大于统计值的绝对值,接受虚无假设,拒绝研究假设,反之,则拒绝虚无假设,接受研究假设。
在假设检验中,首先要建立虚无假设和研究假设。虚无假设又称无差假设(null hypothesis ) ,用H0表示,它是进行统计推论的出发点,其含义是样本统计值与它所代表的总体参数之间没有真实的误差,只是偶然误差,受概率规律支配。研究假设是研究者通过探索性研究确立的假设,是对研究问题所作的一种尝试性回答,用H1表示。一般说来,研究假设与虚无假设是相对立的。统计中的假设检验是围绕虚无假设展开的, 以虚无假设的提出作为第一步,以虚无假设被接受或被推翻作为最后结论,均与研究假设无关。由于虚无假设与研究假设是对立的,推翻虚无假设意味着接受研究假设,或者反之。
通常人们规定概率小于0.05或0.01的事件叫小概率事件,当计算出的概率P大于0.05或0.01时,接受虚无假设,反之,推翻虚无假设。这样,0.05或0.01便成为人们推翻或接受虚无假设的标准,这个标准称为显著性水平或临界水平,记作α,上述标准可以写为α =0.05或α=0.01;有时人们也取α =0.1或α=0.001为标准。具体取哪一个标准, 由研究者根据研究问题的性质确定。
显著性水平是小概率事件的具体体现。在概率分布图中, 由显著性水平α所确定的末端区域称为否定域。若计算得到的概率P<α,也即意味着P进入了否定域,从而否定虚无假设。显然,否定域与显著性水平是同一问题的两种不同表述方法,否定域是否定(推翻)虚无假设的区域,显著性水平是推翻虚无假设的标准,否定域的概率就是显著性水平。
假设检验的结论并不是绝对准确无误的,无论是推翻虚无假设还是接受虚无假设都有可能犯错误。所犯错误有两类:第一,错误地推翻了虚无假设。虚无假设实际上是正确的,但却拒绝了它,否认了它,这是犯了“弃真”的错误,通常称为第一类错误(甲种错误),犯这种错误的概率可以直接计算出来。在一般情况下,显著性水平(α)可以认为是犯第一种错误的概率。 当α=0.1时,犯第一类错误的概率就是10%。第二,错误地接受了虚无假设。虚无假设实际上是不正确的,但是我们却接受了它,这是所谓的“纳伪”错误,通常称为第二类错误(乙种错误),若把显著性水平(α)定得过高,倾向于接受虚无假设,就易犯第二类错误。显然,两种错误互相制约、对立的,或成反比的。例如,若选择α=0.1,而不是α=0.05,那么犯第一种错误的可能性就比较大,反之,犯第二种错误的可能性比较大。一般说来,增加样本容量,有助于提高检验的有效性。
假设检验的方法主要是:x2卡方检验(适合于较小规模的样本)、F 检验、Z检验和t检验(常用于小样本检验),它们适用于不同的变量测量层次或样本规模。
【注释】
[1]个案简录卡是用硬纸片做成的,大小为13 cm × 20 cm,四周有100~130个小圆孔,并按序编号,小圆孔离开卡片的边缘约3 cm左右。一份问卷的资料“登录”在一张卡片上,不够的话可以“登录”在两张卡片上。“登录”时首先按照问题的答案数分配小圆孔,“登录”是采用“剪断”的方法,例如,卡片上的小圆孔1~2为性别变量,1号小圆孔代表男性,2号小圆孔代表女性,如果问卷资料中被调查者是男性,就把1号小圆孔按照小圆孔的直径朝着卡片边缘剪开一个缺口,成为一个开口的小圆孔。在汇总资料时,先把全部样本的卡片叠好,然后用一根圆针(例如织毛衣针)穿在1号小圆孔里,掉下来的就是男性资料,只要计数就知道样本中男女的数量。
[2]登录表大小为80(列)× 26(行),80列是为了与早先的计算机显示器允许显示的宽度相一致,与问卷的栏码相对应;如果问卷的栏码超过80,则填在第二张表上;每张登录表可以填写25个个案。
[3]年龄如此划分,已不再是数量标志分类,而是品质标志分类了。
[4]上面介绍的各种统计图就是运用Excel或SPSS软件的制图功能绘制的。
[5]流动表是用来分析社会流动的一种方法,它利用列联表分析代际或代内之间的流动,通过行与列的交叉而组成的若干单元格,比较不同单元格中的数据,分析父代职业与子代职业或者过去职业与现在职业的变化。
[6]