第7章 相关分析与回归分析

第7章 相关分析与回归分析

客观事物是普遍联系的,事物间往往存在着一定的特定关系:人的身高与体重,施肥与作物产量,降雨量与作物病虫害发生程度,温湿条件与微生物的繁殖等。事物之间的相互关系都涉及两个或两个以上的变量,只要其中的一个变量变动了,另一个变量也会跟着变动,这种相互关系称为协变关系。具有协变关系的两个变量,一个变量用符号x表示,另一个变量用y表示,通过实验或调查获得两个变量的成对观测值,可表示为(x 1,y 1),(x 2,y 2),…,(x n,y n)。将每一对观测值在平面直角坐标系中表示成一个点,直观表示x和y的变化关系。

变量间的协变关系又分成两种:一种是平行关系。如果两个以上变量之间共同受到另外因素的影响,这两个以上的变量之间就存在平行关系。例如,人的身高与体重之间的关系、兄弟姊妹的身高之间的关系等都属于平行关系。另一种是因果关系。如果一个变量的变化受另一个变量或几个变量的制约,则这些变量之间就存在着因果关系。例如,微生物的繁殖速度受温度、湿度、光照等因素的影响,子女的身高受父母身高的影响。其中繁殖速度和温度、湿度、光照之间的关系,子女身高和父母身高的关系就属于因果关系。

如果两变量x和y是平行关系,没有自变量和因变量的分别,而且x和y都具有随机误差(例如兄弟身高之间的关系,哥哥和弟弟的身高不存在因果关系,但是都和父母的身高存在一定关系),那么我们只能研究两个变量之间的相关程度和性质,不能用一个变量的变化去预测另一个变量的变化,这种方法就叫作相关分析。

如果因变量y是随自变量x的变化而变化的,并有随机误差(例如作物施肥量和产量之间的关系,前者是表示原因的变量,是事先确定的,即自变量,后者是表示结果的变量,且具有随机误差,即因变量,作物产量是随施肥量的变化而变化的),那么我们就需要找出因变量和自变量变化的规律性,由x的取值预测y的取值范围。这种方法就叫作回归分析。

能否用一个变量的变化去预测另一个变量的变化是相关分析与回归分析的关键区别。然而回归分析和相关分析二者不能截然分开,因为由回归分析可以获得相关分析的一些重要信息,同样由相关分析也可以获得回归分析的一些重要信息。在回归和相关分析中,必须注意下面一些问题,以避免统计方法的误用。

(1)变量间是否存在相关以及在什么条件下会发生什么相关等问题,都必须由各具体学科本身来决定。回归只能作为一种分析手段,帮助认识和解释事物的客观规律。决不能把风马牛不相及的资料凑到一起进行分析。

(2)由于自然界各种事物间的相互联系和相互制约,一个变量的变化通常会受到许多其他变量的影响,因此在研究两个变量之间的关系时,要求其余变量尽量保持在同一水平,否则,回归分析和相关分析就可能会导致不可靠甚至完全虚假的结果。例如人的身高和胸围之间的关系,如果体重固定,身高越高的人,胸围一定较小,当体重变化时,其结果就会相反。

(3)在进行相关分析与回归分析时,两个变量成对观测值应尽可能多一些,这样可提高分析的准确性,一般至少有5对以上的观测值。同时变量x的取值范围要尽可能大一些,这样才容易发现两个变量间的协变关系。

(4)相关分析与回归分析一般是在变量的一定取值区间内对两个变量间的关系进行描述,超出这个区间,变量间的关系类型可能会发生改变,所以回归预测必须限制自变量x的取值区间,外推要谨慎,否则容易得出错误的结果。

下面将就相关分析和回归分析分别进行介绍。