第6章 方差分析
一个复杂的事物其中往往有许多因素互相制约又互相依存。在科学实验和生产实践中,影响一件事物的因素往往是很多的,因此在科学实验中常常要探讨不同实验条件或处理方法对实验结果的影响,通常是比较不同实验条件下样本均值间的差异。例如,医学界要研究几种药物对某种疾病的疗效,实际就是要判断“药物”对“疾病”是否有显著性影响,做出这种判断的依据是这几种药物对疾病的疗效的均值是否相等。如果疗效的均值相等,就意味着这几种药物对该疾病的疗效没有显著性差别;反之,如果均值不相等,就意味着这几种药物对该疾病的疗效有着显著性差别。例如,农业研究土壤、肥料、日照时间等因素对某种农作物产量的影响;不同化学药剂对作物害虫的杀虫效果等。在化工生产中,有原料成分、原料剂量、催化剂、反应温度、压力、溶液浓度、反应时间、机器设备及操作人员的水平等因素。每一因素的改变都有可能影响产品的数量和质量,有些因素影响较大,有些因素影响较小。为了使生产过程得以稳定,保证优质、高产,就有必要找出对产品质量有显著影响的那些因素。为此,需进行统计实验,并根据实验的结果进行分析,鉴别各个有关因素对实验结果的影响,这个统计分析的方法就是方差分析。方差分析是从观测变量的方差入手,在可比较的数组中,把数据间总的“变差” 按各指定的变差来源进行分解的一种技术。在统计学中,当需要对两个总体均值进行检验时,即需要检验两个以上的总体是否具有相同的均值时,就需要用到方差分析。
方差分析研究诸多控制变量中哪些变量是对观测变量有显著影响的变量,通过对变差的度量采用离差平方和,从总离差平方和分解出可追溯到指定来源的部分离差平方和,找出对该事物有显著影响的因素、各因素之间的交互作用,以及显著影响因素的最佳水平等。方差分析通过检验总体均值是否相等来判断分类自变量对数值型因变量是否具有显著影响。那么研究均值差异的方差分析和第5章讨论两个正态总体均值之差的z-检验和t-检验有什么区别呢?z-检验和t-检验只能用于两样本均数及样本均数与总体均数之间的比较,而方差分析可以用于两样本及以上样本之间的比较。另外,方差分析有十几种方法,不同的方差分析取决于不同的设计类型,因此方差分析结果更加准确,应用更加广泛。
在实验中,我们将要考察的指标称为实验指标。影响实验指标的条件称为因素。由于各种因素的影响,研究所得的数据呈现波动状,造成波动的原因可分成两类:不可控的随机因素和研究中施加的对结果形成影响的可控因素。例如,反应温度、原料剂量、溶液浓度等是可以控制的,而测量误差、气象条件等一般是难以控制的。但在本书中我们所说的因素都是指可控因素。因素所处的状态,称为该因素的水平。如果在一项实验的过程中只有一个因素在改变,称为单因素实验;如果多于一个因素在改变,称为多因素实验。在使用方差分析时,必须满足一定的条件,被称作方差分析的基本假定。假定如下:
(1)每一个总体都应服从正态分布。也就是说,对于因素的每一个水平,其观测值是来自正态分布总体的简单随机样本。
(2)每一个总体的方差必须相同。也就是说,对于各组观察数据,它们是从具有相同方差的正态总体中抽取的。
(3)观测值是独立的。
在上述假定成立的前提下,要分析自变量对因变量是否有影响,就会在形式上转化为检测自变量在各个水平的均值是否相等。