9.4 方差分析

9.4 方差分析

一、基本原理

在现实的生产和经营管理过程中,影响产品质量、产量或销量的因素很多。例如,农作物的产量受作物的品种、施肥量的多少及种类等的影响;某种商品的销量受商品价格、质量、广告等的影响。基于这些因素引入了方差分析的方法。

方差分析也是一种假设检验,它是对全部样本观测值的变动进行分解,将某种控制因素下各组样本观测值之间可能存在的由该因素导致的系统性误差与随机误差加以比较,据以推断各组样本之间是否存在显著差异。若存在显著差异,则说明该因素对各总体的影响是显著的。

方差分析有三个基本概念:样本变量、因素和水平。样本变量是进行方差分析所研究的对象;因素是影响观测变量变化的客观或人为条件;因素的不同类别或不同取值则称为因素的不同水平。在上面的例子中,农作物的产量和商品的销量就是样本变量,作物的品种、施肥种类、商品价格、广告等就是因素。在方差分析中,因素常常是某一个或多个离散型的分类变量。

根据观测变量的个数,可将方差分析分为单变量方差分析和多变量方差分析;根据因素个数,可分为单因素方差分析和多因素方差分析。在SPSS中,有One-way ANOVA(单变量-单因素方差分析)、GLM Univariate(单变量多因素方差分析);GLM Multivariate(多变量多因素方差分析),不同的方差分析方法适用于不同的实际情况。本节仅讲述最为常用的单因素单变量方差分析。

二、方差分析的内容与步骤

单因素方差分析也称一维方差分析,对两组以上的均值加以比较,检验由单一因素影响的一个分析变量由因素各水平分组均值之间的差异是否有统计意义。它可以进行两两组间均值的比较,称作组间均值的多重比较。主要采用One-way ANOVA过程(见图9.28)。

图示

图9.28 One-Way ANOVA对话框

采用One-way ANOVA过程的要求:因变量属于正态分布总体,若因变量的分布明显是非正态,应该用非参数分析过程。对被观测对象的试验不是随机分组的,而是进行的重复测量形成几个彼此不独立的变量,应该用Repeated Measure菜单项,进行重复测量方差分析,条件满足时,还可以进行趋势分析。

假设某品牌电视机经销商为了研究东部、西部和中部地区市场上电视机的销量是否存在显著差异,在每个地区随机抽取几个城市进行调查统计,调查数据放置于数据文件“电视机销量调查.sav”中。在SPSS中分析的步骤如下:

步骤1:选择菜单【分析】→【比较均值】→【单因素方差分析】,依次将观测变量销量移入因变量列表框,将因素变量地区移入因子列表框。

单击两两比较按钮,如图9.29所示,该对话框用于进行多重比较检验,即各因素水平下样本变量均值的两两比较。

图示

图9.29 两两比较对话框

方差分析的原假设是各个因素水平下的观测变量均值都相等,备择假设是各均值不完全相等。假如一次方差分析的结果是拒绝原假设,我们只能判断各观测变量均值不完全相等,却不能得出各均值完全不相等的结论。各因素水平下观测变量均值的更为细致的比较就需要用多重比较检验。

假定方差齐性选项栏中给出了在观测变量满足不同因素水平下的方差齐性条件下的多种检验方法,这里选择最常用的LSD检验法;未假定方差齐性选项栏中给出了在观测变量不满足方差齐性条件下的多种检验方法,这里选择Tamhane's T2检验法;Significance level输入框中用于输入多重比较检验的显示性水平,默认为5%。(https://www.daowen.com)

单击选项按钮,弹出options子对话框,如图9.30所示。在对话框中选中描述性复选框,输出不同因素水平下观测变量的描述统计量;选择方差同质性检验复选框,输出方差齐性检验结果;选中均值图复选框,输出不同因素水平下观测变量的均值直线图。

图示

图9.30 选项子对话框

在主对话框中点击ok按钮,可以得到单因素分析的结果。试验结果分析:表9.7给出了不同地区电视机销量的基本描述统计量以及95%的置信区间。

表9.7 各个地区电视机销量描述统计量

图示

表9.8给出了Levene方差齐性检验结果。从表中可以看到,Levene统计量对应的p值大于0.05,所以得到不同地区电视机销量满足方差齐性的结论。

表9.8 各地区电视机销量方差齐性检验表

图示

Levene统计量对应的p值大于0.05,所以得到不同地区汽车销量满足方差齐性的结论。

表9.9是单因素方差分析,输出的方差分析表解释如下:总离差SST=19384.154,组间平方和SSR=6068.174,组内平方和或残差平方和SSE=13315.979,相应的自由度分别为25,2,23;组间均方差MSR=3034.087,组内均方差578.956,F=5.241,由于p=0.013<0.05,说明在α=0.05显著性水平下,F检验是显著的,即认为各个地区的电视机销量并不完全相同。

表9.9 单因素方差分析结果

图示

如前所述,拒绝单因素方差分析原假设并不能得出各地区电视机销量均值完全不等的结论。各地区销量均值的两两比较要看表9.10所示的多重比较检验结果。表中上半部分为LSD检验结果,下半部分为Tamhane检验结果。由于方差满足齐性,所以这里应该看LSD检验结果。表中的Mean difference列给出了不同地区电视机销量的平均值之差。其中后面带“*”号的表示销量有显著差异,没有带“*”号的表示没有显著差异。可以看出,东部和西部电视机销量存在显著差异,而中部与东部、中部与西部电视机销量并没有什么显著差异。这一结论也可以从表中Sig列给出的p值大小得到验证。

表9.10 多重比较检验结果

图示

* The mean difference is significant at the.05 level.