显著性检验的谬误与尝试性解决方案——“SPSS与高级统计”课程中的一个重要问题

显著性检验的谬误与尝试性解决方案——“SPSS与高级统计”课程中的一个重要问题

谢 天

(武汉大学哲学学院)

一、引 言

“SPSS与高级统计”这门课程是心理系本科生的专业必修课。顾名思义,这门课程的内容既包括实践性的SPSS软件的使用,也包括高级统计知识的理解和掌握。在课程基础上,这门课程是对另一门专业必修课“心理统计”在实践上的操作和理论上的深化。

笔者从事这门课程的教学工作已经有两年多时间,教过的学生也已经有三届之多。对于SPSS软件部分的教学,笔者发展出了“边学边练、学练结合、以练促学”的方式提高学生的实际操作水平,目前已经取得了较好的效果[1]。在高级统计的教学过程中,笔者发现的一个普遍问题是学生对心理统计的基础理论——显著性检验的原理,还存在认识上的不足。因此,笔者在此专门撰文探讨显著性检验存在的问题,并结合笔者多年的文献积累和研究实践提出尝试性解决办法,以期引起学生重视,并提出一个粗糙的思考框架供大家参考。

二、显著性检验存在的问题

(一)显著性检验的逻辑难题

1.显著性检验的逻辑推理。

显著性检验的推理逻辑如下:

如果零假设为真,那么某事件是极不可能出现的;

然而,该事件出现了;

因此,零假设极不可能出现(H0出现概率<0.05,H0被推翻,H1被证实)

上述逻辑初看没有什么问题,但如果仿照显著性检验的逻辑举一个例子,则显著性检验的错误尽显。

例1:如果“某人是地球人”为真,那么“他是心理学家”这个事件就极不可能出现;

然而,此人是心理学家;

因此,他就极不可能是地球人[1]

例1极类似于显著性检验中的推理逻辑。两相比较,不难发现显著性检验的推理逻辑是可能存在问题的。

2.研究者想知道的与显著性检验告诉研究者的——为什么p(H0|D)≠ p(D|H0)?

在显著性检验中,研究者想知道的是:对于给定的某事件,H0为真的概率是多少?但显著性检验告诉研究者的却是:如果H0为真,这些给定(或更极端的)事件的概率是多少?

例2:已知成年人中精神分裂症占2%,而测验对精神分裂症的敏感性(即当某人确实患有精神分裂症时,测验检测报告其为精神分裂症的比率)≥95%,且确定正常人(即某人正常时,测验检测报告其为正常的比率)时有97%的正确性。那么,如果有人被测验诊断为精神分裂症,则此人真的患精神分裂症(或者正常)的概率有多大?[2]

通常,研究者会做以下的显著性检验:

H0:此人正常;H1:此人精神分裂;D:此人被检测为精神分裂症。

现在,事件(D)出现,即此人被检测为精神分裂症。根据题目条件,p (正常|H0)≈0.97,因此假设H0为真,此人被错误判定为患精神分裂症p (症状|H0)的可能性仅为0.03(<0.05)左右,可以推翻H0

然而这样做是错误的。显著性检验提供给研究者的并不是研究者想知道的p(H0|D),即当某人被检测为精神分裂症时,此人正常的概率;而是p(D|H0),即当某人正常时,被检测为患精神分裂症的概率。二者貌似,实则不同。据贝叶斯定理,上例计算得p(H0|D)=0.607,即当被检测为精神分裂时,此人正常的概率为60.7%,这说明,p(D|H0)≠p(H0|D)。

产生这一认知偏差的原因在于研究者忽略了一个重要的内容:先验概率,即精神分裂症在成年人中是极为少见的(如题所述,仅为2%)。虽然没必要每次检验都用贝叶斯推理(先验概率并不是每次都知道的),但这揭示出不考虑先验概率的显著性检验可能导致的错误。

(二)显著性检验结果理解中的问题

1.接受还是拒绝显著性检验的结果,仅凭一个p值?!

通常情况下,进行显著性检验时,先设定α水平(通常是0.05),如果p值小于该值,就拒绝H0,从而做出推翻H0的结论。

这种“接受—拒绝”的机械二分法却不是显著性检验的奠基者们所提倡的。著名的统计学家R.A.Fisher将p值视为测量虚无假设证据强度的指标。他赞成将p<0.05(0.05为显著性水平)视为“有拒绝虚无假设证据”的标准水平,却不赞成将其当作一个绝对的准则(图1)。

图1 将p值视为连续变量的理解[3]

“如果p值在0.1和0.9之间,那么肯定没有理由怀疑虚无假设。如果p值小于0.002,则强烈表明虚无假设不能对所有事实做出满意的解释。因此当我们将标准习惯性地划在0.05时,我们不应该迷失方向……”[4]

更重要的是,Fisher坚持认为,对p值的理解最终应取决于研究者本身。例如,当p值在0.05左右时,研究者可能既不接受H0,也不拒绝H0,而是再做一次试验。或许,说得严重一些,研究者运用不是接受就是拒绝的机械二分法是一种对自身责任的推卸。

2.显著就一定有效吗?

在进行显著性检验时,如果一个研究报告其结果“显著”,p值常被视为效果大小的指标。例如,0.05可能被理解为“显著有效”,而0.001则被视为“效果非常显著”。然而,“统计显著”与“效果显著”是两个不同的概念。“统计显著”仅能做出效果不是0的结论。“效果显著”指效果的大小,也就是效果是不是达到了研究者设定的标准。二者并没有一一对应的关系。

实际上,一个大样本能够产生p=0.001,但同时只有较小的效果;而一个小样本虽然p值只有0.05,但效果可能相当显著。同理,当某研究做出的结果是p>0.05时,虽然通常认为“不显著”,但并不能认为就一定没有效果——可能是样本量太小的缘故。因此,显著不一定有效;有效也不一定显著。“统计显著”与“效果显著”没有必然的联系。

(三)显著性检验运用中的偏差

1.更多”、“更快”、“更好”就一定用单侧检验吗?——“标识性”词语的神话。

在运用显著性检验时,有时研究者仅凭问题中的“更多”、“更快”、“更好”这类“标识性”词语就用单侧(而不是双侧)检验,这是显著性检验运用中的偏差之一。本文将这种广为出现的错误称为“标识性”词语的神话。

众所周知,单双侧检验应该由所研究问题的实质决定。除非在检验前对差异的方向有把握(由前人研究的数据或相关理论决定),否则不能简单地根据问题中是否有“更……”一类的“标识性”词语决定是否用单侧检验。单纯地将“双侧”改为“单侧”将会人为地增大“差异显著”的比率(α增加)。

然而仅仅是研究问题的实质加上前人研究的数据与理论,就能决定是用单侧检验还是用双侧检验吗?

Cohen曾举过一个例子对这个问题进行说明:

例3:某生产线正在应用程序A,现在想用程序B代替它(替换需要成本,但如果B比A有明显的优势,则值得)。测试无非会出现三种结果:①A更好,②一样好,③B更好。[5]

Cohen认为,这种情形是使用单侧检验的前提——检测出①与②两种结果对研究者的实际意义是相同的。因为只有这样H01≥μ2中的“=”和“>”两种情况才能并存,才有意义。

2.被冷落的Ⅱ型错误。

被冷落的Ⅱ型错误是指过分地强调Ⅰ型错误发生的概率,而忽视Ⅱ型错误发生的概率和检验能力。

实际上,对于通常的参数检验,H0对应的参数是一个常数,而H1对应的参数是一个集合,因而很难计算Ⅱ型错误。所以在实际操作中,研究者通常将代表Ⅰ型错误的α设为0.05,而将代表Ⅱ型错误的β默认为0.20,或者直接忽略不计[6]。这意味着Ⅰ型错误的重要性是Ⅱ型错误的4倍。

但这种“默认”或忽略是完全没有道理的。当H0错误时,此时能发生的错误就只有β错误(见表1);另外,有时虽然H0没有错误,但β比α重要得多,这时就要减小β。

表1 显著性检验的各种可能结果

例4:某药物机构想要研究某种治疗抑郁的药物A是否有副作用。

依题,H0:无副作用;H1:有副作用。在这种情况下,漏报副作用比虚报副作用的危害可要大得多。因此,在此研究中,应该设β=0.01,α= 0.20。

而有时,两者可能都很重要。

例5:某药物机构想要研制某种治疗抑郁的药物B是否有足够大的临床意义能够推向市场。因为经药效分析发现,如果药效过小,不起作用;而药效过大,则有使人产生晕厥的副作用。

依题,由于药效过小就会不起作用,因此减少虚报率就显得很重要(即α很重要);而由于药效过大会产生副作用,所以减少漏报率也很重要(即β很重要)。此时,就应将α与β都控制得比较小(如α=0.01;β= 0.01)。而α与β又不能同时减小,因此就要在研究之前进行统计检验力分析,以比较大的样本量为代价换取较小的α与β的值。

总之,β是不容忽视的。特别是在检验有“副作用”存在的问题时(如例4),β需要设定得较小(这时α可能不需要设定得较小);而当“正作用”与“副作用”都很重要时(如例5),α与β就必须同时设定得比较小(当然样本量也必须相应地增大)。

三、尝试性解决方案

如上所述,显著性检验存在上述三方面的问题,然而现在统计界又没有可以将其完全替代的其他方法。就此,笔者试根据前人对有关这一问题的见解及自己的实践经验,整合性地提出尝试性解决方案。

(一)统计检验力分析

国外许多研究者提出在实验之前进行统计检验力分析。统计检验力分析的原理是,在任一统计检验中,下述四者:①效果量;②样本量;③显著性水平(α);④统计检验力组成一个封闭的系统,如果其中三个已知,就可以确定剩下的一个[7]

统计检验力分析目的是在研究之前综合考虑研究目的与研究者所能利用的资源(如能找到的被试量),从而在上述四个因素中找到一个平衡。比如,研究者可以利用统计检验力分析,首先确定自己要找的效果量的大小,然后设定α与β的值,从而算出合理的样本量;或者先确定自己能够找到,并且研究经费所允许的最大的被试数量,然后再设定效果量、α和β。

例6:在给定效果量为中等水平(30%~50%),统计检验力为0.80 (β=0.20)的情况下,当α=0.10时,n=74;当α=0.05时,n=93;当α=0.01时,n=139。[8]

因此,即使给定效果量与β不变,α从0.10增大到0.01都需要增加相当多数量的被试(从74到139,几乎是两倍)。同理,研究者也可以再将β从0.20减小到0.01(正如例5中那样做的),计算出新的被试量大小。统计检验力分析的作用可见一斑,如例5,当“正作用”与“副作用”都很大的情况下就要“不惜血本”增加被试量,而被试量可以通过研究前的统计检验力分析计算得出。不过需要注意的是,通过增加被试量来提高统计检验力的方法并非万灵药。当要研究的因素较多时,所需的样本量会大到让研究者难以承受,最终导致研究无法进行。[9]

(二)效果量与置信区间

国外很多研究者提出应该在报告结果时给出效果量与置信区间。[10]美国心理学会1994年发出通知,要求公开发表的研究报告统计显著后,一定要计算效果量。[11]我国学者权朝鲁曾对效果量的意义与计算方法作了比较详细的说明[8],本文不再赘述,重点考察置信区间及其应用。

置信区间由来已久,且越来越受重视。特别是近几年,有研究者还针对置信区间判断的主观性提出了有针对性的解决办法,使置信区间的应用与呈现更客观、方便。[12]将置信区间与效果量一并报告的优势是不仅能让读者知道“效果”究竟有多大,而且还能给出作此判断的精度或把握。下面,举例说明效果量与置信区间的联合报告效果是怎样超越简单的显著性检验报告结果——p值的。

例7:假设有一项研究,旨在监测某一治疗抑郁症的药物X是否有效。将患有中度抑郁的被试者随机分成每组700人的甲、乙两组,甲组为实验组,组中患者服用药物X;乙组为控制组,组中患者服用外表与X相同但无任何药效的安慰剂。一周之后,让被试者以七点量表评价自己的抑郁水平。①正常;④中度抑郁;⑦极度抑郁,依此类推。并规定③以下为“有效”。现假定乙组有30%的反应率(即B组有30%的患者选择③或③以下)。图2描述了6种可能的研究结果(A~F)。每个横的长方形条的中值代表平均数,长度代表置信区间。[13]

研究A:零差异(-30%~30%)。既不能排除效果为零的可能性,也不能排除效果能够大到产生临床效果的可能性。

图2 6种可能的研究结果

研究B:零差异(-4%~4%)。不能排除效果为零的可能性。并且可以有较大把握确定的是,即使有效果,效果也非常小。

研究C:5%的差异(-25%~35%)。样本中的效果量(即研究者对总体效果量的最佳估计)是5%。既不能排除没有效果的可能性,也不能排除效果非常强的可能性。

研究D:5%的差异(1%~9%)。可能没有效果,并且可以有较大把握确定的是,效果并没有重要的临床意义(最多也只有9%)。

研究E:40%的差异(10%~63%)。效果可能不为零。效果可能很小也可能很大(区间是不对称的)。

研究F:40%的差异(36%~44%)。X药物的药效非常强。效果的可能区间都在药效“很强”的范围内。

从表2可以清楚地看到统计显著与效果显著的不同:如果用传统的显著性检验,A、B、C归为一类(不显著),D、E、F归为另一类(显著);而如果同时考虑效果量及相应的置信区间,那么B、D归为一类(不显著),A、C、E归为一类(可能显著),F归为第三类(显著)。

表2 统计显著与效果显著的区别

需要指出的是,对于统计检验力分析、效果量与置信区间的认识,统计界已经达成共识,但是在心理学界,特别是国内的心理学界,还没有这样的认识,至少没有在研究报告中得以体现。另外,由于实际研究中统计检验力通常难以分析,因此目前来看,研究者在结果部分报告效果量与置信区间还是比较可行的。

四、结 语

对显著性检验的深入认识,是“SPSS与高级统计”课程对学生提出的一个较高的要求。从本文的分析及所举例子可以看出,显著性检验并非完美无缺,因此有学者曾主张将该方法弃之不用。[14]然而笔者认为,显著性检验虽然并非完美,但主要的错误的产生都是因为研究者的理解与应用存在问题。因此,一方面研究者应自觉地应用某些措施,如在研究前进行统计检验力分析,在研究后报告置信区间与效果量等;另一方面,国内学术刊物也有责任制定相应的规则,应紧随国际潮流,对研究结果的报告重新划定规则。比如,去年《心理学报》出台新规定,要求所有以同种方法进行研究的论文必须报告共同方法偏差检验的结果。这实际上体现出国内期刊在方法论上的跟进,笔者期待更多的国内期刊也能提出更多类似的方法论上的要求。[15]

在临床医学领域,国内已经有研究者开始对他们应用的统计学方法与思想进行反思[16]然而这种反思在国内心理学界还很少。特别是心理统计的初学者,更是常常把统计方法简单地看作是按照某种流程或“菜谱”的操作,或是按照固定步骤在SPSS软件上进行鼠标点击。笔者认为,要对方法保持清醒的头脑与认识,不能将研究者的责任推到按照“惯例”应用了“××方法”上。方法本身永远也不可能达到完美,更不可能借助方法就可以达到真理。方法的利弊取舍应取决于方法的使用者。因此,这里特别提醒学习心理统计理论和实践的学生们,莫把统计看做简单的操作,重要的是理解它们的原理,并逐步培养出对数据的“感觉”。

◎参考文献

[1]Pollard,P.&Richardson,J.T.E..On the probability of making Type Ierrors.Psychological Bulletin,1987,102(1),pp.159-163.

[2]Cohen,J.The earth is round(p<.05).American Psychologist,1994,49(12),pp.997-1002.

[3]转引自:Sterne,J.A.C.&Smith,G.D.Shifting the evidence: What's wrong with significance tests?Physical Therapy,2001 81(8),pp.1464-1469.

[4]Fisher,R.A.Statisticalmethods for research workers..London:Olive and Boyd Press,1950,p.80.

[5]Anonym.What is power analysis:Power analysis.转自http://power-analysis.com/significance_test.htm,2012-04-28.

[6]Anderson,N.H.Empirical Direction in Design and Analysis.London: Lawrence Erlbaum Associates,2001,p.106.

[7]Murphy,K.R.,Myors,B.&Wolach,A.H.Statistical power analysis:A simple and generalmodel for traditional and modern hypothesis tests (3rd ed.).New York:Psychology Press,2009.

[8]权朝鲁:《效果量的意义及测定方法》,《心理学探新》2003年第23期第2卷,第39~44页。

[9]陈本友、黄希庭:《从元分析看传统心理统计的局限性》,《心理学探新》2005年第25期第2卷,第61~64页。

[10]Borenstein,M.Hypothesis testing and effect size estimation in clinical trials.Annals of Allergy,Asthma,and Immunology,1997,78(1),pp.5-11.

[11]Heiman,G.W.Basic Statistics for the Behavioral Sciences(3rd ed.).Boston:Houghton Mifflin Company,2000,pp.331-332.

[12]Cumming G&Finch,S.Inference by eye.Confidence intervals and how to read pictures of data,2005,60(2),pp.170-180.

[13]本例源自Cumming G&Finch,S.Inference by eye.Confidence intervals and how to read pictures of data,2005,60(2),pp.170-180.略有删改。

[14]Sterne,J.A.C&Smith,G.D.Shifting the evidence:What'swrong with significance tests?Physical Therapy,2001,81(8),pp.1464-1469.

[15]《心理学报》编委会:《共同方法偏差检验——行为研究需要解决的问题》,转自:http://journal.psych.ac.cn/xuebao/cn/infomation.asp? id=24.2012-04-28.

[16]胡良平:《临床科研工作者呼唤正确的统计学思想》,《基础医学与临床》2007年第27期第2卷,第228~231页。

【注释】

[1]关于如何结合课堂教授与学生练习来提高SPSS软件学习的能力,笔者再作文章专门说明。