12.1 引言

12.1 引言

许多领域的研究者,包括文献计量学家,往往关注研究结果的统计意义。然而,对研究结果实际意义的关注却很少。Chuck Huber(2013)举例说明了经典方法中可能出现的误区:如果我告诉你,我研究了一种新的减肥药,试验结果是减肥药组和安慰剂组各自平均减肥量的差值有统计学意义,你会买它吗?如果你是个胖子,你可能会说:“当然买了!”现在我要强调的是,一年内,两组平均减肥量的差值是1磅,你还感兴趣吗?我的研究结果可能有统计学意义,但是没有实际意义。或者,两组减肥量的差值没有统计学意义,p值仅为0.06,但是一年内两组平均减肥量的差值是20磅,你对这药可能就很感兴趣了。效应量告诉我们的是实际意义,而p值无法判断实际意义。

美国心理协会(APA)(2010)近来呼吁研究者要格外重视研究结果的实际意义。Geoff Cumming(2012)在他的《理解新的统计学:效应量、可信区间和Meta分析》一书里讨论了这一问题。有关他所描述的方法的需求是很明确的:尽管只考虑统计学意义的方法有严重缺陷,Tressoldi、Giofre、Sella和Cumming(2013)发现没有使用可信区间、效应量、期望效能和模型评估等概念的零假设显著性检验在《自然》杂志上发表的论文中占统治地位,为89%;紧接着是《科学》杂志,比例为42%,相比之下,其他杂志(《新英国医学》《柳叶刀》《神经心理学》《实验应用心理学》《美国公共卫生》)不论影响因子高低,大多数文献都报告了可信区间或效应量。在文献计量学中,推荐人们使用显著性检验之外的方法(Bornmann,Leydesdorff,2013;Schneider,2012)。

本章我们评述Cumming(2012)所强调的一些重要方法,并说明这些方法是如何有助于做出有意义的百分位数分析的。通过某一文献的百分位数能够看出同一发表年同一学科中,与其他相似文献相比该文献的引文影响力有多大。Cumming阐述了什么是效应量、什么是可信区间。本章将进一步说明如何评价个体机构的百分位数与其他预期值之间及相互之间的不同之处,以及如何比较机构之间高被引论文(例如前10%的高被引论文)的比例。全文不仅要论证统计显著性效应是否存在,同时也要论证效应量是否足够大到具有实际意义。

我们先讨论下文献计量学家在研究中喜欢使用的几类统计指标。我们尤其认为全部论文的百分位数排名以及10%高被引论文的比例值得特别注意。