效应大小的概念

2026年01月16日

版权

效应大小的概念

我们用“效应大小”（effect size）的概念表明教育实践的特定变化对个体影响的大小。因此我们可以通过这个概念预测这种变化可能产生的预期结果。

为了介绍这种思想，让我们先来看一下由伯哈瑞地·巴夫佳（Bharati Baveja）博士领导的研究小组在印度新德里西北50千米的默提拉诺赫瑞运动学校所做的一个研究。巴夫佳博士进行了一项归纳法（见第3章）与密集型教学训练法在学习一个生物单元中作用的比较性研究。学习开始以前，对所有学生进行了一次测验，以确认他们的原有知识水平，并根据他们的水平平均将其分为两个小组。控制组的学生在教师指导下通过教学学习材料——这是印度学校中学习这一类课程的标准训练方法。实验组的学生一对一对地学习，通过归纳和概念获得练习掌握植物分类的知识。

图21-1表明了两个组的学生在后测中的分数分布情况，测验内容与前测一样都是与本单元有关的信息。

实验组和控制组之间的差异略大于标准差。根据标准差计算，它们的差异表现在推理训练的效应大小。实验组平均分所在的位置是控制组的第80百分位。当十个月以后进行延迟回忆测验时，两组之间的差异提高了。这表明运用概念导向策略方法获得的信息要比通过控制训练法获取的知识保持得好。

上面这样的统计使我们可以对这些改革（在教学技巧、方法、课程和技术方面）在学生学习方面的潜在影响的大小进行比较。我们还可以总结这些方法是对所有类型的学生都有程度不同的影响，还是仅仅对一部分类型的学生有影响。在上述的研究中，非常明显的事实是实验方法对所有人都有作用。实验组的最低分数是控制组的第30百分位，而有30%的实验组学生得分超过了控制组的最高分数。

图21-1　一个生物学单元后测中两组学生的成绩分布图

尽管上述的表现在学习和对知识保持方面的收获是很大的，但从另一个我们对学生辨别植物和它们特性的能力的测验结果角度来看，前面的收获就显得微不足道。在后一测验中，实验组的分数要比控制组的分数高8倍。巴夫佳的探究证实了她的假设：用归纳模式学习的学生比讲授法训练出来的学生能够更为有效地运用从这一单元中获取的知识和概念。

对效应大小的进一步探究

先让我们搞清楚几个有助于说明分数分布的概念以加深我们的理解。我们用集中趋势、差异数和离中趋势说明分值的发布。集中趋势是指在分数分布中大量数据向某一点集中的趋势。描述集中趋势的统计量称为集中量数。集中量数包括平均数或算术平均数——它是由所有数据之和除以数据所得，还有中数或中位数（一半数据高于中数而另一半数据低于中数）和众数，即次数分布中出现最多的那个数的数值（图上分布的最高点）。在图21-2中，中数、平均数和众数处于同样的位置上，这是因为分数的分布完全对称。

离中趋势是指次数分布中数据彼此差异的程度，描述离中趋势的统计量称为差异量数，它包括两极差（一组分数的最大值和最小值之差），等级（通常用百分位数来表示，即在100个人的分布中，第20名就是第80百分位数，因为20%的分数在它之上，而80%的分数在它之下），标准差（通常表示一组分数的离散程度）。在图21-3中，范围是从70（最低分）到150（最高分）。第50百分位数在正中间（在这个图中，正好与平均数、众数和中数相重合）。标准差是用标有+1SD、+2SD等垂直线来加以标志的。高于平均数一个标准差的百分位数是84（指84%的分数都低于这一点）；高于平均数两个标准差的百分位数是97；高于平均数三个标准差的百分位数是99。

在图21-2中，平均数、中数、众数重合在一起，同时分数的分布也像图中描述的那样对称，这就是常态分布。尽管许多现实中的分布实际上并不对称，但这个概念在数据操作中也是很有用的。为了解释效应大小，在搞清它在不同分布形态中的作用之前，我们会用到常态分布的概念。

图21-2　常态分布样本图

图21-3　标准差常态分布样本图

这里我们把表1-1中的团体调查结果的数据转换成图21-4。此图中，将社会经济地位低的学生在混合编班的团体调查（合作学习训练）和分类编班两种情况下的后测成绩进行了比较。在团体调查训练下的平均数相等于分类编班情况下的第92百分位数。效应大小是由两组的平均数之差除以控制组的标准差得来的。

ES（效应大小）=（实验组平均数-控制组平均数）/控制组的标准差

在这个例子里，ES=（50.17-27.23）/13.73=1.6

如果将教师用一种教学模式教学与用标准课程和指导方式进行的教学相比，那么像本书提供的这样数据会给教师提供一个相对的预期效果。我们会从对现在可行的研究分析中得出每一个数据，然后在此基础上获得能够代表大量研究成果的平均效果数据。(https://www.daowen.com)

当根据研究结果决定什么时候使用一个特定的教学模式时，非常重要的是要认识到效应大小并不是我们唯一要考虑的因素。我们还要考虑目标的性质和模式的使用。例如在前面提到的斯波尔丁的研究中，能力测量的效应大小只有0.5，或大约半个标准差（见图21-5）。

图21-4　效应大小

图21-5　能力测量的效应大小

然而，能力是一种强有力的属性。一个可以提高能力的模式或模式组合可以影响未来几年学生各个方面的发展，同样也可以促进学习的提高。最简单的合作学习过程有相对适中的效应大小，影响学习者的自我情感、社会技能、学业学习，另外它还应容易操作并有广泛的应用范围。因而，和那些对某个既定目标有显著影响的模式相比，我们能感受到它的更有规律、更广泛的适中影响。

一些模式还可以帮助我们消除成绩分布中的离散程度。例如，我们的一位同事用记忆法教四年级学生学习州名以及该州首府的名称。所有的学生在一年中都学会并记住了它们。因而在一次让学生在一张空白地图上填上地名的测验时，学生的分数之间根本没有差距。平均分可能就是最高分。因为学生的分数都集中在顶点（最高），所以也就没有所谓的百分位数的次序。事实上，对于一些学习内容——像美国宪法的基础知识，计算技能，基本的阅读词汇量等——来说，我们可以期待所有学生都获得成功，因为几乎没有什么东西对他们或他所处的社会不利。

尽管高效应大小很具吸引力，但当我们进行选择时，效应大小并不是唯一要考虑的因素。能够对很多人产生影响的一般水平的效应大小会对人类产生很大回报。我们可以用医药来做一个比较：假设有一种可怕的传染病正在蔓延。我们也有防治这种疾病的疫苗，但这种疫苗只能减少10%的人口感染该病的机会。也就是说，假如不用这种疫苗，可能有100万人感染，而使用了疫苗则变成了900000人感染。那么，这种疫苗的效应大小可能会拯救10万人的生命。一些教育调查评估结果显示：每年都有将近100万名（大约30%）的儿童在他们学校生活的第一年中，阅读学习方面几乎没有进步。我们也知道，在阅读能力教学方面的不成功实际上是教育的一种严重失败。因为在学习第一年的不成功，会大大降低学生对以后学习的积极性。能否有一种适度效应大小的方法能够将这种失败的比例降低5%，也就是提高50000个学生的成绩呢？我们认为是有的。当然，这样的方法也是可以累积的。我们更喜欢高效的方法，但这样的方法也不总是有效的。就是有这种方法，它也不一定对每一个学生都适用。因而，对这些学生我们可以选择一个低效的方法。幸运的是，在读写能力的培养方面，确实有能够适用于所有学生的课程和教授方式（请主要参看第19章和第20章）。我认为要选择那些相对低效但能照顾到全体学生的方法。

同时，我们也需要考虑有效性的不同类型。态度、价值、概念、智力发展、技巧、信息，它们仅是其中的一部分。由上面早期阅读的范例中可以看出，在短期内，两种方法可能对学生的阅读效果相似，但是一种方法可以对学生的态度产生深刻影响，并使他们充满信心。两种关于社会研究的教学方法可使学生获得相似数量的知识和概念，但其中的一种可能在培养学生公民态度方面更胜一筹。最让人感到吃惊的是，当效应大小达到5或6个标准差时，实验组中学生的最低分数也要超过控制组中学生的最高分数。当然，这种情况很少见。但它确实出现了，这使我们看到了教育的巨大潜力。

再重复一遍，我们不能仅仅将目光集中在上述研究及它可能产生的巨大效应。那些比标准指导有效不了多少的自我指导方法也很有用，因为它们能使学生自己教自己，并能与教师教授的方法结合起来。广播电视与标准的教学指导相比，尽管效应大小有限，但由于它可以用于众多的学生，因此仍然具有很大的意义。“芝麻街”和“电力公司”节目就是很好的例子。它们与不使用它们的教学相比并没有产生戏剧性的高有效性，但通过它们能促进学生积极态度的形成，并使一部分学生在一定程度上能够学会自学。事实上，远程教育和多媒体教学（电视教学、计算机辅助教学，多媒体材料包等）效应大小并不高但非常有用。例如，在一所不开设某门外语课的中学，学生可以通过电视、电脑程序辅助等方法进行自学，使学生受益匪浅。实行远程教育的英国开放性大学，将英国大学毕业生的数量翻了一番，并且与常规学校的学生相比，这个学校学生的考试成绩非常令人满意。

一些方法可以与其他方法产生相互影响。一对一教学方法的效应大小很大，它能与其他的教学策略一起使用，产生相互作用。另如，“让所有人成功”和“阅读中的发现”能够与一个课程控制系统结合并在短期内产生效益。另一方面，“跟踪式教学”则影响了一些方法的效果。

对一年教学效果效应大小的研究并不是一件多么困难的事情。我们可以从国家写作发展评估委员会提供的资料中了解到：全国写作教学方面的效应大小表现为：初二年级学生的平均数大约是四年级学生成绩分布图中的第62个百分位数！许多学校都想学习如何才能比这做得更好！

有多种测量学习的方法。学校的分数当然很重要，它就像测量其他物体的标准一样。事实上，教师发展研究项目想研究这样的标准，还想研究像学生读了多少本书这样的简单测量标准。在研究写作质量时，对学生作品进行内容分析也是非常重要的。与课程相关的测试（对一个单元或一堂课的测试）也同等重要。最后，能够进行效应大小评估的分析要取代传统的标准化测验。

个案2

当凯瑟学校的教职工发现效应大小这一概念之后，他们就能够通过这种方法把自己努力的结果与他人的结果进行比较来计算自己工作的有效性。他们研究了1987年由乔治·希罗可思所做的写作研究报告，发现与以教材为中心的授课方式相比，自己所做的这种探究式的写作教学方法的平均效应大小是0.67。这种教学方法的学生成绩是以教材为中心方法的学生成绩分布中的第70百分位。教师对每一年级的效应大小都进行了认真的计算。譬如说，六年级取得了平均90分的成绩，与前年（采用控制方法教学）平均20分的成绩相比，有70分的差别。那一年的标准差是55。用55除70，其效应大小是1.27，这几乎是希罗可思报告中平均数的两倍。在采用归纳模式的第一年，学生的平均成绩大约是采用控制方法教学同年成绩分布的第90个百分位。图21-6描绘了这两种分布情况。

正如上面所提到的那样，凯瑟学校的教师都是探究者。他们选择一种教学模式，学着去应用它，并且对它给予学生的有效性进行探究。这种探究将会引导他们继续探索更好利用这种模式的方法和其他有益于学生发展的模式。他们是典型的“教师研究者”。

我们强调教学艺术，并不是说有一种特定课程或授课模式可以解决所有学生学习的问题。教育研究仅仅处于起步水平。我们希望本书的读者不仅仅把这本书当做是一种教学策略的来源，而是要不断去丰富它。仅在美国，就有两百万个教师。如果其中1%的人能每年进行一次研究并写出报告，那么每年将有两万项新的研究报告问世，增加的量将会是现有教学模式和方法的好几倍。除此之外，任何学校的教师都可以通过对自己教学的研究而使所有教师分享自己的研究成果，进而帮助所有教师更有效地从事教学活动。

图21-6　采用归纳思维教学方法前后学生写作质量得分比较图