数据统计、反馈与分数使用

第九章 数据统计、反馈与分数使用

语言教师对数据统计多有焦虑感,甚或惧怕感(Brown,2013),但是事实上,语言教师如果能够运用基础的数据统计,可以大大帮助他们开发和设计出更加科学的题目,并为学生提供更加准确的反馈信息。对经典测试理论(Classical Test Theory,CTT)的理解也可以帮助教师更加科学地看待语言评价所获得的数据。笔者认为,一线语言教师无需了解更加复杂的数据统计,如项目反应理论中的Rasch模型,但是需要较为熟练地掌握经典测试理论中的主要方法。Brown(2012)认为,这些主要方法包括题项分析(含题目难度、区分度、干扰项分析)、信度估计、测量标准误等,还包括对学生评价数据的整体描述性统计。读者也可参阅Green(2013)研修相应的计算方法和解读方法。

Hattie和Timperley(2007)认为反馈对于学生的学习来说是最强有力的影响因素,这种影响可好可坏,取决于反馈的类型和反馈的方式。此外,反馈的时机、积极反馈和消极反馈对学习也产生重要的影响。

alt参考点十五 能正确统计和解读评价获得的数据,用于教学决策,并提供及时恰当的反馈,特别是描述性反馈。

9.1 “数据统计、反馈与分数使用”条目呈现

☑ 能理解每个题目和试题整卷的难度。

☑ 能计算每个题目和试题整卷的难度。

☑ 能理解题目的区分度。

☑ 能计算题目的区分度。

☑ 能根据难度和区分度信息对试题的质量做出判断,必要时做一些修改。

☑ 能运用平均数、中数、众数来描述成绩的集中趋势。

☑ 能运用全距、最高分、最低分、标准差和方差来描述成绩的离散程度,即学生个体表现与集中趋势之间的差别。

☑ 能根据不同的情况计算信度。

☑ 能运用测量标准误(Standard Error of Measurement,SEM)来解读学生的成绩。

☑ 能理解成绩汇报中百分位的意义。

☑ 能理解z分数和T分数的含义。

☑ 知道反馈的不同类别。

☑ 知道有效的形成性反馈有哪些特点。

☑ 能认识到有效的反馈是个性化的,对一个学生有用的反馈对另外一个学生可能不起作用。

9.2 “数据统计、反馈与分数使用”部分条目解读

alt

❑ 能理解每个题目和试题整卷的难度。

❑ 能计算每个题目和试题整卷的难度。

❑ 能理解题目的区分度。

❑ 能计算题目的区分度。

表9.1 经典测试理论的难度与区分度


题目的难度(Item Facility,IF)等于答对的考生人数除以考生总人数。因此难度数值越大,题目的难度越低,反之,难度的数值越小,题目的难度越大。如果一道题的难度为0.95,说明这道题对于本组被试来说非常简单,95%的考生都答对了。

题目的区分度(Item Discrimination,ID)的计算需要根据总分将所有的考生从高到低进行排序,然后分别计算排名约前33%的高分组的试题难度(IFupper)和排名约后33%的低分组的试题难度(IFlower),ID等于IFupper-IFlower。试题整卷的难度也就是所有的题目难度的均值。

应该指出,试题和题目的难度和区分度受考生群体的影响很大。这也是经典测试理论的局限性。


alt

❑ 能根据难度和区分度信息对试题的质量做出判断,必要时做一些修改。

表9.2q解读不同难度题目的区分度

alt

(改编自Plakans & Gebril,2015:72)


alt

❑ 能运用全距、最高分、最低分、标准差和方差来描述成绩的离散程度,即学生个体表现与集中趋势之间的差别。

表9.3q标准差的计算方法


标准差的计算方法如下:

alt

其中X是每个考生的分数,M是均值,∑是总和,N是考生人数。


alt

❑ 能根据不同的情况计算信度。

表9.4q信度统计的方法

alt

alt

(改编自Miller, Linn & Gronlund,2009:110)


内部一致性信度由于其对施测条件的要求相对较低,即无需进行多次测试,因此为实践者所经常使用。教师对此类信度的计算方法有必要了解。笔者在此介绍折半信度、Cronbach α和运用Kuder-Richardson公式(KR-20、KR-21)计算信度的方法。


(1)折半信度

需要分别对试题中的奇数题和偶数题进行打分(也可以具体考查试题内容将试题分为相等的两部分分别打分),计算两组分数的Pearson相关系数,校正后的Spearman-Brown Prophecy公式为rxx'=(n)r/(n-1)r+1,其中rxx'为全卷信度,r为对半试卷之间的相关度,n为试题长度需要被加长的倍数。例如一项测试奇数题和偶数题的相关度为0.6,那么rxx'=2×0.6/(2-1)×0.6+1=1.2/1.6=0.75。校正后的整卷信度为0.75。


(2)Cronbach α

最简单的方面就是运用SPSS计算。首先将试题中的每个题目的得分录入SPSS,点击“分析”,选择“度量”,选择“可靠性分析”,将所有试题的得分导入到“项目”中,点击确定即可获得Cronbach α系数。


(3)运用Kuder-Richardson公式(KR-20、KR-21)

KR-21计算方式要比KR-20计算方式简单,但是KR-20对信度的估计更加准确。

KR-21公式为:KR-21=(k/k-1)×{1-[M(k-M)/kS2]}。其中k为题目数量,M为平均分,S为分数的标准差。如果一项测试有30个题目,平均分为17.3,标准差为4.97,那么KR-21=(30/29)×{1-[17.3(30-17.3)/30×4.972]}=1.0345×[1-(219.71/741.03)]= 1.0345×0.7035=0.7278。

KR-20公式为:alt,其中k为题目数量,alt为题目方差,alt为试题分数方差。alt的计算方法为首先计算每个题目的难度,再计算每个题目的1-难度,两个数值相乘即获得题目方差,∑即将每个题目的题目方差相加。alt的计算方法为试题分数标准差的平方。


alt

❑ 能运用测量标准误(Standard Error of Measurement,SEM)来解读学生的成绩。

表9.5 测量标准误


测量标准误的计算方法:

alt

其中S为试题分数的标准差,rxx'为信度。

如果一项测试的标准误为5,一个学生的成绩为80,那么我们可以推断他如果多次参加此项测试,有68%的可能成绩会在加减一个标准误之间,也就是有68%的可能在75到85之间,有95%的可能会在加减两个标准误之间,即有95%的可能会在70到90之间。


alt

❑ 能理解成绩汇报中百分位的意义。

表9.6 百分位的意义


百分位(percentile)显示的是一个特定的学生的成绩与群体成绩之间的关系。一个学生的百分位分数是84就代表他的成绩大于等于84%的学生,或者小于等于16%的学生。


alt

❑ 能理解z分数和T分数的含义。

表9.7 z分数和T分数的含义


z=(X-M)/S,其中X为考生的分数,M为均值,S为标准差。

T=10z+50


alt

❑ 知道反馈的不同类别。


Shute(2008)根据反馈的复杂度,将反馈的类型分为无反馈、核实和长反馈。具体分类如表9.8。

表9.8 反馈的不同类型

alt

alt

❑ 知道有效的形成性反馈有哪些特点。

表9.9 有效的形成性反馈


· 运用恰当的成功标准,聚焦与达到特定的学习目标所取得的进步相关的学习证据。

· 积极地让学生参与到产生反馈和使用反馈中。

· 重点在于能够让反馈正面地影响学生的自我调控、自我效能和目标取向。

· 确保反馈是关于学生表现的描述性反馈,而不是泛泛之谈。

· 确保反馈是及时的。

· 尽量使得反馈更加个性化。

· 为学生提供利用反馈的机会,使得反馈是可以付诸行动的。

· 考虑学生会怎样应对反馈(他们会更加努力还是不努力了)。

· 将反馈局限于学生能够采取行动的范围。

· 强调学生在理解方面的错误。

· 确保反馈是诚实和准确的。

· 多鼓励,但是也不能过于频繁使用“糖衣”。

(Brookhart,2013;Chappuis,2012;Ruiz-Primo & Li,2013;McMillan,2014)