语言评价基本概念——测量学视角

第三章 语言评价基本概念——测量学视角

根据Anderson及同事(2001/2009:30)关于知识维度的论述,当今的学习观关注有意义学习的主动性、认知性和建构过程。在主动参与有意义学习时,学习的认知观和建构主义观点强调学习者知道什么(知识)以及他们是如何思考(认知过程)这些知识的。教师在职前和在职的经历中,已经拥有了大量对语言评价的体验和认识。实践中的语言评价素养被认为是基于已有的评价知识和教学环境,通过各种认知活动和元认知活动自主建构的意义。Anderson及同事(ibid:32—47)区分了四类知识:事实性知识、概念性知识、程序性知识和元认知知识。事实性知识指的是分离的、孤立的、“信息片段”形式的知识,而概念性知识表示更为复杂的、结构化的知识形式。它们都是陈述性知识(declarative knowledge),通常用术语“知道”来定义。知道了事实性知识,不能够在更深的层次上理解它,不能够融会贯通,不能够将它以有用的方式系统地组织起来,因此事实性知识就成了“惰性”知识。专家的标志之一是不仅拥有大量事实性知识,而且能把它们组织起来,迁移到新的情境中灵活运用。这正是教师语言评价素养中所应该包含的。程序性知识是关于如何做事的知识,也就是涉及知识的“如何”方面,而元认知知识是关于一般认知的知识以及关于自我认知的意识和知识。综上所述,本章要呈现的语言评价基本概念主要指语言评价中的概念性知识。为了避免与本书其他章节在内容上出现重复,本章从测量学角度来呈现语言评价基本概念的条目,并对条目进行简要的解释。

在描述语的收集过程中,笔者主要参阅了相关论著的术语表。这些论著包括权威的教育与心理测量标准,如《教育与心理测试标准》(AERA, APA & NCME,2014);教育学领域关于课堂评价的论著,如Russell & Airasian(2012)、Waugh & Gronlund(2013)、McMillan(2014)、Popham(2017);语言测评领域的论著,如Brown(2005)、Bailey & Curtis(2015)、Carr(2011)、Brown & Abeywickrama(2010)、Jang(2014)、Cheng & Fox(2017)、Bachman & Damböck(2017)等。术语的选择遵循了以下原则:(1)从中小学英语教学与评价的实际出发,考虑中国环境下语言评价的实践,选择符合中国中小学英语教育教学国情的评价概念。(2)从重要性考量,选择教育测量领域中最基本的评价概念,并重点考虑多本论著中均提及的概念。(3)从可接受性角度考量,选择能够被一线教师理解并应用的核心概念。在术语选择过程中,笔者也参阅了教育部考试中心中小学教师资格考试的网站(http://ntce.neea.edu.cn/),发现在初中和高中的英语学科知识与教学能力考试大纲中,与评价直接相关的内容为“了解形成性评价和终结性评价的知识与方法,并在初(高)中英语教学中合理运用”。本章的语言评价概念性知识以及本书其他章节的内容将更加明确详细地说明形成性评价和终结性评价的知识与方法所指的具体内容,为一线教师提供更加有针对性的指导。

alt参考点一 拥有语言评价的概念性知识,能将关于评价的概念性知识组织起来,应用于教学情境中,反映对语言评价的深刻理解。

3.1 语言评价的测量学概念性知识

alt

alt

3.2 语言评价的部分概念性知识详解

alt

❑ 知道构念(construct)的意义与内涵。

表3.1 构念的定义


Fulcher & Davidson(2007:7)为说明何为构念,首先列举了日常生活中的抽象概念,如爱、智力、焦虑、流利度、外向、说服力等,人们理所当然地认为对这些概念有共同的认识。但是这些概念要成为构念就需要两个条件:(1)界定概念,使其可以被测量或可操作化,如流利度可以体现于说话速度快慢或者停顿多寡。(2)界定概念,使之与其他不同构念产生关系,如口语中流利度与焦虑通常呈现相反关系,焦虑高了,流利度降低。

《教育与心理测试标准》(AERA, APA & NCME,2014:217)将构念界定为“一项测试意欲测量的概念或特征”。

“构念指的是心理构念,是对人类行为的一个方面的理论概念化,这个行为方面不能被直接测量或观察。例如智力、成果动机、焦虑、成果、态度、支配力和阅读理解力。”(转引自Alderson et al.,1995:183)


alt

❑ 能透过语言评价的外在形式说明背后不同的测试构念。

表3.2 通过测试外在形式看构念


以下为某校初中英语考试中的题目

选出画线部分发音不同的一项。(5分)

1.A. Chinese

B.meet

C.teacher

D.theatre

2.A. twelve

B.pencil

C.we

D.left

3.A. thanks

B.grade

C.capital

D.manager

4.A. English

B.is

C.big

D.right

5.A. hour

B.Helen

C.her

D.husband

从上述五个题目的测试内容来看,命题者要测试的是字母或者字母组合在单词中的理论发音。试题没有让学生实际朗读这些单词,而是从理论角度来考查字母或字母组合的发音。当考生做对题目时,我们只能推断他们从理论上可能知道字母或者字母组合在单词中的发音,并不能推断学生是否能正确地说出这些词,更不能推断学生在实际的语流中能运用这些词的正确发音来表达意义。


以下为某校初中英语口试中的题目:

请朗读下面的文段。你有一分钟的准备时间。

Once upon a time, two young men were walking along the mountain trail. They were very close friends.

But, all of a sudden, a bear showed up. Shocked, the young men were looking for a place to hide. One fellow hid himself by climbing up a tree, but the other one was unable to run away. When the bear pounced upon him, the fellow who could not run away threw himself flat down upon the ground and pretended to be dead. The young man on the ground held his breath and stayed still. The bear, coming up to him, put his muzzle close to the man, and sniffed. "He's dead. I don't eat dead meat."

The bear left the young man alone and went away. After the bear was gone, the friend in the tree came down. Wiping away his cold sweat, the friend asked, "What did the bear say to you?" "Oh, the bear told me," said the other, "not to hang out with a friend who runs away when a risky situation occurs."

上文是一个简短的童话故事,要求考生朗读,通过这种方式测试的是考生在有脚本的情况下,实际语流中的语音产出的水平,其中包含意群的判断和连读、弱读、重读等语音特征。比起上述的选择题,它对语音的测试更加直接。当然也应该意识到,它还不同于考生在口语自由表达中的语音水平。


alt

❑ 知道构念不相关差异(construct-irrelevant variance)。

表3.3 构念不相关差异


被试因为外部因素的影响而使得其成绩偏离他本身的实际能力(AERA, APA & NCME,2014:217)。

测试中涉及的与构念不相关的因素降低了所测的准确性(Popham,2017:407)。

常见的构念不相关差异有:焦虑、作弊、劳累、噪音、作答指令不清、粗心


alt

❑ 知道构念代表不足(construct underrepresentation)。

表3.4 构念代表不足


一项测试未能够把握欲测构念域的重要方面而带来的差异,因此测试分数不能完整地代表构念(AERA, APA & NCME,2014:217)。

所测的内容,如课程目标中的内容,未能充分地被构成测试中的题目所体现(Popham,2017:407)。

如表3.2中的第一部分语音辨别题,如果想考查的是学生的语音表现,构念代表就不足,因为语音表现要通过实际的语音发音来体现。


alt

❑ 知道效度的意义与内涵,将效度看作是单一的整体概念(unitary concept)。

表3.5 效度的定义与内涵


《教育与心理测试标准》(AERA, APA & NCME,2014:11)将效度定义为“证据和理论在何种程度上支持测试预期用途中的对测试分数的解释”。它是测试开发和评估中最根本的问题。

McMillan(2014)将效度看作是“基于评价所获得的推断、使用和后果的适切性的特征。效度关乎基于所得的分数所做出的主张或推断的正确性、可信性或合理性。也就是说,从测试结果所做出的解释是否是合理的?所收集的信息是否为欲做的决定或预期的使用提供恰当的证据?信息的解读是否是准确的?效度与推断的后果相关,与测试本身无关。因此,不能说用于收集信息的测试、工具或程序有效度,而应该说推断或使用是有效或无效的”(65)。

效度应该被看作是单一的整体概念,也就是说,它是包含多个侧面的一个概念。在收集效度证据时,应该从多个侧面去综合考量,不能仅仅关注一两个方面。例如下图3.1所示,通常从内容效度、共时效度、后果效度和构念效度等侧面来考量效度。

alt

图3.1 效度的四个侧面(改编自Gareis & Grant,2015:29)

根据Akbari(2018:5300—5303),内容效度考查的是一项测试是否充分包含了欲测量的特质或领域中有代表性的样本。所有的测试都只能采取抽样的方法来进行,如果抽取的样本在欲考查对象中没有代表性,那么它的内容效度就严重地受到影响。例如在学业考试中,教师要列出学习目标清单,借助考试内容规范来整理出有代表性的评价样本,从而最大化保障内容效度。效标关联效度(criterion-related validity)考查的是一项测试与考查类似的内容测试之间的相关性。它可以从共时效度(concurrent validity)和预测效度(predictive validity)两个方面去考查。其中的共时效度指的是新设计的测试与要比照的测试同时被施测于同一批考生,然后计算两者的相关性,考查共时效度如何。构念效度是最重要的效度,它是测试设计的基石,为测试与其分数的解释提供理论根据,考查的问题如“何为能用一门语言?”,有的学者认为二语知识是单一的概念,需要采用整体测试法,如完形填空或听写(Oller,1979),而有的学者认为它是不同能力的集合,可以分成不同的单元或成分来考查(Bachman,1990;Bachman & Palmer,2010)。构念效度会决定测试工具的形式和内容。后果效度考查的是测试对考生所带来的影响,测试公平、测试偏颇和反拨效应都是后果效度需要考查的方面。


alt

❑ 知道如何在课堂评价中确定效度证据的寻求路径。

alt

图3.2 如何评估效度(改编自McMillan,2014:66)

alt

❑ 能从不同的角度,特别是测试内容角度,收集效度证据。

表3.6 效度证据来源


1.基于测试内容的证据(内容效度)

测试内容在多大程度上代表为特定用途所要做出的解释的课程目标。

alt

图3.3 测试的题目与课程目标之间不同匹配程度示意图(改编自Popham,2017:103)

2.基于应答过程的证据

被试在应答过程中是否采用了欲测构念所包含的认知过程。

3.基于测试内部结构的证据

通常情况下考查构念是否是单维的,可以通过考查试题内部一致性来看试题是否能衡量考生在单一构念上的位置,也就是Cronbach α系数。

4.基于其他变量的证据

第一个可以考查测试与效标之间的关系,即效标关联效度,考查一项测试与测量相同特质的测试之间的关系。第二个可以考查聚合效度和区分效度。两项测量相似构念的测试之间相关度高,就提供了聚合效度,两项测量不同构念的测试之间的相关度低,就提供了区分效度。

(AERA, APA & NCME,2014;Popham,2017)


alt

❑ 知道如何提高评价中的推断和解释的效度。

表3.7 提升效度的途径

alt

(Gareis & Grant,2015:36)

alt

❑ 能运用基于论证的效度验证框架来审视某项测试所获得的效度证据。

alt

图3.4 基于论证的效度验证框架(改编自Chapelle & Voss,2014:1088)

Chapelle和Voss(2014)基于论证的效度验证框架从域界定到评估,到概化,到目标反思,到使用,共分为五个阶段,层层推进,为低利害的课堂评价提供了效度证据收集的思路。

Bachman和Palmer(2010)、Bachman和Damböck(2017)提出评价使用论证(Assessment Use Argument)作为评价开发和评价论证(justification)的概念性框架,如图3.5。评价使用论证包含一系列主张(claims)或陈述(statements),这些主张或陈述界定了从学生在评价中的表现到运用这些评价产生预期效果的关联。(Bachman & Damböck,2017:30)在评价开发时,第一个主张为预期后果,它指的是测评开发者或使用者希望带给利益相关者的效果。(ibid:38)第二个主张为预期决策,决策主要分为两种:形成性决策和终结性决策,预期决策要关注的是决策的内容、决策者和对象、时机和质量。(ibid:49)第三个主张为关于学生语言能力的预期解读,这个主张要回答评什么和怎么评的问题。(ibid:59—60)关于预期解读的质量应主要考查相关性、充足度、有用性、概化和公平性。(ibid:67)第四个主张为预期评价记录,它主要关注两个问题,即什么形式的记录(描述、分数)和评价记录的质量问题。(ibid:74)关于评价记录的质量问题主要考查哪些因素可能影响分数的一致性问题,这些因素包括施测条件、评价任务和评分。在评价使用中,评价使用论证则从学生的表现开始,反观评价记录、关于学生语言能力的解读、决策和后果。

alt

图3.5 评价使用论证(Bachman & Damböck,2017)

alt

❑ 知道信度和效度之间的关系。

alt

图3.6 信度和效度关系简图

图3.6打了一个比方,简单地描述了信度和效度之间的关系。图中将效度比作是靶心,将信度比作击中情况。左边第一幅目标清晰,全部击中,说明对欲测能力进行了准确定位并稳定地测试,信度和效度都高;中间的图片则表明射击稳定,但是没有击中目标,信度是高的,但是效度很低;右边图片中击中率低,同时也没有清晰的目标,因此信度和效度均低。

从图中也能看出,清晰的目标定位,即效度是根本的,而信度是其必要条件。信度是效度证据收集的一个重要方面。当然,本图虽然直观明了,却不能完整地反映信度和效度的关系,信度、效度之间的关系远比上图复杂,感兴趣的读者可以参阅Bachman(1990)的相关论述。

alt

❑ 知道信度指的是分数的一致性或精确度。

❑ 能根据不同的情况选择不同的信度估计方法,如内部一致性、再测信度。

表3.8 不同类型的信度及估计方法

alt

alt

(改编自Gallagher,1998:79)

alt

❑ 知道提高课堂评价信度的方法,如提供清晰的评分要求、增题量。

表3.9 提升信度的途径

alt

(Gareis & Grant,2015:41)

表3.10 提高课堂评价信度的方法


√ 提供关于评价的清晰的应答和评分要求。

√ 使用足够多的题目或任务(在条件相同的情况下,越长的测试得出的分数越可靠)。

√ 为同一个学生表现提供双评或多评。

√ 选用能够清楚地将学生区分开来的题目或任务。

√ 确保评价的程序和评分尽可能清晰和客观。

√ 持续评价,直到得出一致的结果。

√ 排除或降低外部事件或因素的影响,以限制误差。

√ 频繁使用较短评价,而不是少次使用较长的评价。

(改编自McMillan,2014:76)


alt

❑ 能从分数解释的角度区分常模参照考试(Norm-referenced tests,NRTs)和标准参照测验(Criterion-referenced tests,CRTs)。

表3.11 测试两大家族对照

alt

(改编自Waugh & Gronlund,2013:27)


鉴于两个家族的测试存在不同点,Brown(2014)提出了常模参照考试和标准参照测验在开发和验证中采用的不同策略,如表3.12。

表3.12 开发和验证两个家族的测试的不同策略

alt

表3.13 从测试特征和决策类型看两大家族测试

alt

alt

(改编自Brown,2005:7)

alt

❑ 能从语言测量形式的角度区分分立式测试和综合式测试。

表3.14 分立式测试与综合式测试


分立式测试(discrete-point test)

一道题目一次只牵涉一个考点的测试。这类测试是在非常有限的范围内测试与表现相关的特定成分,如I want to home now. [A. go B. went C. gone D. going]。正因如此,它能够给出明确、具体的反馈,具有很强的诊断价值。分立式测试基于结构主义语言教学和测试理念,通常采用多项选择题的形式。

综合式测试(integrative test)

在答题时需要运用多种语言成分或技能的测试。典型的例子如听写测试,它需要考生运用词汇知识、语法知识和听力技能完成。又如完形填空,它需要考生运用词汇知识、语法知识和阅读技能完成。再如访谈,它需要考生运用词汇知识、语法知识和口语技能完成。比起分立式测试,它更能够测试整体的语言水平。


alt

❑ 能从测试方式角度区分直接测试和间接测试。

表3.15 直接测试与间接测试


直接测试(direct test)

直接测试要求考生直接运用被试的技能或能力。例如要考查学生的写作能力,直接让学生写一篇文章;要考查学生的语音,直接让学生朗读一段话或用英语进行口头表达。直接测试中的任务和文本都应该尽可能真实。它更适用于考查产出性技能。Mousavi(2009:204—205)对直接测试的优点总结如下:(1)只要清楚要考查的能力,就能够比较方便地设计出相应的条件来引导考生做出相应的表现,并基于表现做出判断。(2)至少在产出性技能中,对考生表现的评价和解读都是相对直接的。(3)测试中直接让考生运用技能,可能带来良好的反拨效应。(4)直接测试让测试使用者能够更直接地连接测试表现和将来用途,因此具有更高的表面效度。

间接测试(indirect test)

间接测试旨在测量潜在于技能背后的能力。例如欲测量写作,让考生完成短文改错,间接推测考生的写作技能。又如欲测量口语,让学生选择句子补全对话。其背后的理念是希望通过测量有限的能力来推测无限的能力。但是短文改错做得好的考生是否写作能力就强呢?在现实中我们可以看到两者的关联,但不是绝对的关系。


alt

❑ 能从评分方式角度区分客观测试和主观测试。

表3.16 客观测试与主观测试


客观测试(objective test)

客观测试如选择题,它们的答案是固定的,可以采用机器简单地进行评阅。

主观测试(subjective test)

主观测试要求评分员基于他们对评分标准的主观理解对考生的表现做出主观判断。


alt

❑ 能对交际语言测试的内涵有深刻的认识。

表3.17 交际语言测试


交际语言测试(communicative language testing)

交际语言测试要求考生像在真实生活中一样使用语言。它在测试环境下,在语言使用的特定环境中评估语言表现样本,以期获得对考生交际能力的估计。交际语言测试需要满足一些严格的要求。它必须测试到语法、语篇、社会语言学、语用能力和策略能力。它要求考生自然地使用语言来进行真实的交际,并投入思想和感情。它必须采用直接测试的方法,必须测试到语言的多种功能并考虑考生可能遇到的现实语言环境。

交际语言测试有四个主要特征:第一,它提供“信息沟”,要求考生通过运用多种形式的输入来处理互补的信息,比如考生听一段讲座、读一段文章,然后完成一个写作任务。第二,任务倚靠性,一个部分的任务会基于前面的任务。第三,测试、任务和内容在一个语篇域中形成互动关系。第四,交际测试比早期测试测量更广的语言能力,包括衔接、功能和社会语言适切性等。在测试产出技能时更重视适切性,在测试输入技能时更重视理解交际意图。

(Mousavi,2009:110—111)


alt

❑ 能区分内容标准和能力表现标准。

表3.18 内容标准和能力表现标准


内容标准(content standard):描述了期望学生学习的知识或技能。这些课程目标被称为“学校内容标准”(Popham,2017:39);它是一系列关于某个特定的学科知识的描述,描述了学生应该知道的内容和表现的技能(Jang,2014:173)。内容标准如中国的《普通高中英语课程标准》、美国的Common Core State Standards。

能力表现标准(performance standard):描述了期望学生掌握内容标准的水平。这些被追求的表现水平也被称作是“学校学业标准”(Popham,2017:39),它是一系列基准,说明学生必须在一个能力连续体上的特定水平中要表现出来的水平(Jang,2014:175)。


alt

❑ 知道语言测试中的题目应包含四个要素:是一个可量化的测量单位、有提示语、规定如何作答、规定如何评分。

表3.19 题目的定义


题目(item)的定义

题目是一个测量单位,它包含提示语和规定的作答形式,目的是为了从考生那里获得一个应答,通过对这个应答表现的评判,可以推断表现背后的一些语言构念,从而做出一些决策。

(Brown & Hudson,2002:57)


alt

❑ 知道测试指导语(rubric)应包含试题指令、试卷结构、时间分配、如何计分四大要素。

表3.20 测试指导语


测试指导语的特征应包含以下四方面:

1.试题指令;

2.试卷结构:在试题中,任务是如何组织的;

3.时间分配:试卷所花费的时长和单个任务所花费的时长;

4.如何计分:如何基于考生的应答产出考试记录。

(Bachman & Palmer,2010:69)

Douglas(2000:50)认为指导语应该包括:

1.明确说明目标:描述任务或题目所测试的是什么,如“This is a test of your ability to write a coherent and grammatically correct paragraph”。

2.应答的程序,如“Answer all the questions in complete sentences”,“Complete the table using information from the graph”。

3.任务的结构与形式,包括小题的数量、各小题的权重和各小题之间的界限,如“The writing task is based on your understanding of the reading text and so you should attempt section one first”。

4.完成任务的时长,如“You will have 90 minutes to complete the test”。

5.评分标准:各个部分的权重,如何才能得分,如“Part one carries 60% of the marks”,“You will get extra marks for using original examples”。


alt

❑ 能理解测量误差的来源,并能够尽量降低误差来源的影响。

表3.21 潜在的测量误差来源


环境带来的误差

考场位置

考场空间

考场通风

噪音

灯光

天气

施测程序带来的误差

考试指令

设备状况

计时

施测方式

评分过程带来的误差

评分误差

主观程度

评分员偏颇

评分员个人癖好

题本或题目带来的误差

测试题本清晰度

答题卡形式

特定的题目样本

题目类型

题目数量

题目指令

题目保密度

考生带来的误差

健康

劳累

身体特征

动机

情感

记忆

注意力

健忘度

冲动程度

马虎程度

解题妙招

对指令的理解程度

猜测

任务表现速度

所考内容刚好复习过或偶然习得

(改编自Brown,2005:172)


alt

❑ 知道评价中的公平问题。

表3.22 评价中的公平问题


评价中的公平问题是“语言评价中关注的一系列问题,考查一项测试(1)是否对某个特定群体有偏颇;(2)是否平等地对待每个被试;(3)能否确保不论年龄、文化、身体障碍等因素而给出平等的测试结果;(4)是否为考生提供了相同的机会学习被评价的内容”(Jang,2014:174)。


alt

❑ 知道测试偏颇。

表3.23 测试偏颇


来自不同背景的小组之间在成绩上存在系统性的差别,这些差别源自语言因素、文化因素等,对某组学生有利或对某组学生不利。(Jang,2014:177)


alt

❑ 知道评价的可操作性。

表3.24 评价的可操作性


估计评价在设计、试测、修改、施测、评分、分数解释中需要花费的时间、精力、资源等。它与效度、信度、反拨效应共同构成评估优劣的标准。(Bailey & Curtis,2015:344)


alt

❑ 知道考试内容规范或考试细目表(test specs)的构成。

表3.25 考试内容规范的定义


考试内容规范是“为考试开发者和试题编写者提供蓝图,为效度验证者提供参考点,为分数使用者提供信息源的文件。它包含测试的目的、考查的能力、考生的特征、考试内容、评分标准和样题等准确的信息”(Douglas,2000:109)。


alt

❑ 知道课程、教学、学习、评价之间的对接(alignment)。

表3.26 课程、教学、学习、评价之间的对接

alt

alt

❑ 知道测量误差可以分为系统性误差和随机误差。

❑ 知道系统性误差指的是会影响学生表现但是可以被避免的误差。

表3.27 系统性误差例子


· 有文化偏向的语言、习语或指代

· 不符合学生生理发展规律的阅读材料

· 试题中的标点或语法错误

· 不够明确的指导语

· 欠佳的排版,易引起疑问或误导学生

· 题目数量不够

· 评分太主观

· 作弊

(Gareis & Grant,2015:38)