语言评价方法

2025年11月27日

版权

第六章　语言评价方法

教师的工具箱中应该有哪些语言评价的手段呢？在课堂评价领域，学者们已经梳理过主要的评价手段类别，如Chappuis & Stiggins（2017：81）认为有四类评价手段，即选择应答（selected response）、陈述应答（written response）、表现性评价（performance assessment）和个人交流（personal communication）；McMillan（2014：59）也认为有四类评价手段，即选择应答、建构应答（constructed response）、教师观察和学生自评；Russell & Airasian（2012：146—154）认为有三类评价手段，即选择题（selection items）、回答题（supply items）和高阶问题或解释性练习（high-level questions/interpretive exercises）；Haladyna & Rodriguez（2013：48）也认为有三类评价手段，即选择应答客观评分型、建构应答客观评分型和建构应答主观评分型。在语言测试领域，Brown（2017）则总结出四类十二种评价手段，即接受性应答、产出性应答、个人应答（personal response）和个性化应答（individualized response）。接受性应答包括正误判断、单选题和匹配题；产出性应答包括填空题、简答题和表现性评价；个人应答包括档案袋评价、讨论会（conference）评价和自评／同伴互评；个性化应答包括连续评价（continuous assessment）、差异评价（differentiated assessment）和动态评价。

应该指出，近年来档案袋评价越来越流行，与传统的评价方法相比，它有突出的优势。因此在条目开发过程中，笔者也给予特别的重视，共开发了七个条目，并将之列在语言评价方法最前面。一直以来，人们对档案袋评价或有些许误解，将之简单看作是一种评价手段，Chappuis & Stiggins（2017：281）认为档案袋评价更应该被看作是评价的集合，上文总结的所有评价手段均可用于档案袋评价中学生学习数据收集。

alt 参考点六　熟悉多种评价方法，能根据评价目的选择相应的评价方法，并能意识到所用的评价方法的优势与局限性。

6.1　“语言评价方法”条目呈现

☑　能理解档案袋评价的内涵。

☑　知道档案袋评价可以用到多种评价手段，如选择性应答、建构性应答、表现性评价等。

☑　知道档案袋有不同的类别。

☑　能说明档案袋评价与标准化测试的区别。

☑　能说明档案袋评价的优点和缺点。

☑　知道如何指导学生管理档案袋。

☑　能设计档案袋评分标准。

☑　能根据测试目的，将评价方法或手段与所要考查的语言的具体技能或知识相匹配。

☑　知道选择应答型题目有单选题、二选一题、判断题、匹配题等。

☑　知道选择应答型题目的要素，如题干（stem）、干扰项（distractor）和正确答案（key）等。

☑　知道建构应答型题目的命题原则。

☑　能做到每道试题都反映教学目标或考试说明中的内容。

☑　能避免考查简单的回忆和死记硬背。

☑　能确保题目与题目之间内容上的独立性。

☑　能意识到在试题中引用现成的长段输入材料时，需注明资料来源。

☑　能避免敏感话题或其他不恰当的内容。

☑　能避免陷阱题或偏题、怪题。

☑　能做到校订和复审试题。

☑　能在命题中使用正确的语法、标点符号、大小写和拼写。

☑　能把每一道题目本身的阅读量减到最小。

☑　能保证题干的指向清晰。

☑　能把题目的欲测内容包含在题干中，而不是在选项中。

☑　能避免过度渲染题目情境，却设置很小的考查点。

☑　能在试题中谨慎使用或避免使用幽默。

☑　能在命题中使用简洁的语言。

☑　能尽可能编写出多个备用选项（单选题、匹配题），挑选最佳的放入试题中。

☑　在选择应答题型中，能确保答案唯一。

☑　能做到答案选项与题干的语法结构一致。

☑　能做到选项比题干简短。

☑　能做到试题中的正确选项随机分布（单选题、判断正误题），降低猜测可能。

☑　能把选项按逻辑顺序排列（如数字大小、时间先后）（单选题）。

☑　能保持选项相互独立，含义没有重叠（单选题）。

☑　能使选项在内容和语法结构上保持同质性（单选题）。

☑　能做到选项长度大致相同。

☑　能慎重使用none of the above。

☑　能避免使用all of the above。

☑　能在题干和选项中使用肯定用词，避免使用否定词语，如not。

☑　能避免对正确选项提供暗示。

☑　能使干扰项或句子具有干扰性（单选题）。

☑　能设置一个指定题目的标准答案／评分细则（简答题）。

☑　能考虑到试题考查的认知维度，如记忆、理解、概括、评价等。

☑　能做到试题的选项垂直排列，而不是水平排列。

☑　知道通常情况下，单选题有三个选项就能达到最佳效果。

☑　能避免在选项中使用always、never、completely、absolutely等限定词。

☑　能避免题干中的关键词与选项中的词重复。

☑　能避免选项成对或三个类似，使得正确答案突显。

☑　能避免不合常理的选项。

☑　能避免观点因人而异的（opinion-based）题目。

☑　能在匹配题中提供多于正确答案的选项个数，避免使用排除法。

☑　在试后，能对自己选用或编写的试题进行反思。

6.2　“语言评价方法”部分条目解读

alt

❑　能理解档案袋评价的内涵。

表6.1　档案袋评价的定义

学习档案是有目的地收集、展示学生在一个或多个领域付出努力、取得进步和收获成果的作品集。这种作品集要包含学生参与选择的内容、判断作品优点的标准和学生自我反思的证据。（Paulson，Paulson & Meyer，1991：60）

档案袋是关于学习者学习成果的有计划的集合。它记录了学生所获的学习成果和学习过程。档案袋是教师和学生集体合作的结果，在合作过程中教师和学生共同决定档案袋的目的、内容和评估标准。（Kubiszyn & Borich，2013：203）

alt

❑　知道档案袋有不同的类别。

表6.2　不同类别的档案袋

alt

（改编自McMillan，2014：247）

alt

❑　能说明档案袋评价与标准化测试的区别。

表6.3　档案袋评价与标准化测试的区别

alt

（改编自Popham，2017：221）

表6.4　档案袋的特征

档案袋的九个特征

1．档案袋中收集了学生的多次表现。

2．档案袋允许收集多样化的学生表现（如多体裁、多话题的写作），而不像传统考试那样收集一次单一的表现。

3．学生表现是在长时间内不同的条件下收集到的，这种多样化的表现显示丰富的情境。也就是说，档案袋能体现多样化的学习情境。

4．由于收集、选择和反思需要较长时间，档案袋可以带来延时的（终结性）评估。这给学生机会重新审阅和改进早期的作品，也让教师有机会给学生形成性的反馈，而不仅仅是终结性地给出分数。

5．多样化的表现、丰富的情境和延时的评估允许学习者选择最能够体现他们学习成果的最佳作品。

6．当教师推迟终结性的评估，给学生机会选择他们自己的作品时，以学生为中心的评价就能得以实现。学生能够控制档案袋评价的过程和内容，这就使得他们能够通过努力来影响终结性的结果。

7．随着学生对档案袋的自我控制和决策权的加强，学习者能够更加清楚地认识他们的学习。这种反思和自我评价有利于进一步的学习。

8．挑选的作品能够显示学生在特定参数上的成长，从评价角度上说，就是能显示要评估的构念的成长。这些参数通常在评分标准中被清晰地阐明。学习者可以用它来做自我评价。

9．考虑到上述特征，档案袋可以显示学习者成长的过程。这种成长或体现在多次作业中，或体现在一次作业中，或者两者兼有。档案袋中的多次作业可以被看作是课程中学生进步的路标，而其中的修改可以显示每次作业的改进情况。

（Hamp-Lyons & Condon，2000：32—38）

alt

❑　能说明档案袋评价的优点和缺点。

表6.5　档案袋评价的优缺点

alt

（改编自McMillan，2014：250；Hyland，2003：236）

alt

❑　知道如何指导学生管理档案袋。

表6.6　管理写作档案袋的技巧

1．根据课程目标和学生的需求分析，决定档案袋的内容。

2．让学生准备活页笔记本，在第一页提供目录，标明提交的文章题目和写作时间，并在笔记本中夹标签标明各个部分。

3．在整个课程过程中与学生讨论档案袋的目的和程序。

4．与其他老师讨论评价决策和评分标准，达成一致意见。通过反馈中的评论，以正式或非正式的形式将评价决策和评分标准传达给学生。

5．设定时间来检查学生的档案袋，监控其进步情况，帮助学习者重新组织他们的档案袋。

6．为学生提供机会展示他们的作品，如展示档案袋、档案袋设计比赛等。

7．让学生为他们的档案袋写导论或日志，或写致读者，介绍档案袋内容，以加强学生对他们的档案袋的反思。

（改编自Hyland，2003：237）

alt

❑　能设计档案袋评分标准。

表6.7　档案袋评分标准样例

alt

（改编自Hamp-Lyons & Condon，2000：144）

alt

❑　能根据测试目的，将评价方法或手段与所要考查的语言的具体技能或知识相匹配。

表6.8　评价方法或手段与具体技能的匹配度

alt

*表中的N 代表not apply，意为内容与方法之间不匹配；P代表passive，意为内容与方法之间只在接受性信息方面匹配；而B代表both passive and productive，意为内容与方法在接受性信息和产出性信息上均匹配。

（改编自Brown，2017）

表6.9　评价方法或手段与内容目标的匹配度

alt

*数字大代表匹配度高

（改编自McMillan，2014：62）

表6.10　不同类别的评价手段

alt

（改编自McMillan，2014：60）

alt

❑　知道选择应答型题目的设计原则。

Haladyna和Rodriguez（2013）根据长期对课堂评价教材的调查，对选择应答型题目的命题原则进行了总结。如表6.11。

表6.11　选择应答型题目的命题原则

内容方面

1．一个题目只测试一个内容和一种认知。

2．用新的内容来引导出高阶思维。

3．题目之间的内容要独立。

4．测试重要的内容。避免过于琐碎和过于概括的内容。

5．避免意见不同的题目，除非测意见。

6．避免偏题、怪题。

格式要求

7．题目和选项采取垂直排列，而非水平排列。

风格要求

8．编辑并校对题目。

9．确保语言难度能够为被试所接受。

10．减少每个题目的阅读量。

题目撰写

11．将题目中心含义简洁明了地体现在题干中，而不是在选项中。

12．题干用肯定方式，避免否定措辞。

选项撰写

13．采用合理和有区分度的选项。三个选项已经足够。

14．确保答案唯一。

15．正确答案的位置要多样化。

16．选项要按照逻辑顺序或数字顺序排列。

17．选项要独立。选项之间不应该有重叠成分。

18．避免使用none of the above，all of the above，I don't know字样。

19．用肯定的方式写选项；避免像not那样的否定词。

20．避免漏答案。

a．选项的长度相当。

b．避免always、never、completely、absolutely等绝对的词。

c．避免与题干类似或直接相连的词汇。

d．避免有成对的选项，或者三个相同一个不同的选项。

e．避免特别荒诞的答案。

f．选项的内容要同质，语法结构要相同。

21．使所有的干扰项都有可能。用学生典型的错误来撰写干扰项。

22．避免使用幽默。

alt

❑　知道建构应答型题目的命题原则。

Haladyna和Rodriguez（2013）将建构应答型题目分为两类。一类是客观评分的建构应答型题目，另外一类是主观评分的建构应答型题目。对于所有的建构应答型题目来说，基本要素都是相同的，即：内容和认知要求；题目和测试说明；对考生的要求或指示；表现的环境；评分标准与细则。常见的建构应答型题目为：完形填空、讨论、写作、口头汇报、档案袋、简短回答等。同样，Haladyna和Rodriguez（2013）对建构应答型题目的命题原则进行了归纳。见表6.12。

表6.12　建构应答型题目的命题原则

内容方面

1．说明要测试的知识域和技能域。

2．确保测试形式符合预期的认知要求。

3．确保任务之间的构念可比性。

格式和风格方面

4．编辑和校对考试指导语、题目和题目格式。

5．试测题目和考试程序。

指示语撰写

6．清晰界定指示语、预期的答案形式和任务要求。

7．提供评分标准。

8．避免要求隐含的假设；避免构念不相干的任务特征。

情境方面

9．考虑文化和地域多样性和可理解性。

10．确保语言难度能够为被试所接受。

对于建构应答型题目，特别是主观评分的建构应答型题目，评分的过程是极其重要的，它影响到分数的解读和使用。所有的效度验证框架中均包含评分方面的内容，例如Weir（2005）就包含了评分效度。Haladyna和Rodriguez（2013）对建构应答型题目的评分原则也做了总结。见表6.13。

表6.13　建构应答型题目的评分原则

内容方面

1．清晰地指出任务的预期内容和认知要求，作为评分的目标。

2．清晰地说明评分中与任务要求不相关的因素。

评分原则制定

3．选择合适的评分方法。

4．在命题阶段就开始制定评分标准。

a．清晰地说明给分点之间的差别。

b．界定给分的理由。

c．不要定死预期的答案。

d．对于类似的任务和评分规则，相同的认知要求要执行相同的标准。

5．试评一些真实的作答，修改评分标准。

评分过程

6．评分员资格认证。

7．评分员培训。

8．评分一致。

9．降低偏颇。

10．采用多评方式。

11．监控评分。

表6.14　个人应答题目设计的原则

自我评价

1．确定采用整体印象评分法还是分项评分法。

2．提前确定评价学生语言表现的哪些方面。

3．准备好书面的评分标准供学生使用。

4．在评分标准中用学生可以理解的简单明了的语言来描述语言表现和行为表现。

5．规划好开展自我评价的程序（谁、在哪里、做什么、如何做）。

6．检验学生是否真正理解了自我评价的程序。

7．确定是否由教师或者另一名学生再评一次，提供信度。

讨论会评价

1．向学生说明讨论会的目的。

2．让学生做讨论会的主人。

3．将讨论会聚焦于学生关于学习过程的看法。

4．通过讨论会来帮助学生树立信心，提高自我形象。

5．让学生表现特定的技能，然后找出需要指导的地方进行针对性的指导。

6．安排好固定的时间，定期开展讨论会评价。

档案袋评价

1．向学生解释何为档案袋及其目的。

2．落实档案袋评价中的责任。

3．让学生选择和收集有意义的作品。

4．让学生定期反思他们在档案袋中收集的作品。

5．让其他学生、教师等定期检查档案袋。

讨论会评价和档案袋评价的评分前提

1．清晰界定学生的任务。

2．限定任务，使之能够在相应的时间内完成。

3．提前准备好评分程序。

4．提前规定好评分中聚焦的语言方面。

5．清晰地界定评分标准中各个维度的具体含义。

6．尽量采用匿名评分。

（改编自Brown，2005：58）