第一章 导论
本章从课堂评价的宏观背景、评价素养的重要性以及目前我国英语教学评价的简况出发,论述研制“中小学英语教师语言评价素养参考框架”(简称“参考框架”)的必要性与意义。
1.1 研制“参考框架”的缘起
二十世纪初,课堂评价主要受测量和考试模型的影响。测量学家们认为客观测试可以用来研究和提高学习结果,根据学习需求为学生提供诊断和分级信息。(Thorndike,1913)专家命制科学的试题、教师采用这些试题为教学做出迅捷准确的决策是当时主要的做法。但是这种直接采用外部测试的做法越来越突显出问题,如大规模考试的形式受限制,加上所考即所学,难以避免地窄化了课程目标,而且大量采用选择题限制了学生的思维。到二十世纪末,这种技术和定量模式受到了挑战,新的课堂评价观应运而出,它更加注重评价学生对学科知识的理解,将对评价的形成性使用作为学习过程的一部分(Black & Wiliam,1998;Gipps,1999;Shepard,2000)。Cowan(1998)将评价比作是驱动学习的引擎。新的课堂评价观得到认知和动机心理学研究的支撑(Black & Wiliam,1998;Crooks,1988;Pellegrino, Chudowsky & Glaser,2001),也受到Vygotsky(1978)社会建构主义理论的影响,强调知识是在社会中建构起来的,社会文化环境对学习和知识产生影响。在新的课堂评价视角下,针对教师培养的课堂评价教材(如Chappuis & Stiggins,2017;Genesee & Upshur,1996)体现出浓厚的教学实践行为。
要落实支持学生学习的课堂评价,需要完整的课堂评价范式和评价文化的变革。(Shepard,2000,2006)Gipps对评价文化视角下的教育评价的特点做了总结,共十个方面,笔者简述如下:(1)知识域和构念是多维和复杂的,学生与任务和环境之间有复杂的互动,很难将从一种任务和环境中得到的结果概化到其他任务和环境中,因此对学生的评分结果并不一定可靠,需谨慎对待。(2)清晰的标准得以建立,并以此来评价学生的表现,被学生所了解。鼓励学生监控和反思学习成果,教师要给予积极和有建设性的反馈,并通过元认知策略训练培养学生的自我监控能力。为学生提供的反馈要能反映学生的进步情况,而不是跟其他学生进行比较。(3)高质量的评价任务得以建构。任务反映学科的重要知识,任务性质和呈现方式基于相关研究,对学生公平,并引人入胜。教师鼓励学生组织和整合观点,与任务互动,对论证背后的逻辑进行评判,而不是让学生做选择题。(4)任务具体,跟学生的经历相匹配并反映当下学生关心的事情,能让学生充分发挥水平。任务呈现清晰明了,施测环境让学生感到舒适。(5)评价标准更加综合,能用于评价更加复杂的技能,并配有样本帮助利益相关者解读结果。(6)评分由训练有素的专业人员完成,教师要理解分数等级的划分以及各分数段的表现,以保证评分员信度。样本和标准服务于教学。(7)用丰富的描述来描写学生成果,而不仅仅是得分。(8)评价由任课教师开展,学生积极参与,评价过程是互动的,能用于支持学习过程。(9)教师清楚理解评价的构念,以此决定测试任务;他们知道如何确定学生的知识程度和理解水平,能采用合适的评价手段,并充分考虑学生的生理、社会和认知情况,让学生实现最佳的表现。(10)评价为低利害评价,避免与他人比较产生挫败感,从而维持学生的学习兴趣。(1994:159—161)
上世纪九十年代以来,“基于标准的改革”在全球范围内逐步盛行起来,其中包含了基于标准的评价。2001年,美国启动了“不让一个孩子掉队”的新一轮教育改革。此项改革鼓励基于标准的教育改革,希望通过设定高标准和可以测量的目标来提高教育质量,也掀起了基于标准的外语评价研究的热潮。(Menken, Hudson & Leung,2014)基于标准的评价有很多优势,如这种评价更加透明,过程更加清晰明了,知识与能力之间的联系更加紧密,师生之间可以有更好的合作,从而提高学习效率。(Rawlins et al.,2005)在我国,各级各类外语教学都有了各自的标准,但是相应的基于标准的评价还未完善。《国务院关于深化考试招生制度改革的实施意见》(国发〔2014〕35号)明确指出要建立我国国家外语能力测评体系,包括制定国家外语能力等级量表、制定适合我国国情的外语考试质量标准,根据国家外语能力发展目标与跨文化交往能力的需求,整合、完善、开发各类外语考试项目,逐步建立形成性评价与终结性评价相结合的测评体系。(刘建达,2015a,2015b)目前中国英语语言能力量表的开发已取得了阶段性成果。(中华人民共和国教育部、国家语言文字工作委员会,2018)基于标准的评价需要教师在评价中发挥更大的作用,教师的评价素养的重要性更加突显。
1.2 研制“参考框架”的必要性
Popham阐述了教师要了解评价的原因。这些原因有的是老生常谈。归纳如下:第一,评价可以用于确定学生目前所处的学习阶段。通过前测,教师可以了解到如何将教学的主要精力用于学生薄弱的地方,而哪些是不需要进一步教学的。第二,评价可以用于监控学生的进步情况。系统性的评价可以帮助教师发现学生是否已经掌握教学目标中的内容,要不要调整教学。这也是形成性评价可以发挥作用的地方。第三,评价具有成绩评定功能,顺带督促学生学习。第四,评价可以帮助教师决定教学的有效性。(2017:12—29)新的形势也突显教师了解评价的重要性。这些原因有:第一,测试的结果会影响公众对教育有效性的看法(如大众对名校的追逐);第二,学生在评价中的表现越来越成为评估教师能力的一部分内容;第三,评价能够使教学目标更加清晰化,从而提高教学的质量。
测评在系统性的语言课程中占据重要地位。Brown(1995)的语言课程系统模式如图1.1所示。该模式中课程设计共有六项主要内容:对学生进行需求分析、制定教学目标、检测目标落实情况、编写或修订教材、实施教学活动、全面评估课程设计过程的各个环节。在这个模式中突显了对测评的重视。Brown认为,只有通过有效的测试系统来检测已有的需求分析和目标是否符合学生的需要、符合语言教学的需要,才能确保这两项工作不流于形式,从而真正发挥它们在教学过程中的指导作用。

图1.1 Brown(1995:20)语言课程的系统模式
在教育学中,评价一直没有得到相应的重视(Black & Atkin,2014)。Black & Wiliam(2018)尝试将评价融入教育学模型中,如图1.2。评价之所以是有效教育中的重要方面,是因为教师的教学和学生所学之间的关系非常复杂。教师所教常常不是学生所学,因此需要用评价来测试和解读学生的学习成果。Black & Wiliam(2018)论述了在教育学中教师实施阶段的形成性评价和终结性测试。形成性评价中教师、同伴和学习者的策略如表1.1所示,包含五个主要策略。关于终结性测试,其一是要让学习者能够充分认识到成果的标准是什么,从而能够判断自己成功与否,并能够调控自己的学习。(Wiske,1999;Sadler,1989)其二是要发挥终结性测试的形成性功能。(Black et al.,2003;Carless,2011)形成性评价与终结性测试要发挥协同作用。这需要考虑评价所处的社会、政治和文化情境,也需要确保用于终结性测试目的的评价工具能够服务于学习,或者至少对学习无害。同时教师要在这些终结性目的的测试中扮演应有的角色。只有具备相应程度的评价素养的教师才能担当此角色。

图1.2 与教育学相关的评价模型(Black & Wiliam,2018)
表1.1 形成性评价中教师、同伴和学习者的策略

(Black & Wiliam,2018)
《义务教育英语课程标准(2011年版)》(中华人民共和国教育部,2012)和《普通高中英语课程标准(2017年版)》(中华人民共和国教育部,2018)均提倡在我国中小学英语教育中采取形成性评价和终结性评价相结合的路径。《义务教育英语课程标准(2011年版)》在课程基本理念中指出要优化评价方式,着重评价学生的综合语言运用能力。具体来说:“英语课程评价体系要有利于促进学生综合语言运用能力的发展,要通过采用多元优化的评价方式,评价学生综合语言运用能力的发展水平,并通过评价激发学生的学习兴趣,促进学生的自主学习能力、思维能力、跨文化意识和健康人格的发展。评价体系应包括形成性评价和终结性评价。日常教学中的评价以形成性评价为主,关注学生在学习过程中的表现和进步;终结性评价着重考查学生的综合语言运用能力,包括语言技能、语言知识、情感态度、学习策略和文化意识等方面。”(4)标准中附有九条评价建议(33—39),并在附录7中列出长达45页的评价案例,包括听说读写技能的样题、评析和评分标准(120—164)。《普通高中英语课程标准(2017年版)》提出完善英语课程评价体系,促进核心素养有效形成。具体来说:“普通高中英语课程应建议以学生为主体、促进学生全面、健康而有个性地发展的课程评价体系。评价应聚焦并促进学生英语学科核心素养的形成及发展,采用形成性评价与终结性评价相结合的多元评价方式,重视评价的促学作用,关注学生在英语学习过程中所表现出的情感、态度和价值观等要素,引导学生学会监控和调整自己的英语学习目标、学习方式和学习进程。”(3)该标准对学业质量进行了阐述,提出了三个水平的高中英语学业质量,并对三个水平的能力进行了详细的描述。在实施建议中,该标准提出了六条评价建议,并提出了学业水平考试与高考命题建议。
虽然形成性评价与终结性评价相结合的评价体系逐步被教师们所了解,但是测试驱动的教学依然没有得到根本的扭转(Luo,2014),题海战术依然是学生学校生活的主要部分,回答选择题依然占据学生学习生涯中的大部分时间。这与课程标准所提倡的评价思路相左。研究者们(如Luo & Huang,2015)提出的表现性评价和基于能力的测试仍未得到广泛采纳。这其中的原因是多方面的,如高利害考试强大的反拨效应。但是教师的评价素养欠缺也是其重要因素之一。
评价对于教师来说这么重要,但是由于种种原因(如教师教育中对语言评价培训的不够重视),全球范围内的研究显示,教师的评价素养非常欠缺(如Campbell & Collins,2007;Mertler,2005;Vogt & Tsagari,2014;Harding & Kremmel,2016;Tsagari & Vogt,2017;林敦来,2016),不足以发挥评价应有的促学功能。要提升教师的评价素养,首先需要厘清评价素养的概念与内涵,并详细论述评价素养各个维度的具体内容。本“参考框架”旨在为语言教师评价素养的发展提供良好的参考点,为语言评价素养培训提供参考。
1.3 “参考框架”的研制过程
本“参考框架”的研制过程主要采用文献法,研究者通过阅读、分析、整理与语言评价素养相关的文献材料,以期获得对语言评价素养的全面理解,并根据分析所得的结果撰写出语言评价素养各个成分的条目,进行分类。
首先,研究者对语言评价素养的概念进行梳理(详见本书第二章),提出本书对语言评价素养的界定,建立本书理论框架。
其次,研究者收集了现有的关于教师评价素养的相关标准,如《学生教育评价中教师的能力标准》(AFT, NCME & NEA,1990),共十五项,详见本书附录二,以此作为评价素养条目开发的重要依据。
再次,由于语言评价是教育评价中的一个分支,研究者认为应该参阅教育评价中关于课堂评价的最新和最权威的成果。在挑选论著的过程中,笔者遵循了这些原则:论著的作者在教育测量领域为知名的专家,论著的版本要高,论著经过多次修订。参考的课堂评价论著如表1.2所示。
表1.2 “参考框架”研制过程中所参考的教育学领域的课堂评价论著


最后,在语言评价素养条目撰写的过程中,笔者参阅了大量语言测试著作,特别是读者对象为一线教师的论著,例如J. C. Alderson与Lyle Bachman主编的系列语言评价论著,M. Milanovic与C. Weir主编的剑桥语言测试研究系列丛书,Coombe, Folse & Hubley(2007)、Coombe及同事(2012)、Brown(2005)、Bailey & Curtis(2015)、Carr(2011)、Brown & Abeywickrama(2010)、Jang(2014)、Cheng & Fox(2017)、Bachman & Damböck(2017)等。
此外,为了让条目的内容更加清晰易懂,笔者对部分条目内容进行了解读。在知识与技能评价素养模块还列举了部分样题,并从命题设计方面做了详细的评论。
应该指出,本书最后呈现的四百余条条目尚未得到实证验证,笔者的团队将在后续的研究中收集实证数据,验证这些条目,并对条目的难度进行研究,以期建构中国中小学英语教师语言评价素养量表。
1.4 重要术语说明
评价或测评(assessment)可以大致上定义为“就某个感兴趣的对象收集信息的过程和结果,在这个过程中采用了系统性的方法,并基于扎实的理论基础”(Bachman,2004:7)。评价的系统性特征要求详细记录评价的设计和实施,使其可以被复制。它关乎信度问题。评价要基于扎实的理论基础,关乎分数的解读问题。它要求评价要基于广为接受的关于语言能力、语言使用和语言学习本质的理论,或者基于教学大纲,或者基于学习者需求分析。它关乎效度问题。评价的含义宽泛,它收集信息的来源可以是测试、观察,使用的方法可以是选择题、长篇应答(如短文写作或档案袋)、问卷、访谈等。评价的结果可以采用定量方法汇报,也可以用定性方法汇报。
测量(measurement)被定义为“将目标对象的特征根据清晰的规则和程序量化的过程”(Bachman,1990:18)。从这个角度看,测量是评价的一个类别,即量化的评价。就语言评价来说,它是将不可观察的特征,如语法能力,通过清晰的规则(包含考试内容规范、标准、评分步骤、施测方法等)实现量化的过程。
测试(test)被定义为“一种被设计出来用于测试某种行为的程序,根据这个程序可以对个人的某些特征做出推断”(转引自Bachman,2004)。就语言测试来说,测试就是设计特定的任务或任务群来收集学生表现的样本,从而对其语言能力做出推断。
评估(evaluation)被定义为“做出价值判断和决策的行为,它是评价的一种用途”(Bachman,2004:9)。
Bachman和Palmer(2010:20)认为没有必要刻意区分评价、测量和测试,而重要的是测试的开发者要清晰明确地说明被试的表现是在什么样的条件下(conditions)收集的,同时要清晰明确地说明记录被试表现所遵循的程序。
本书作者在行文中用“评价”或“测评”代表英文中的assessment,用“测量”代表measurement,用“测试”或“考试”代表test,用“评估”代表evaluation。评价或测评的意义最广,它包含测量和测试。相应的,用“评价素养”或“测评素养”代表assessment literacy。
1.5 本书章节安排
本书共分为十章。第一章为导论,简要说明了“参考框架”研制的背景、必要性和过程,并对本书的重要术语做了说明。第二章为语言评价素养的理论框架,为后面八章内容提供了理论基础。第三章从语言评价基本概念角度呈现语言评价素养条目,并对部分条目做了详解。第四章从语言评价的目的角度呈现语言评价素养条目,并对部分条目做了详解。第五章从语言、语言能力和任务特征的角度呈现语言评价素养条目,并对部分条目做了详解。第六章从语言评价手段角度呈现语言评价素养条目,并对部分条目做了详解。第七章从语言知识的评价角度呈现语言评价素养条目,并对部分条目做了详解,此外还提供了样题和评论。第八章从语言技能的评价角度呈现语言评价素养条目,并对部分条目做了详解,此外还提供了样题和评论。第九章从数据统计、反馈和分数使用角度呈现语言评价素养条目,并对部分条目做了详解。第十章从反拨效应与备考角度呈现语言评价素养条目,并对部分条目做了详解。
需要特别指出,Bachman和Palmer认为“语言技能”,也就是“听、说、读、写”的技能划分是有问题的,因为同样是听,面对面对话中的听和听新闻之间有巨大差别,另外语言使用也不是在真空中实现的,人们在特定的场合,为特定的目的,交换着特定的信息。(2010:55—56)因此,Bachman和Palmer认为应该将语言使用看作是特定的情境中语言使用任务的表现,语言技能被概念化为“在特定的语言使用任务中表现出来的情境化的语言使用能力的实现”(56)。笔者认为这个划分确实能够更好地描绘语言任务特征,因此在第五章有专门的章节,列出了考查语言任务特征的条目。但是,笔者也充分意识到传统的关于语言技能的讨论的意义,正如Chapelle在界定词汇能力时曾这样论述:“对词汇这样界定并不意味着词汇能力与其他语言能力是分离的。它只是反映了部分研究者认为‘词汇’在描述语言系统时是一个有用的和相关的分析单位。在这个语言系统中,很多成分是紧密融合在一起的。”(1994:163)将语言技能分为听、说、读、写来考查,符合广大读者和一线语言教师的认知,并且各个技能之间确实存在很大的差别,并产生了大量的研究成果,因此笔者在第七章和第八章中分别从语音、词汇、语法、语用和听、说、读、写几个方面来呈现语言评价素养条目。