4.3.2　工　具

2025年09月26日

版权

4.3.2　工　具

研究工具的效度和信度是本研究至关重要的一个环节。因为在定量研究的部分，各个构念的量化数据需要通过测试获得，所以笔者在确定测试的形式和内容上做了大量工作。首先，进行了广泛的文献阅读，力求找出现成的适合本研究的测试。如果没有现成的测试，就自己制定。如果现成的测试不完全符合本研究的要求，就进行修订。有需要时，就找一些学生试测，根据他们在试测中的表现、体会和感受以及他们的试测成绩修订和完善相关测试。此外，笔者就一些问题咨询了一些高中和大学的英语老师，听取了他们的意见和建议。在测量工具设计完成后，笔者组织实施了先导研究，对测量工具进行检验。根据先导研究的结果，对测量工具作了进一步的修订和完善。在定性研究的部分，草拟了一份访谈提纲，根据受试在先导研究中的访谈表现进行了修订和完善。接下来，详细报告这些研究工具的具体内容和形式以及制定过程和检验指标。

4.3.2.1　形态意识测试

3.2.1节指出，本研究只关注形态意识的关系、意义和句法维度，不考察它的分布知识，据此笔者设计了本研究的形态意识测试（见附录1）。该测试包括四个部分：第一部分是基词辨识任务，由笔者参考相关资料编制而成，其他三个部分来自Sasao（2013）开发的词缀水平测试（Word Part Levels Test，WPLT）。基词辨识任务用于测量关系维度，WPLT的三个部分分别用于测量关系、意义和句法维度。下面依次介绍这四个部分。

对形态意识关系维度的测量普遍采用形态相关性判断和单词切分（包括根词或基词辨识）任务（见表2-1）。设计这类任务的关键环节是测试词的选择。首先，测试词的词频（包括整词词频和根词或基词词频）和透明度^[5]需要控制。研究表明，词频和透明度与派生词的通达（通常以词汇判断任务的反应时为指标）（Carroll，2007）和识别（通常以单词朗读的准确率和/或速度为指标）（Carlisle & Stone，2005；Geier，2010）有关。其次，为了保证测试的效度，需要尽量避免受试已有词汇知识对测试结果的干扰，因为一个知道shiny和shine词义的受试比一个不认识这两个词的受试更容易对两者的关系作出正确判断。关于如何解决这个问题，Kuo和Anderson（2006）建议选用根词或基词高频、整词低频的派生词作为测试词。

综合考虑上述两个方面的问题之后，笔者从Deacon等（2011）的派生词朗读测试和Tyler和Nagy（1989）的形态意识关系维度测试中选取了本研究基词辨识任务的测试词。

Deacon等（2011）为了探究词频和透明度对派生词朗读的影响，根据整词词频的高和低、基词词频的高和低、透明和不透明^[6]的2×2×2（三个因素，每个因素两个水平）设计，把测试词分为8组，每组8个，共64个。词频高低的判定标准是依据Zeno（1995）的词频表，高频词的词频都不低于50，低频词的词频都不高于3。因为Deacon等的研究目的与本研究不同，所以需要对这些测试词进行调整。张淑静（2015）使用这些测试词以单词切分的任务形式考察了38名英语专业一年级学生的形态意识，发现受试在辨识透明派生词的形态结构方面差异不大。并且，在Deacon等的32个透明测试词中，有的词缀多次出现，例如：development，equipment，wonderment和impairment。因此，为了提高测试的区分度，笔者删减了部分词缀相同的单词，把透明测试词的数量从每组8个降低至每组4个，保证了每组中4个单词的词缀都不相同，以及同一个词缀跨组出现的次数不超过两次。

Tyler和Nagy（1989）用于测量形态意识关系维度的派生词，16个透明，8个不透明。根据Carroll（1971）等编制的词频表，这8个不透明测试词在每百万词中的频率都小于0.3，其基词在每百万词中的频率是10至100。换而言之，这8个不透明测试词都是整词低频、基词高频的派生词。笔者把它们加入到了本书的测试词中。

综上所述，本研究的基词辨识任务包括56个测试词，其具体构成如表4-2所示：

表4-2　基词辨识任务的测试词构成

pagenumber_ebook=73,pagenumber_book=62

如表4-2所示，测试词由8组不同词频和不同透明度的派生词构成，这是为了通过测试词的多样化，尽量全面地反映受试辨识不同类型派生词内部形态结构的能力。此外，整词低频、基词高频的测试词数量最多，这有助于降低受试已有词汇知识对测试结果的干扰（Kuo & Anderson，2006）；Deacon等（2011）和Tyler和Nagy（1989）对词频高低的界定使高频词和低频词的词频具有很大差异，这也使受试已有词汇知识的多少基本上不会影响他们对测试词的熟悉程度。

完成基词辨识任务大约需要30分钟。试卷的评阅标准是：正确写出一个测试词的基词得一分，美式和英式拼写都可以，例如center和centre；如果拼写有错但是明显属于笔误的，例如把objection的基词写成odject而不是object，仍然判定为正确。满分56分。

受试在先导研究中的表现（见表4-1）说明，基词辨识测试难度较高，百分制平均分只有53.24分；但是S-W检验显示成绩呈正态分布（0.174＞0.05），说明测试能够区分受试辨识基词水平的高低。

除了基词辨识任务，形态意识测试的其他题目来自WPLT。WPLT是Sasao在2013年开发的一项关于英语词缀接受性知识的诊断性测试。由来自100多个国家、30多个母语背景的1 348名受试参加的效度验证实验表明，WPLT是一个有效的、可信的测量工具（Sasao & Webb，2015）。

WPLT中的词缀共118个，由在英国国家语料库（British National Corpus，BNC）最常用的一万个词族中出现两次或两次以上的词缀组成。根据对效度验证实验数据分析得出的Rasch项目难度，Sasao（2013）把这些词缀分为三个难度等级；按照从易到难的顺序，每个等级分别包括40、39和39个词缀。

WPLT由三个部分组成，全部是四选一的选择题。第一部分测量关于词缀形式的知识，第二部分是关于词缀意义的知识，第三部分是关于词缀用法（即句法功能）的知识。每个部分包括三个难度等级。

WPLT的形式部分包括115道题目，从易到难三个等级分别是40、37和38道。每道题目中有四个字母组合，这些字母组合都有可能出现在单词中，但是只有其中一个是词缀。例如，在sal-、cau-、lin-和dis-中，只有dis-是词缀。

严格地讲，WPLT的形式部分与形态意识关系维度的定义并不吻合。所谓关系指的是形态复杂词的内部结构关系，即一个单词由哪些语素以什么样的顺序构成。笔者之所以采用WPLT的形式部分作为形态意识关系维度的测试任务之一，是因为对词缀形式的掌握是正确分析单词形态结构的基础。例如，如果不知道-ent是词缀就容易把president错误地切分为pre-和sident。因此，本研究形态意识测试的第一和第二部分，即基词辨识任务和WPLT的形式部分，都是面向关系维度的，区别在于后者关注孤立词缀的辨识，前者关注单词中词缀的辨识。

WPLT的意义部分由73道题目组成，从易到难三个等级分别是34、21和18道。每道题目的题干是一个词缀以及两个含有该词缀的例词，要求从四个释义中选出正确解释词缀在例词中意义的那个选项。例词的作用是通过为词缀提供语境，帮助受试回忆相关信息，更重要的是消除一些词缀的歧义。例如，a-在atypical和ahead中的意义不同。

对形态意识意义维度的测量通常以简答题或选择题的形式要求受试为出现在句子语境中或孤立呈现的派生词释义（见表2-1）。本研究之所以采用WPLT意义部分这种为词缀选择正确释义的任务形式，是为了避免句子和单词语境的影响。如果测试词出现在句子语境中，受试有可能会利用语境线索而不是依赖自己的形态知识猜测词义，并且受试的英语水平有可能会影响他们对句子的加工，进而影响测试成绩。例如，Tighe和Binder（2013）发现，句子语境有助于提高形态复杂词朗读的准确度和速度。另一方面，因为单词释义题中的单词不能是伪词，只能是真词，所以受试已有的词汇知识容易对测试结果造成干扰（Kuo & Anderson，2006；Tighe & Schatschneider，2015）。

WPLT的用法部分由56道题目组成，从易到难三个等级分别是13、21和22道。每道题目的题干是一个词缀以及两个含有该词缀的例词，要求受试判断这两个例词是名词、动词、形容词还是副词，或者说该词缀的功能是产生什么词性的派生词。例词的作用一是使词缀的句法功能具体化，二是消除一些词缀的歧义。例如，personal和proposal虽然都以-al结尾，但前者是形容词后者是名词。

对形态意识句法维度的测量通常采用选择填空的形式，要求从四个基词相同、词缀不同的单词中选出一个填入句子的空格中（见表2-1）。这种测试形式的问题在于：如果以真词为备选词，很难确定受试在答题时使用的是形态知识还是词汇知识（Kuo & Anderson，2006；Tighe & Schatschneider，2015）；此外，因为要正确地作答，受试既需要判断备选词的词性，也需要加工题干中的句子，判断空格处所需单词的词性，所以测试结果容易受到受试英语水平特别是句法分析水平的影响。相较而言，WPLT的用法部分在不提供句子语境的情况下考察词缀的句法功能，不失为一种有效的形态意识句法维度测试。

实施形态意识测试时，试卷分三次发放：首先是基词辨识任务，然后是WPLT的形式部分，最后是WPLT的意义和用法部分；只有在收回前一部分的试卷后才开始后一部分的测试。完成WPLT的形式部分大约需要25分钟，WPLT的意义和用法部分30分钟。评分标准很简单：答案正确得一分，错误不得分。

如表4-1所示，在先导研究中，WPLT的形式、意义和用法部分的百分制平均分分别是66.55、71.96和66.41分，说明受试对词缀意义的掌握好于对词缀形式和句法功能的掌握；S-W检验结果中的显著水平分别是0.381、0.122和0.624，均大于0.05，说明三个部分的测试成绩均呈正态分布。此外，通过统计分析不同难度等级题目的测试成绩，笔者得出三个部分的Cronbachα系数分别是0.899、0.806和0.876，说明三个部分都具有较高的内在一致性^[7]。就由基词辨识任务以及WPLT形式、意义和用法三个部分构成的整个形态意识测试而言，其Cronbachα系数是0.887，说明测试结果的可靠性较高。

4.3.2.2　单词识别测试

单词识别研究最常用的任务形式是命名（naming）和词汇判断任务（lexical decision task）（De Groot et al.，2002）。命名即单词朗读，3.2.2节中已经指出，它对于本研究不适合。词汇判断任务是对单词的真伪进行判断，强调单词识别中学习者对拼写规则的熟练使用。因为本研究中的单词识别重点关注单词语义信息的加工和通达，所以笔者最终采用单词串（word chain）任务测试受试的单词识别能力。单词串任务也称单词默读流利性测试（Test of Silent Word Reading Fluency，TOSWRF）（Mather et al.，2004），要求把连在一起的、成串的单词分离开来，例如把hatsungomantoydogcarfatrun分离成hat/sun/go/man/toy/dog/car/fat/run。相较于词汇判断任务，TOSWRF需要更深一步的加工，因此更适合本研究对单词识别的定义。

TOSWRF中的单词通常是高频的单语素词（Kirby et al.，2003；Roth，2006）。显而易见，对单语素词的识别，不涉及任何形态结构上的分析。因此，要考察形态意识与单词识别的关系，单词识别的测试项目应该是形态复杂词（Kuo & Anderson，2006）。Kieffer和Box（2013）在探究派生形态意识与阅读理解之间的关系时，把受试的TOSWRF成绩作为单词识别的效能指标，但是他们承认，由于TOSWRF中的单词不是形态复杂词，所以形态意识与单词识别的关系被严重低估。有鉴于此，本研究的单词识别测试不使用单语素词，而使用多语素词。

此外，因为词频（包括派生词的整词词频和根词或基词词频）和透明度影响派生词的识别（Carlisle & Stone，2005；Geier，2010；张淑静，2015），所以本研究的单词识别测试包括不同词频和不同透明度的单词，以保证能够比较全面地反映受试的单词识别能力。

传统的TOSWRF是纸笔测试，要求受试在限定时间结束时停止答题，上交试卷。在本研究中，为了严格控制时间，以防有人提前答题或者延迟交卷，笔者把纸笔测试改为了电脑测试，使用Java编程语言设计了测试软件。首先，点击屏幕上的“开始”按钮，屏幕上出现单词串，同时后台的计时器开始计时。然后开始答题，要求受试在他认为应该有空格的地方敲击键盘上的空格键，加入空格^[8]。测试时间一到，单词串从屏幕上消失，电脑自动保存受试所作的改动。

本项测试中有三个单词串：第一个用作练习，帮助受试熟悉测试要求和测试程序，第二和第三个用作正式测试。练习单词串由45个派生词构成，是从Carlisle（2000）的形态结构测试中随机选取的；测试时间限定在一分钟。

第一个测试单词串来自Carlisle（2000）的单词朗读测试（Word Reading Test，WRT）。WRT中共有45个单词，全部是派生词。根据词频高低和透明度，这些单词分为三组：高频透明词、高频不透明词和低频透明词，对应的数量分别是9个、16个和20个。高频词组（即前两组）的词频指数^[9]在50和63之间，平均值是56.8；低频词组（即第三组）的词频指数在30和36之间，平均值是33.3。高频词组和低频词组在词长上相当，所含字母个数的平均值分别是7.9和8.1；在基词的词频上也相当，词频指数的平均值分别是57.6和56.8。因为低频透明词wifelike和fearsome用作单词分离的测试词时有歧义，既可以是派生词，也可以是单语素词wife、like、fear和some，所以笔者从测试项目中去除了这两个单词。最终，测试单词串一由43个单词组成，限时一分钟。

第二个测试单词串来自Deacon等（2011）在单词朗读测试中所用的64个派生词。在4.3.2.1节中，笔者已对这些单词的具体情况予以说明，在此不再赘述。由于其中的serviceable用作单词分离的测试词时有歧义，所以这部分测试由其余63个单词组成，限时一分半钟。需要说明的是，由于基词辨识任务中的部分测试词与这个单词串中的单词相同，所以在组织测试时，笔者特意把单词识别测试安排在形态意识测试之前。

为了检验测试时间的设置是否合理，2014年5月，在洛阳理工学院附属中学高三年级的一个班中，笔者对英语水平最高的八位同学^[10]进行了试测。不考虑单词分离的正确与否，在限定时间内，三个单词串的最好成绩分别是完成了30个、33个和54个单词的分离，这说明测试时间的设置能够避免天花板效应^[11]。

单词识别任务的计分方法是：每正确分离出一个单词计一分，两个测试单词串分别计分，然后取其和作为最终成绩。

在先导研究中，两个测试单词串的成绩高度相关（r＝0.745，p＜0.001），整个单词识别测试的Cronbachα系数是0.854，说明测试具有较高的信度。表4-1中的数据显示，受试在两分半钟的时间内平均分离了56.73个单词，即平均每分钟分离22.69个单词；S-W检验的结果说明单词识别的测试成绩呈正态分布。

4.3.2.3　词汇广度测试

20世纪80年代是二语习得和语言测试历史上的重要时期，标志着二语词汇知识测试系统性和精细化研究的开始。从那时起到现在，在已有的各种词汇广度测试中，最有影响力、使用最广泛的是词汇等级测试（Vocabulary Levels Test，VLT）（Nation，1983；Schmitt et al.，2001）。2007年，Nation和Beglar编制出词汇量测试（Vocabulary Size Test，VST），虽然历史不长，但是正在被越来越多的研究者认可和使用。VLT和VST都是测量词汇广度的工具，但是两者各有优势和侧重，笔者在对其分析之后，认为两者可以互补，所以决定两项测试都采用，分别作为本研究词汇广度测试的第一和第二部分（见附录3）。下面笔者分别讨论VLT和VST。

1983年，VLT诞生于Nation的笔下。1993年，Schmitt对其进行了修订，称之为A版本，同时设计出三个新的平行版本，分别命名为B、C、D版本（Schmitt et al.，2001），这四个版本被广泛应用于教学和研究之中。2001年，Schmitt等把A和B版本合并、C和D版本合并，经过大量的更新和完善，最终定稿为版本一和版本二。并且，Schmitt等（2001）开展了大规模的验证研究，通过对各种量化和质化数据的多维度分析，为两个版本提供了充分的效度证据。因此，本研究采用Schmitt等（2001）的VLT版本，下面的介绍和说明围绕它们展开。

VLT中的“等级”是按照频率从高到低的顺序、以每1 000个词族为单位划分的，第一等级包括频率最高的1 000个词族，第二等级包括第1 001到第2 000个词族，依此类推。VLT的频率统计以Thorndike和Lorge（1944）的词汇表为主要依据，以Kucera和Francis（1967）以及West（1953）的词汇表为参考。VLT以Bauer和Nation（1993）的第五等级为词族确定标准。

VLT从第二、第三、第五和第十词族等级以及AWL（Academic Word List，学术词汇表）的570个词族（Coxhead，1998）中分别抽取60个单词，然后按照词性，把60个单词平均分为10组，包括5组名词、3组动词和2组形容词。每组的6个单词位于左栏，右栏中有3个释义，要求受试从6个单词中为3个释义找出各自对应的单词，即6个单词中，3个是目标项，3个是干扰项。

VLT是一项诊断测试。它的设计者和修订者们（Nation，1983；Schmitt et al.，2001）认为，日常的基本交流需要2 000个单词，3 000个单词是能够阅读真实文本的阈值，顺畅地阅读真实文本需要5 000个单词，二语学习者在英语环境下接受大学教育需要10 000个单词，二语学习者在以英语为媒介的学术环境中需要专门的学术词汇。因此，VLT专注于评估受试对第二、第三、第五和第十等级词族以及AWL词族的掌握情况，以对接下来的词汇教学提出指导意见。但是，在ESL研究中，VLT也被普遍用于测量受试的总体词汇量（例如：Qian，1999，2002；Zhang & Koda，2012），本研究也是如此。

VLT由五个部分组成，每个部分由来自同一个词族等级的10组单词组成，五个部分按照第二等级、第三等级、AWL、第五等级和第十等级的顺序排列。笔者认为第十词族等级这个部分对于本研究的受试而言太难，所以只保留其余四个部分，共40组单词。为了避免受试在测试的后半部分，由于不认识或不熟悉的单词过多，敷衍了事，盲目猜测，笔者把40组单词打乱顺序，随机排列。

在VLT的五个部分中，只有第二词族等级那个部分的释义有汉语版。为了保持统一，五个部分全部采用英语释义。由于释义所用单词全部控制在频率最高的2 000个词族范围内，所以对本研究的受试而言，不会造成理解上的困难。

由于Schmitt等（2001）的VLT版本一和版本二等效，笔者随机选取了版本二进行词汇等级测试。试卷由40组单词组成，共120个目标词，120个干扰词。每选对1个目标词计1分，总分120分。

与VLT不同，VST不是诊断测试，而是水平测试，测量一语和二语学习者书面接收性词汇的广度。所谓书面接收性词汇，正是阅读所需的词汇。

VST是一项以多项选择形式呈现的分离式测试，主要测量单词的非语境化知识。每道题目的题干是一个单词和含有这个单词的一个句子。这个句子的用词和句法都非常简单，长度也很短，易于理解。通过这个例句，受试可以推断出测试词的词性；在测试词具有多个相差甚远的意义时，这个例句能够对所要测试的意义进行一定程度的限制或者提示。但是，这个例句提供的语境极其有限，是一个非定义性的语境，四个选项给出的意义都适合它。受试所要做的就是从四个选项中选出对测试词的正确释义。

与VLT一样，VST也是以词族为单位进行测试词取样的。以BNC为数据来源，以Bauer和Nation（1993）的第六等级为词族确定标准，按照从高频到低频的顺序，VST从每1 000个词族中抽取10个测试词。完整的VST由140个测试词组成，代表前14 000个词族^[12]。每1 000个词族10个测试词的取样率使VST不适合像VLT一样用于分析受试对每个词族等级的掌握程度，但是每个词族等级都有10个代表样本，这使得测试分数能够较好地反映受试的词汇广度水平。Beglar（2010）对197名受试的测试成绩进行了基于Rasch模型的分析，结果很好地验证了VST的效度，并且在五种不同的题目组合情况下，VST的Rasch信度指标都大于或等于0.96。

Nation和Beglar（2007）指出，对于初级和中级学习者，没有必要让他们完成所有14个等级的题目，只要使用比他们现有词汇量高几个等级的即可。根据《高中英语新课程标准》（2013）对词汇的要求，笔者估计大学新生的平均词汇量应该在3 000个左右。因此，本书研究只使用VST中代表前5个词族等级的50个测试词。为了验证这一决定是否正确，2014年5月，在洛阳理工学院附属中学高三年级的一个班中，让英语水平最高的8位同学（即4.3.2.2节中的八位同学）口头完成VST中第六至第八词族等级的30个题目，并且指出哪些题目的答案是完全瞎猜出来的。结果显示，在240个答案中，正确的有37个，而在37个正确的答案中，有31个是瞎猜的。这些数据表明，VST中高于第五等级的题目不适合本研究。

在VST中，测试词按照频率从高到低的顺序排列，简单地说，就是简单的词在前面，难的词在后面。与对VLT的改编一样，笔者把第一至第五词族等级的50个测试词打乱顺序，随机排列，以保证受试能够认真对待整个测试。

VST有单语版和汉语、俄语、日语等双语版。单语版中，所有文字都是英语；双语版中，选项给出的释义使用ESL学习者的母语。考虑到英语释义和汉语释义能够互相补充说明，笔者决定在选项中把两种释义都列出，其中汉语的在前，英语的在后。在这个过程中，笔者发现有些选项的汉语翻译有误。例如：allege的正确选项“claim without proof”在汉语版中成了“辩解”，另一个选项“argue against the facts that support it”成了“反抗”，笔者将其分别修订为“声称”和“反驳”。在本研究使用的50道题目中，共进行了9处这样的修订。

VST试卷每题1分，总分50分。测试成绩乘以100就是受试的词汇量（以词族为单位），例如，32分代表的是3 200个词族的词汇量。

完成本研究的词汇广度测试（包括VLT和VST）大约需要75分钟。满分为170分。如表4-1所示，先导研究的测试成绩呈正态分布，百分制平均分为59分。以VLT的四个等级和VST整体作为词汇广度测试的五个构成部分计算其Cronbachα系数，结果是0.908，说明五个部分高度一致。

4.3.2.4　词汇深度测试

词汇深度知识的测量方法主要分为两类：发展性测量和维度性测量（Read，2000）。发展性测量关注的是学习者对一个单词掌握程度的变化，通常以量表的形式出现，例如，0代表“完全不认识”，5代表“熟练掌握”。Wesche和Paribakht（1996）开发的词汇知识量表（Vocabulary Knowledge Scale，VKS）是最具代表性的发展性测量工具。但是，在VKS的五个等级范畴中，“掌握了测试词意义”的等级范畴要求受试提供同义词或者进行翻译，“掌握了测试词用法”的等级范畴要求受试用测试词造句。换而言之，VKS是通过语言的产出来确定受试对测试词的掌握程度，因此尽管它在其他场合有用，但是不适合阅读研究。

最具代表性的维度性测量形式是单词关联词测试（Word Associates Format，WAF）。WAF是Read（1993）受到了心理语言学上常用的词汇联想任务（word association task）的启发而开发的，后来有研究者（Read，1998；Qian & Schedl，2004）采用这种测试形式设计出不同的版本。WAF被广泛应用于教学和研究中（Qian，1999；Nassaji，2006；Zhang，2012），Qian和Schedl（2004）甚至建议把WAF纳入托福考试中。

在Read（1998）的WAF版本中，测试词（也称目标词，或者按照词汇联想任务中的称呼，也叫刺激词）是40个常用的形容词。每个形容词后有8个备选单词，分列两栏，每栏中4个单词，要求从中选出4个与测试词相互关联的单词。WAF测试词汇知识的两个重要方面：词汇的意义（同义和多义）和用法（搭配）。左栏中的单词都是形容词，要求从中选出测试词的同义词或近义词，即纵聚合（paradigmatic）关联词，或者选出表示测试词意义的一个方面、有可能是测试词词典释义一部分的单词，即分析性（analytic）关联词；右栏中的单词都是名词，要求选出可以在短语或句子中与测试词搭配的单词，即横组合（syntagmatic）关联词。为了降低猜测因素的影响，4个关联词的分布有3种可能：1个在左栏，3个在右栏；或者3个在左栏，1个在右栏；或者左右栏中各2个。Read（1998）通过访谈任务和特别设计的填空测试对该版本WAF的共时效度进行了验证，结果发现三者两两相关，对它进行了基于项目反应理论（Item Response Theory，IRT）的Rasch信度计算，结果是0.93。

在现有的WAF版本中，Read（1998）版本的认可度和使用率最高。笔者经过比较，发现它也是最适合本研究的版本^[13]，但是考虑到本研究中受试的英语水平，为了保证它在本书中的效度，笔者需要进行一些改动。

经过比较分析，在WAF（Read，1998）的40个测试词中，有16个没有出现在《高中英语新课程标准》（2013）的词汇表中^[14]。但是，在这16个单词中，formal和conscious的词频很高，在West（1953）的通用词汇表（General Service List，GSL）中，它们分列第1 159和第815位，在BNC的词频表中，第1 528和第3 043位，在布朗语料库（Brown Corpus）的词频表中，第2 249和第2 341位^[15]。并且，《高中英语新课程标准》（2013）的词汇表中虽然没有这两个单词，但是有formal的词根form和conscious的派生词unconscious，词汇表的使用说明也提示：“部分可根据构词法推导出的副词、名词等不单列”。笔者咨询了一位高三年级的英语老师，她说：“formal这个词，学生们应该熟悉；conscious这个词，程度好的学生应该知道。”最终，笔者决定保留这两个单词，删除其余的14个单词。WAF（Read，1998）的测试说明是以sudden一词为例的。为了确保受试能够真正明白测试的要求，笔者又增加了两个练习词：一个是conscious，另一个是选自Qian和Schedl（2004）的fine。所以，在本研究最终的词汇深度测试卷（见附录4）上，例词1个，练习词2个，测试词25个。

关于WAF的计分，大多数研究者（例如：Nassaji，2006；Qian，1999，2002）采用“正确得分，错误不扣分”的方法，选择1个关联词计1分，选择非关联词不扣分，每个测试词满分4分。但是也有研究者（例如：Zhang & Koda，2012）采用“正确得分，错误扣分”的方法，选择1个关联词和不选1个非关联词都计1分，反之都扣1分，每个测试词满分8分。Schmitt等（2011）指出，只要受试按照要求选出4个关联词，无论正确与否，两种方法计算出的得分比例一样。有鉴于此，笔者决定采用“正确得分，错误不扣分”这种更为常用和简便的计分方法。

完成词汇深度测试大约需要35分钟。阅卷标准是：每题4分，总分100分。先导研究的测试结果（见表4-1）显示，词汇深度测试难度适中，成绩呈正态分布，平均分为66.94分。

4.3.2.5　语法知识测试

对语法知识的测试，本研究使用英语综合测试（Comprehensive English Language Test，CELT）（Harris & Palmer，1986）中结构部分的试题。

CELT是一项面向ESL学习者设计的标准化英语水平测试，适用于具有中级或高级英语水平的高中生、大学生和成人。CELT属于分离式测试，由结构、词汇和听力三个部分组成，使用者可以根据自己的需要，任意选取其中的一个或者多个部分进行测试，所有试题全部采用多项选择的形式。

CELT中的结构部分用于测量学习者操控英语语法结构的能力。试题的编制是在大规模试测的基础上，在进行项目分析和听取老师反馈后，修订完善而成。在CELT设计者Harris和Palmer（1986）进行的五次测试中，该部分的信度系数是0.88（标准测量误差是4.96）至0.96（标准测量误差是3.85）。在赵福利（2008）的研究中，该部分的信度系数是0.89。并且，在Harris和Palmer的报告中，该部分具有效标关联效度（criterion-related validity），与托福考试、密歇根大学成绩测试A系列和密歇根大学英语水平考试语法部分的相关系数分别是0.83、0.84和0.7。以上数据为CELT中结构部分试题的信度和效度提供了一定的证据。

语法知识测试共有75道题目，每道题目由一个简短的对话组成，对话的某一部分省略，要求受试从四个选项中选出正确的答案，把对话补充完整。在75道题目中，考察动词的有33道，考察名词、代词、形容词和副词的有20道，考察语序的有8道，考察介词的有7道，考察附加疑问句和省略回答的有7道（Harris & Palmer，1986）。Purpura（2004）把这些题目所测量的语法知识归纳如下：

表4-3　CELT结构部分所测量的语法知识

pagenumber_ebook=85,pagenumber_book=74

完成语法知识测试大约需要60分钟。评分标准是：每题1分，总分75分。受试在先导研究中的表现（见表4-1）说明，语法知识测试难度适中，百分制平均分为67.54分；S-W检验显示成绩呈正态分布（0.157＞0.05），说明测试能够区分受试操控语法结构能力的高低。

4.3.2.6　阅读流利性测试

在第3章中笔者指出，由于默读是一种无法直接观察的行为，所以如何客观、准确地对其进行测量是个难题。Fuchs等（2000）让学生在两分钟结束的时候把自己读到的最后一个单词圈出来，以已读的单词数作为默读流利性的测试成绩（引自Fuchs et al.，2001）。但是这种方法的缺陷显而易见：一方面学生自己报告的阅读进度有可能不真实，另一方面我们只知道学生读了多少，而不知道他们读懂了多少。

目前，效度较高的默读流利性测量方法主要有四种。

第一种是Hammill等（2006）设计的篇章默读流利性测试（Test of Silent Contextual Reading Fluency，TOSCRF）。它与单词默读流利性测试（TOSWRF）形式类似，都是要求受试把连成串的单词分离开来（见4.3.2.2节）。不同的是，TOSWRF中的单词孤立存在，相互之间没有关系，而TOSCRF中却是把一篇文章中所有的空格和标点符号删除后剩下的单词串，并且全部单词统一成大写^[16]。因此，在答题的过程中，受试如果能够逐渐对句子和语篇的大意有所把握，将有助于他们快速、准确地完成TOSCRF。

第二种是句子验证任务（例如：Woodcock et al.，2001），要求受试阅读一些句子，每阅读完一句，对句子内容的真假作出判断。这些句子都是精心设计的，只要理解了句子的内容，就能根据常识作出正确的验证，例如：All birds are blue。单位时间内被正确判断出真假的句子数代表受试的阅读流利性。

第三种是一种特殊的完形填空——迷宫（maze）任务（例如：Denton et al.，2011）。所谓迷宫，是指为文章中的特定单词（通常是每七个单词中的第七个单词）分别设置三个备选选项，要求从中选出正确答案，即原文使用的单词。两个干扰项，一个与正确答案关系较近，通常属于同一词类，另一个与正确答案关系较远。迷宫任务对理解的要求不高，受试只要能够明白句子、段落和语篇的字面意义就能作出选择。测试通常以限时的方式进行。

第四种是国外用于阅读流利性训练的速读（speed reading），又称计时阅读（timed reading）。具体操作是：让学生阅读一篇文章，记录下从开始到结束所用的时间，然后在不能再去翻阅这篇文章的情况下，完成一些与文章内容有关的问题（Macalister，2014）。这些问题聚焦于学生对文章主旨和重要事实的掌握，而不是对细枝末节的记忆和对文章深层含义的分析和推断（Quinn et al.，2007；Millet，2005a，2005b，2013a，2013b）。

据笔者所知，关于这四种测试的优劣，目前还没有相关的理论或实证研究。因此，为了尽可能有效地测量阅读流利性，笔者决定使用除句子验证任务之外的其他三种测试。不使用句子验证任务，一方面是因为这些句子大多是描述常见动物和物体特征的简单句，远不能涵盖现实阅读中多样的句法和丰富的内容，另一方面是因为它考察的是句子层面的阅读，而不是大多数研究（包括本研究）所关注的篇章层面的阅读（Klauda & Guthrie，2008）。

所以，本研究的阅读流利性测试由三部分组成。第一部分按照TOSCRF（Hammill et al.，2006）设计。不同的是，所有字母像TOSWRF一样全部小写，而不是大写。另外，TOSCRF是纸笔测试，通常限时三分钟，要求受试在三分钟结束时停止答题，上交试卷。为了严格控制时间，以防有人提前答题或者延迟交卷，笔者把纸笔测试改为了电脑测试，使用Java编程语言设计了测试软件。首先，点击屏幕上的“开始”按钮，屏幕上出现一个单词串，同时后台的计时器开始计时。然后开始答题，要求受试从前至后、从头至尾依次在他认为应该有空格的地方敲击键盘上的空格键，加入空格^[17]。每个单词串的测试时间是三分钟。三分钟结束时，单词串从屏幕上消失，电脑自动保存受试所作的改动。同时，屏幕上出现“当你准备好分离下一个单词串时，请点击‘开始’按钮”，这样就进入了下一个单词串的测试。例如：

intheunitedstatesideasabouteducationarechangingeducationtoday isnotjustahighschooldiplomaoracollegedegreemanyadultsarenotintere stedingoingtocollegetheyareinterestedinotherkindsoflearning.

正确分离后，上面的单词串呈现如下面貌：

in the united states ideas about education are changing education today is not just a high school diploma or a college degree many adults are not interested in going to college they are interested in other kinds of learning.

本项测试中有三个单词串（即三篇文章），第一个单词串用作练习，帮助受试熟悉测试要求和测试程序。三篇文章选自全国公共英语等级考试二级（Public English Test System Level 2，PETS-2）中的阅读理解部分。为了便于单词分离，避免产生歧义，原文中含撇号“'”或简写号“.”的缩写全部恢复为完整形式，“I've”“here's”“don't”分别改成了“I have”“here is”“do not”，“a.m.”改成了“in the morning”含撇号“'”的所有格用of短语替换，“a child's healthy development”改成了“the healthy development of a child”；含连字符的复合词用不含连字符的同义词替换，“grown-up”改成了“adult”；阿拉伯数字用英语单词拼写，例如：“9∶50”改成了“nine fifty”，“in the 60s”改成了“in the sixties”。此外，为了控制文章的长度和难度，笔者删除和改写了部分内容。2014年5月，在洛阳理工学院附属中学高三年级的一个班中，笔者对英语水平最高的八位同学（即4.3.2.2节和4.3.2.3节中的八位同学）进行了试测，最好成绩是三分钟分离出143个单词（包括分离错误的单词）。三篇文章的长度分别是228、237和228个单词，应该不会出现有人在三分钟时间还没到的时候就完成了全部单词的分离，能够避免天花板效应。

TOSCRF任务的计分方法是：每正确分离出1个单词计1分，两篇测试文章分别计分，然后取其和作为最终成绩。第一篇测试文章中有1个复合词workload，无论分离成workload还是work load都判定为正确，但计分都只计1分。

在先导研究中，两篇测试文章的成绩高度相关（r＝0.822），整个TOSCRF任务的Cronbachα系数是0.902，说明测试具有很高的内在一致性。表4-1中的数据显示，受试在六分钟的时间内平均分离了169.63个单词，即平均每分钟分离28.27个单词；S-W检验的结果说明TOSCRF任务的测试成绩呈正态分布。

阅读流利性测试的第二部分是迷宫任务。笔者从Diamond和Thorsnes（2008）的分级迷宫阅读测试中选取了三篇文章。每篇文章的第一句保持原样，从第二句开始，每七个单词中的第七个单词用括号内的三个备选单词代替。三个单词中，一个是原文使用的单词，即正确选项，另外两个是干扰选项，放在文章中讲不通。例如：The rain_________（sang，cement，fell）on the garden.每篇文章原定限时三分钟（Sarasti，2009），后改为两分半钟，要求受试在限定时间结束时停止答题，上交试卷。

为了严格控制时间，以防有人提前答题或者延迟交卷，笔者把传统的纸笔测试改为电脑测试，使用Java编程语言设计了测试软件。首先，点击屏幕上的“开始”按钮，屏幕上出现一篇文章，同时后台的计时器开始计时。然后开始答题，要求受试从括号内的三个备选单词中选出正确答案。用鼠标点击你认为正确的单词，该单词自动出现在前面的横线上；如果要取消操作，只需再次点击，则该单词从横线上消失，这时受试可以重新答题。限定时间一到，文章从屏幕上消失，电脑自动保存答题结果。同时，屏幕上出现“当你准备好要完成下一篇文章时，请点击‘开始’按钮”，这样就进入了下一篇文章的测试。

三篇文章中的第一篇用作练习，另外两篇用作正式测试，文章的长度分别是324、391和366个单词，分别有44、53和50个单词需要选择。2014年5月，在洛阳理工学院附属中学高三年级的一个班中，我们对英语水平最高的八位同学（即参加TOSCRF试测的八位同学）进行了试测，结果有人在三分钟时间还没到的时候就完成了第一篇文章，至于另外两篇，最好成绩是三分钟完成了49个单词的选择（包括选择错误的单词）。因此，为了避免天花板效应，笔者把限定时间改为两分半钟。

迷宫任务的阅卷标准是：每正确选择1个单词计1分，两篇测试文章分别计分，然后取其和作为最终成绩。在先导研究中，两篇测试文章的成绩高度相关（r＝0.869，p＜0.001），迷宫任务的Cronbachα系数是0.93，说明测试结果可靠。如表4-1所示，受试在五分钟的时间内平均完成了44.24个单词的正确选择，即平均每分钟阅读大约65个单词；S-W检验的结果说明迷宫任务的测试成绩呈正态分布。

阅读流利性测试的第三部分选自惠灵顿维多利亚大学语言学和应用语言研究学院编写的一套面向ESL学习者的分级速读教程（Millet，2005a，2005b，2013a，2013b；Quinn et al.，2007）。笔者从中选取了三篇文章，每篇文章后面有十道三选一的选择题。三篇文章分别讲述牛仔裤的起源和发展、一位作家的一生、埃塞俄比亚咖啡的传说和现状。根据《高中英语新课程标准》（2013）对词汇的要求，笔者估计大学新生的平均词汇量应该在3 000个左右。所以，除了人名和地名等专有名词，这三篇文章所使用的词汇都不超出最常用的3 000个词族，其中第一篇和第三篇控制在3 000个BNC高频词族范围内，第二篇控制在GSL的前2 000个词族范围内。因为学生平常很少进行此类训练，所以第一篇文章用作练习，帮助他们熟悉文章的难度和问题的类型以及测试的流程，第二篇和第三篇用作正式测试。

为了准确记录时间，也为了防止学生在回答问题时翻阅文章，笔者使用Java编程语言设计了测试软件。主要操作包括：点击屏幕上的“开始”按钮，屏幕上出现文章，同时后台的计时器开始计时；学生阅读完文章，点击“结束”按钮，文章从屏幕上消失，计时器停止，这时电脑已自动记录下学生阅读文章所用的时间，同时屏幕上出现问题；学生回答完问题，点击“提交”按钮，屏幕上出现“你已完成这篇文章的测试。当你准备好开始阅读下一篇文章时，请点击‘开始’按钮”；这样就进入了下一篇文章的测试。

这一部分的计分方法是：用文章的单词数除以阅读时间，然后乘以回答问题的正确率（例如，10个问题回答正确8个，则正确率是80%），表示在理解所读内容的同时平均每分钟的阅读单词数；两篇测试文章分别计分，取其平均数作为最终成绩。

在先导研究中，两篇测试文章的成绩高度相关（r＝0.768，p＜0.001），速读任务的Cronbachα系数是0.868，说明测试结果可靠。表4-1中的数据显示，受试平均每分钟阅读大约93.97个单词；S-W检验的结果说明速读任务的测试成绩呈正态分布。整个阅读流利性测试的Cronbachα系数是0.851，说明TOSCRF、迷宫和速读三个部分具有较高的一致性。

4.3.2.7　理解准确性测试

理解准确性测试取材于PETS阅读理解部分的试题。这样做是出于以下考虑：首先，PETS是我国和英国的一项交流合作项目，我国教育部考试中心负责考试的设计和实施，英国专家指导和参与考试的设计，具有较高的信度和效度。我国教育部考试中心提出，高考和研究生入学考试中的英语应该充分借鉴PETS-2和PETS-4，尽量与它们保持一致。根据规定，PETS-2和PETS-3的笔试合格，可以分别免考自学考试专科和本科阶段的公共英语。

其次，PETS是面向社会的一项非学历性英语水平考试，为了不影响学校正常的英语教学，中学和大学不允许组织在校生参加PETS。因此，笔者的研究对象——经过高考即将开始大学生活的学生们——不太可能接触过PETS中的试题。这样基本上能够保证测试中不会出现受试曾经读过的文章，从而使测试结果可以更加真实地反映受试的阅读水平。

最后，PETS由易至难从一级到五级共分五个级别，能够提供难度不同的试题，确保测试具有较好的区分度。此外，PETS-3的阅读理解试题中有配对题，有助于笔者解决测试题型单一的问题，提高测试的信度和效度。

在PETS的五个级别中，二级相当于高中毕业生的英语水平，难度与高考英语相似；四级相当于大学非英语专业毕业生的英语水平，通过该级别的考生，英语水平基本满足进入研究生阶段学习的要求。考虑到本研究的受试是一本和二本院校的一年级新生，其中既会有英语水平很高的学生，也会有其他科目成绩优异但英语较弱的学生，因此笔者决定主要从PETS-2和PETS-3中选取理解准确性测试的试题，同时也从PETS-4中选取少部分的试题。

PETS-2的阅读理解部分有5篇文章，每篇文章后有四道四选一的选择题。PETS-3的阅读理解试题由两部分组成：第一部分有3篇文章，每篇文章后有五道四选一的选择题；第二部分是人物和观点的配对题，有1篇文章，是五个人就一个问题分别发表自己的看法，文章后面有七句陈述，要求从中为每个人选出一句与其观点一致的陈述。PETS-4的阅读理解试题分为两部分：第一部分有4篇文章，每篇文章后有五道四选一的选择题；第二部分是翻译题，有1篇文章，要求读完之后翻译其中的五个句子。因为PETS-4的难度较高，而翻译题又容易受到汉语表达水平的影响，所以不从PETS-4阅读理解的第二部分选取试题。

首先，从2011至2013年PETS-2、PETS-3和PETS-4的试卷中选取了16篇文章以及其后的测试题目。在PETS的试卷中，有些单词后加注了汉语释义。为了准确计算文章的易读性，删除了这些汉语释义。2014年5月，在洛阳理工学院附属中学高三年级的一个班中，利用自习课时间，让学生们完成了这16篇文章的阅读理解测试。随后，研究者与一位长期从事大学英语阅读教学的同事一起对每篇文章和每道题目进行了细致的分析。根据学生们的测试成绩^[18]和对试卷的分析，在综合考虑了文章和题目的难度（以保证试卷具有较好的区分度）、文章的类型和题目的类型（以避免类型过于单一，从而影响试卷的信度和效度）之后，决定采用其中的10篇文章。

从难度上看，这10篇文章的构成是：4篇来自PETS-2，5篇来自PETS-3，1篇来自PETS-4。从文章的类型上看，包括记叙文、议论文、说明文和应用文。从题型上看，为了克服全部使用选择题进行测试的缺点^[19]，研究者与上述的那位同事一起把其中3篇文章后的选择题改编成了简答题，要求用简洁的语言回答这些问题。并且，为了避免英语写作水平的影响，也为了防止出现有人没有读懂、答题时把文章中的原句照抄下来的情况，这些问题要求必须用汉语回答。换而言之，本研究采用了多项选择题、选择配对题和简答题三种题型。这些措施有利于提高测试的信度和效度。

因为10篇文章的阅读理解测试量太大，所以为了防止受试感到倦怠和厌烦，笔者决定分两次进行理解准确性测试。测试一由难度较低的6篇文章组成，其中4篇来自PETS-2，2篇来自PETS-3。6篇文章的平均弗莱士易读度（Flesch Reading Ease）^[20]是68.48，略高于2014年高考英语试卷中阅读理解部分文章的平均易读度^[21]，但是考虑到在高考试卷中有些单词后加注了汉语释义，在一定程度上提高了文章的易读性，所以测试一中文章的难度与高考基本一致。

受试大约需要75分钟完成测试一。试卷总分60分。第一部分是多项选择题，共3篇文章，每篇文章后四道问题，每题2.5分，共30分；第二部分是配对选择题，1篇文章，每题2分，共10分；第三部分是简答题，共2篇文章，每篇文章后四道问题，每题2.5分，共20分。换而言之，每篇文章的分值是10分。

测试二的难度相对较高，由3篇来自PETS-3和1篇来自PETS-4的文章组成。4篇文章的平均弗莱士易读度是54.33，平均弗莱士—金凯德年级水平（Flesch-Kincaid Grade Level）是10.2。受试大约需要65分钟完成测试二。试卷总分40分。第一部分是多项选择题，共3篇文章，每篇文章后五道问题，每题2分，共30分。第二部分是简答题，有1篇文章，文章后有五道问题，每题2分，共10分。

就派生词出现的频率而言，在10篇测试文章中，派生词单词数占总单词数的9.4%。具体地讲，该比例在测试一中是7.3%，在测试二中是12.4%。

如表4-1所示，在先导研究中，受试在测试一和测试二中的成绩均呈正态分布，测试一的百分制平均分是73.52分，测试二的百分制平均分是61.3分。进一步的配对样本t检验显示，受试在测试一与测试二中的成绩具有显著差异（t＝14.96，p＜0.001），说明测试一能够代表较易的阅读，测试二能够代表较难的阅读。

4.3.2.8　访谈提纲

本研究采用半结构式（semi-structured）访谈，由研究者本人与从受试中随机选取的访谈对象进行一对一的交流。访谈时，尽力创造轻松的、朋友聊天式的氛围，以派生词缀的学习和其与英语学习方方面面的关系为主线，鼓励受试从自身的学习实际和学习体会出发畅所欲言。为了防止访谈内容影响受试在形态意识测试中的表现，同时也是为了保证受试的发言能够具体、深入，而不是无话可说、泛泛而谈，在时间的安排上，访谈晚于形态意识测试进行。访谈围绕以下问题但又不拘泥于这些问题展开：

（1）你觉得那几项关于词缀和单词构成的测试（即形态意识测试的四个部分）难吗？哪些部分比较难？哪些部分容易？

（2）你觉得自己对词缀和构词法知识掌握得怎么样？

（3）你是如何获得词缀和构词法知识的？老师是否讲授过这些知识？是系统地讲授还是偶尔提及？

（4）你觉得词缀和构词法知识对英语学习重要吗？

（5）在你的单词学习中，例如在推测新单词的词义和词性、扩大词汇量、加深对单词的掌握等方面，词缀和构词法知识是否起到了帮助作用？

（6）你觉得词缀和构词法知识与语法学习有关系吗？

（7）你觉得自己的阅读水平怎么样？要提高自己的阅读水平，你觉得应该在哪些方面下功夫？

4.3.2 工 具

4.3.2　工　具