首页 理论教育 英语词汇教学:种类和用途的词汇测试

英语词汇教学:种类和用途的词汇测试

时间:2023-07-26 理论教育 版权反馈
【摘要】:相比之下,Nation开发的词汇水平测试的设计相对具有一定的优势。VS从每个等级中选取词汇,并设计18个题目进行测试,一般可在5分钟之内完成。VST在之前的词汇广度测试的基础上,在词汇的选材和任务设置方面做了改进。VST从每个等级的词汇中各选10个词,并编写140个测试项目。VST分为单语种版本和双语版本,双语版本的词汇量测试适合英语作为第二语言的学习者,其选项的释义被翻译成了学习者的第一语言。

英语词汇教学:种类和用途的词汇测试

(一)测量词汇广度

了解英语为二语的学习者的词汇量对学习者的学习和教师的教学非常有帮助,因为学习者的词汇广度与其英语水平是紧密关联的。英语教师可以根据学生的词汇量大体上判断学生现有的英语水平,以及安排适合他们水平的英语教学和测试。此外,教师也可以根据学生的词汇广度将他们划分为不同的级别或水平,将他们分类并安置在不同难度的课程中。对于学习者来说,了解自己的词汇水平也会对其自身的英语水平有一个比较客观的了解,从而有助于根据自己当前的进度制定适合自己的学习计划。

迄今为止,研究二语词汇的专家和学者已开发出了多种词汇广度的测量工具。相对来讲,开发时间较早且比较成熟的一种词汇广度测试叫做“欧洲中心词汇量测试(Eurocentres Vocabulary Size Test,简称EVST)”,由Meara(1990)开发。一般来讲,一个词在文本中出现的频率越高,学习者就越有可能认识这个词,该测试的词汇选择就是根据此原理进行的。EVST从Thorndike和Lorge(1944)的词汇频率表中选择词汇,把所有的词汇由使用频率最高到使用频率最低分为10个等级,每个级别1000词。该测试通过计算机进行,由计算机从每一个级别里随机选择20个单词对学生的词汇量进行测试。所选词汇被呈现在屏幕上,考生需要回答是否认识这些词。为了尽量避免考生虚报自己本来不认识的词汇,该测试还另外加入了一些非英语单词字母组合。如果考生对这些单词选择了肯定的选项,测试系统会根据这些判断下调考生的词汇量。一开始出现的是使用频率较高的词,如果考生对这些词汇识记的情况良好,计算机会自动开始下一个级别的词汇测试;如果考生对该级别词汇的识记情况不太好,计算机就会停留在这一级别中,并再从这1000个词汇中抽样50个进行测试,以更加精确地测量该考生的词汇量。整个考试的时间一般不超过10分钟。这种考试的优点是操作方便、效率高,出题和统计等环节都可以由计算机进行,但是即使考试设置了非英语单词以尽量避免考生不诚实的回答,主观性仍然很强。有些考生认为自己认识某个单词,但实际上并不一定能准确地描述它的意义。

相比之下,Nation(1990)开发的词汇水平测试(Vocabulary Levels Test,简称VS)的设计相对具有一定的优势。该测试根据词频把英语词汇分为2000、3000、5000、大学词汇水平(5000以上)和10,000词族等五个等级。VS从每个等级中选取词汇,并设计18个题目进行测试,一般可在5分钟之内完成。任务设计考查的内容涵盖了学习者对词汇意义是否真正理解,以选择题的形式呈现。另外,为了减小猜对的概率,在每3个词一组的情况下,又增加了3个干扰项。干扰项的干扰性不太大,只要学习者能够理解该词的意思,一般都能选出正确答案。例如,下面这道测试题:

(1) ceiling

(2) office  ________ something that tells time

(3) watch  ________ main body of a tree

(4) vehicle  ________ a tool used for writing

(5) trunk

(6) pen

近年来比较受关注且应用较广泛的词汇量测试是Nation和Beglar(2007)开发的词汇量测试(Vocabulary Size Test,简称VST)。VST在之前的词汇广度测试的基础上,在词汇的选材和任务设置方面做了改进。该测试的词汇选自英国国家语料库(British National Corpus,简称BNC)中的词汇表(Nation,2006),并将该表中的词汇按照使用频率分为14个等级,每个等级各1000词,这14,000词在英语文本中可以覆盖到99%的词(Nation & Beglar,2007)。VST从每个等级的词汇中各选10个词,并编写140个测试项目。测试题型选用4个选项的单选题,每道题给一个简短的例句,其中包含所测单词,每道题测一个单词。VST分为单语种版本和双语版本,双语版本的词汇量测试适合英语作为第二语言的学习者,其选项的释义被翻译成了学习者的第一语言。例如,中文版词汇量测试的一道题:

didactic: The story is very didactic.

A.说教的 B.难以置信的 C.令人兴奋的 D.令读者琢磨不透的

VST测量的是考生的接受性词汇量,其选词相比更早开发的一些测试更为科学、系统,适用于来自各种第一语言背景的学习者,且选用单选题的形式使得评分有效率,难度容易控制。该测试可以检验学习者是否真正了解单词的含义,而不是仅凭自己的印象进行主观判断。VST近年来在学界比较受关注,涌现了一些相关的研究,如Beglar(2010)以罗殊模型对VST进行了效度验证;Elgort(2013)和Karami(2012)的研究表明,双语版的词汇量测试对英语为二语的学习者效果更好;Zhang(2013)探讨了在VST中加入“我不知道”选项的利弊;Stewart(2014)通过使用罗殊模型对VST的单选题进行分析,指出由于选择题中的猜测因素,该测试容易高估学习者的词汇量。

对于学习者的产出性词汇量,Laufer和Nation(1999)开发了产出性词汇水平测试(Productive Vocabulary Levels Test,简称PVLT)。该测试将词汇分为同VS一样的5个级别,每个级别设置18道题,题目的形式为填空题,把一个句子中所考的词进行挖空,但会给出前几个字母,考生需要根据句子的意思完成这个单词。如:

(1) Every working person must pay income t ________.

(2) There are a doz ________ eggs in the basket.

(3) The telegram was deli ________ two hours after it had been sent.

(4) The afflu ________ of the Western world contrasts with the poverty in other parts.

(5) Farmers are introducing innova ________ that increases the productivity per worker.

Abdullah等人(2013)的研究认为,PVLT在2000词汇水平上的测试对学习者英语水平的区分度欠佳,如果把这部分测试分为500词一个等级,对学生的英语水平区分度会更好。

除此之外,比较知名的产出性词汇测试还有Laufer和Nation(1995)的词汇频率量表(Lexical Frequency Profile,简称LFP),其内容是让学习者写一篇作文,并根据作文中的词汇频率估算其词汇量。还有由Meara(2008)开发的P_Lex测试,专门用于测量2000个基本词汇以上的产出性词汇量。近年来比较受关注的测试是Lex 301,由Meara和Fitzpatrick(2000)开发,该测试的任务实际上是一种词汇联系任务,它要求受试者写出与每一个出现的词(一般为高频词汇)有关联的四个词。该测试共30道题,受试者需写出120个词。首先把这些词精简成独立的词族,然后对照一定的词频分布进行统计分析,最后估算出受试者的词汇量。Fitzpatrick和Clenton(2010)及Walters(2012)对该测试的效度进行了讨论,认为该测试是一个可靠的测量工具,但是该测试在教学环境中的应用效果如何,以及它测试的究竟是学习者对词汇的回忆,还是学习者真正的产出性词汇,还有待进一步探索。

如果只是在非正式场合粗略地估算词汇量,有什么简便、易操作的方法可以借鉴?其实,这样的方法根据具体的环境和需要是比较灵活的,但都借鉴了词汇广度测试“抽样”的原理。比如,我们可以自己定一些随机抽样的法则,从英语词典中随机抽取一定数量的单词,如选择每隔一页的第一个词,然后尝试将这些词编入VS的6选3题型进行测试。算出测试结果之后,再根据所选词汇在词典词汇中所占的比例对词汇量进行粗略的估算。如果我们从一本8000词的词典中选取了81个词,那么只需把测试中正确的词数乘以100,就可以得到词汇量。我们也可以用更加简便的方法,即只要直接画出随机选择的词汇中认识的即可,此方法比较适合学习者自学。如果希望使用更加系统的方法,可以参考一些可分级的词汇表,如BNC中最常用的15,000词汇表。我们可以把该词汇表的单词从前到后分成15个部分,每部分1000词,并从每个部分中抽取一定数量的单词。这样不但可以更加客观地估计学习者的词汇量,而且可以了解学习者对于各个频段的词汇的掌握情况,从而使学习者更好地推测自己的英语水平。最后,选择合适的词典或词汇表也非常重要。对英语初学者来说,一本8000词的词典是足够的,但是对高水平的英语学习者来说,就需要选择词汇数量更多的词典或词汇表了,因为他们必然知道很多8000级别以上的高级词汇。

(二)测量词汇深度

有关词汇测量的另外一方面是词汇的深度,指的是学习者对词汇的理解和运用的质量。词汇深度是什么样的一个概念?可以用什么样的方法测量呢?Read(2004)提出了三类测量词汇深度的方法,它们反映了对此概念的不同理解。第一种方法把词汇的发展看成一个线性的过程,从对一个词一无所知到完全掌握此词在各种语境中的使用。第二种方法认为词汇知识可以分为多个方面或维度,如Nation(1990,2001)对词汇知识的分类,认为应该对各个方面的词汇知识分开测量。第三种方法根据词汇知识,以网络形式建构的方式,测量学习者把不同词汇的意义联系起来的能力。我们可以把这三类词汇深度测量的方法分别称为“发展法(developmental approach)”“成分法(components approach)”和“网络法(network approach)”。对于每一类方法,都有一些经典的测试,这些测试各有各的优势,但本身的设计也存在局限,没有一种词汇深度测试能够全面地考查词汇知识的各个方面。

词汇知识量表(Vocabulary Knowledge Scale,简称VKS)是最有名的词汇深度量表之一,它由Paribakht和Wesche开发2,测量学习者在某一时刻对特定词汇知识的发展程度,可用于检测教学效果或研究学习者的词汇发展。该量表采用的是“发展法”的思路,对于每个所测的词,VKS设有五个发展阶段:

I. I don't remember having seen this word before.

II. I have seen this word before, but I don't know what it means.

III. I have seen this word before, and I think it means ______. (synonym or translation)

IV. I know this word. It means ______. (synonym or translation)(www.xing528.com)

V. I can use this word in a sentence: ______. (Write a sentence.) (If you do this section, please also do Section IV.)

以上这五个阶段由浅及深地表述了词汇知识发展的过程,学习者可以根据自己对所测词汇的了解程度,选择其中一个合适的选项。前两个选项属于学习者对词汇知识的自我评价,后三个选项要求考生给出与单词相关的正确信息。对于评分,如果学习者选择了III-V中的一个,但是给出的答案不正确,该测试则根据其具体情况适当将此词掌握的级别下调,但是下调的结果不会低于II。VKS虽然把学习者对词汇知识的发展分为五个等级,并可根据考生词汇测试的得分对他们的词汇发展情况做出推断,但是其设计也存在一定的局限。根据Bruton(2009)的总结,阶段I和阶段II属于学习者的主观判断,信度并不高。另外,阶段III和阶段IV之间的区分很模糊,不太容易界定清楚“我觉得此词的意思是”和“此词意为”之间的区别。因此,这两个选项似乎可以当作一个选项考虑。阶段V存在的问题是,即使学习者能够使用该词写出一个正确的句子,也不能充分判断其是否真正掌握了这个词。因为一个词经常会有很多不同的用法,而且可能会出现诸如此类的句子:I like the word banana.(Schmitt,2010b)。最后,该测试测量的词汇知识并不全面,仅包括个别的近义词或部分释义,且与语境的结合很不充分。以上这些因素都为我们了解学习者在多大程度上掌握了一个单词带来了困难。

另一种使用“发展法”的词汇深度测试是Schmitt和Zimmerman(2002)开发的词汇深度量表,该量表以这两个人的名字命名(简称SZS),它与VKS相比更加简单实用。SZS对学习者关于词汇能够做到或不能做到的事情进行了描述,包括四个阶段:

A. I don't know the word.

B. I have seen the word before, but am not sure of the meaning.

C. I understand the word when I see it or hear it in a sentence, but I don't know how to use it in my own speaking or writing.

D. I know this word and can use it in my own speaking and writing.

该量表的描述相对来讲比较简洁清晰,而且评分和统计更为方便,其中C和D两个阶段把口语的因素也考虑到了词汇的使用中,这比VKS的描述更加全面。但是由于英语词汇的使用情况比较复杂,有些词可能仅在口语中或写作中使用频率较高。因此,Schmitt(2010b)建议阶段D中的描述采用speaking or writing的形式。另外,阶段B的分类有些争议,这涉及掌握词汇知识的最低标准是什么。如果是词的形式和意义之间的连接,阶段B实际上还未建立这样的连接,可以考虑与阶段A合并,在量表中只保留三个阶段。SZS最大的局限是它只能通过学习者对词汇的主观评价测量词汇深度,学习者不能展示自己的词汇知识。Schmitt(2010b)提出了三种改进的方法:第一种方法是修改阶段C和D的描述,使得学习者需要提供一定的词汇知识来证明自己已经达到这个阶段;第二种方法是结合访谈等方法对SZS的效果进行印证或补充;第三种方法是在测试中加入一些不是单词的字母组合,以避免学习者夸大自己的词汇深度。

“成分法”是一种多维度的词汇深度测量方法,这种方法认为词汇知识由很多不同的方面组成,我们应该分析这些不同的成分,并全面、综合地测量词汇知识。这种方法的优势在于它可以帮助我们了解学习者某些特定方面词汇知识的发展情况,有助于我们探索学习者这些方面词汇知识中具体内容的习得顺序,可以使我们对学习者词汇习得的过程,即从完全不知道发展为接受性词汇,再到产出性词汇的过程中发生的变化有更细致的了解。但这种词汇测试也有着自身的局限:词汇知识涉及诸多不同的方面,想设计一种面面俱到的词汇深度测试是不可能的。由于词汇知识的复杂性,以及在具体的测试中一些现实条件的限制,如果在测试任务中不断增加不同方面的词汇知识,在测试中可以选择的词的数量就会相应地越来越少(Schmitt,2010b)。

由于词汇知识的多样性,测量不同方面的词汇知识的测试种类繁多,从非正式的课堂小测验到标准化的正规考试无所不包。例如,如果英语教师想要检查学生是否记住了所学单词的拼写,以及词形与意义之间的联系,一个简单的听写小测验或词汇默写考试就能解决问题。如果需要测量学习者对英语词汇衍生词的掌握情况,可以选用Schmitt和Zimmerman(2002)开发的英语衍生词汇测试(Test of English Derivatives,简称TED)。该测试对于每一个所选单词,在给出例句的情况下测试其名词、动词、形容词副词形式的衍生词。例如:

philosophy

Noun: She explained her ______ of life to me.

Verb: She was known to ______ about her life.

Adjective: She was known as a ______ person.

Adverb: She discussed her life ______.

该测试的优势是可以比较系统地测量学习者衍生词汇的知识,但是在评分的时候,需要注意的是有些词性的词的变体可能有不止一种正确形式,其意义可能相同或也可能略有差别。如philosophy有两种形容词形式:philosophical和philosophic,这两个词中的任何一个在上题的语境中都是适合的;另一个例子是historical和historic,它们都是形容词,但意义有细微的差别,究竟该如何评分可能要看具体的语境,可能会出现两个词都合适或只有其中一个词合适的情况。对于词汇搭配知识的测量,也有很多种类和题型,详细介绍建议参考Schmitt(2010b)著作中5.3.2小节的内容。

另外,有一种实用性比较强的、兼顾了词汇广度和词汇深度的测试,叫做词汇量与词汇强度计算机适应性测试(Computer Adaptive Test of Size and Strength,简称CATSS)(Laufer & Goldstein,2004)。该测试选择30个词汇项目进行测试,这些词汇分别来自五个词频级别,分别为最常用的2000词,第三个、第五个、第十个1000词汇级别以及学术词汇表中的单词。针对某一级别的词汇,如果学习者对某一种题型的作答表现良好,计算机就会跳转到更高级别的词汇进行测试;如果学习者在这一级别作答情况不理想,计算机就会停留在这一级别,并选取更多的词进行测试,以更精确地测量学习者的词汇广度和强度。对于词汇“强度”,该测试是以“积极词汇/消极词汇”和“回忆/识别”两个维度进行定义的。对同一个词有四种测试方式,分别是积极回忆(active recall)、消极回忆(passive recall)、积极识别(active recognition)和消极识别(passive recognition)。如对melt一词的四种测试方式:

active recall: Turn into water. m______

passive recall: When something melts, it turns into ______.

active recognition: Turn into water.  a. elect  b. blame  c. melt  d. threaten

passive recognition: melt  a. choose  b. accuse  c. make threats  d. turn into water

其中,积极回忆对学习者来说最难,其“强度”最大,其次是消极回忆,积极识别和消极识别的难度差不多。故该测试不但能够估算学习者的词汇量,还能将词汇深度分为三个不同的强度并进行测量。

词汇之间的联系虽然是词汇知识的一个方面,但是学习者的心理词库储存词汇的方式正是通过在词之间建立联系而存在的。对词汇的联系进行测量,不但可以反映学习者的词汇深度,还有助于揭示词汇在学习者头脑中联系的方式。其中一种使用了“网络法”的测试——词汇连接测试(Word Associates Format,简称WAF),由Read(1993,1998,2000)开发。该测试针对每一个词给出另外八个词,这些词中只有四个词在意义方面与该词有直接的联系。在WAF中,词之间的联系有三种:第一是近义词关系,第二是搭配关系,第三是逻辑关系。例如:

该题中,team和group是近义词关系,与scientists和sport是搭配关系,与together是逻辑关系。如果受试者能够在某个词的八个选项中选出全部四个与其有联系的词,可以说明其具有比较全面的接受性词汇知识。然而,WAF由于其选择题的形式,不能测量学习者的产出性词汇知识。另外,对该测试进行修改,并用于教学和研究有一定难度(Schmitt,2010b)。

(三)测量词汇自动化程度

不仅仅是词汇知识能够反映出学习者对词汇的掌握程度,词汇的识别或产出的速度或者自动化程度(automaticity),也与词汇的习得程度有非常紧密的关联。一般来讲,我们对词汇的识别和产出是“熟能生巧”的,接触的频率越高,反应的速度越快。有些词汇我们可能在阅读中能够认识,但当它们出现在听力中时却反应不过来;有些词汇在写作中推敲字句的时候能够回忆起来,但在口语中却很难想起来。出现诸如此类的现象,其问题在于学习者对这些词汇的熟练程度不够,因此,在某些语言技能上,我们头脑中处理这些词汇的速度较慢。

与自动化程度意义相近的一个术语是“流利程度(fluency)”,这两个词针对词汇反应速度方面,可以进行同义替换,但是实际上这两个词的含义有一些细微的差别(Schmitt,2010b)。Lennon(2000)区分了低层次的流利程度(lower-order frequency)和高层次的流利程度(higherorder frequency)的概念,认为前者仅仅是反应速度的快慢,而后者除反应速度之外,还包括将思维转化为语言的顺利程度、准确程度、清晰程度等方面。自动化程度代表的是一种重新建构或组织的心理过程,使得学习者对语言的处理更加有效率,对非母语使用者来说,是一个语言处理水平逐渐接近母语使用者的过程。

有一种叫做“自控时间阅读(self-timed reading)”的方法,用来测量阅读速度。该测试把一篇阅读文章按照意群分为不同的语段,每个语段独立为一行。受试者面对一个屏幕,同一时间只出现一行内容,就像电影或歌曲中的字幕。受试者被要求用最快的速度读懂该行的内容,读懂后立即按一个按钮,然后屏幕中的词跳转到下一行的内容。在受试者读完所有词的全过程中,两次按键之间的间隔时间将被记录下来。此方法不但可以测量受试者对每个词的平均反应速度,而且可以用于计算他们对一些特定的搭配或者语块的反应速度。

有关词汇自动化程度的测试还可以显示出母语使用者和非母语使用者反应速度的差别。比如,Siyanova和Schmitt(2008)的研究比较了母语使用者和非母语使用者对词汇搭配的反应速度。该研究选用了两种不同的搭配,一种是在BNC中常见的搭配,如solid defense,另一种是在BNC中没有出现,但是确实有意义的不常见的搭配,如exclusive delinquency。研究结果发现,非母语使用者对常见搭配和不常见搭配的识别反应时间都比母语使用者慢得多,且准确率较低。此研究的结论说明,对于非母语使用者,真正精通一门语言,达到母语使用者的水平并不是一件容易的事。就词汇方面而言,学习者除了要掌握词汇知识,其对词汇知识的处理速度也非常重要。有很多学习者在自己的国家积累了大量的语言知识,但是到了目的语国家可能仍然觉得跟不上母语使用者的速度,其中重要的因素之一就是自动化程度较慢,即对词汇的反应速度相对较慢。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈