首页 理论教育 语料库与学术英语研究:结合与成果

语料库与学术英语研究:结合与成果

时间:2023-08-05 理论教育 版权反馈
【摘要】:语料库语言学以真实的语言事实作为数据来源和研究对象,为学术英语研究提供了实例文本库和全新的研究思路。接下来,笔者将分别探讨这三个问题,进而评判语料库对学术英语研究的价值和适用性。可见,该词表充分呈现出学术用途英语词汇的特征。杨冬玲、陈坚林认为,Coxhead在应用语料库方法产出学术词汇列表的研究领域具有里程碑的意义。因为在2000年之前,结合语料库与学术英语的研究数量有限,且语料库规模较小,主要使用手工统计的方式。

语料库与学术英语研究:结合与成果

前文谈到,Charles Barber 在1962年发表的文章“Some measurable characteristics of modern scientific prose”标志着学术英语研究的开端。Barber 基于2.3万余词的三篇科技文本,统计了动词的时态和语态形式,发现28%的实义动词用于被动语态,被动语态的最常用时态是现在时,约占25%。可见,学术英语研究自始便与语料文本和语言观察结合在一起,并受益于语料库。正如Hyland(2012a:30)所言,“很难想到比学术英语研究受语料库影响更大的应用语言学研究”。

学术英语在观察和分析学术活动与话语实践的基础上组织教学,满足学生学科专业学习和各类学术交流的需求。可见,学术英语研究“以解析学术交流涉及的语言(包括词汇、语法)、话语和体裁而展开”(DudleyEvans & St John 1998:5)。了解这些语言、话语和体裁信息最为有效的途径莫过于接触话语活动和语篇文本的实例。语言实例不仅为学术英语本体研究提供充分的实据材料,同时也为学术英语教学提供参考学习范例。语料库语言学以真实的语言事实作为数据来源和研究对象,为学术英语研究提供了实例文本库和全新的研究思路。语料库语言学基于丰富的真实语言资料,从调查语言信息的分布频率入手来研究语言,以实际使用中的语言现象的出现概率为依据进行词汇或语法形式的统计分析,从中寻找语言使用的规律,进而对语言、语言交际和语言学习的行为规律进行多层面和全方位的研究(徐秀玲、许家金 2017;杨惠中 2002)。Nesi评价道,“毫不夸张地说,所有的语料库研究路径都有益于学术英语,它的优势就在于几乎每一次对学术语料库的检索都会给学术英语研究者提供未知的新信息……语料库有助于提高人们对学术语篇的种种认识,包括词汇、语法、短语和体裁类别等”(Nesi 2016:206)。

语言本体特征、教学发展与教材开发是学术英语研究的三大议题,即揭示学术英语的语言特征,提高学术英语教学实践,设计教学材料和资源。根据相关学术英语综述研究(孙云波、冯婕 2014:93),几乎95%的语言本体研究都基于语料库,涵盖学术英语语法、语体、词汇、语篇和体裁等诸多方面。语料库观察和分析建立在大量真实文本和自然发生的语言使用基础之上,能够最大限度地获得语言特征普遍化的归纳信息,而这种归纳信息一方面概括学术语言的一般特征,另一方面增强研究结果的效度与可比性。杨冬玲、陈坚林(2015)针对学术英语研究进行知识图谱演化趋势分析,发现在2001年至2005年间,应用语料库手段的论文引用率高且覆盖面大。

尽管综述研究指出了学术英语和语料库结合的重要趋势,Ding & Bruce(2017)指出,评价一个研究方法是否适用于学术英语研究,需要考虑三方面问题:一是它会给学术英语研究提供什么信息;二是它能够如何提高学术英语范畴内的文本能力、体裁意识和社会语境知识;三是它涉及的语言学习理论能够如何促进学术英语能力的提升。前面两个小节指出,学术英语研究本着语言研究和教学的双重目的,一方面揭示学术语言的本体特征,另一方面结合语言本体分析反哺语言教学。学术英语研究强调在获得学术语言特征的基础上增强学习者对该语言特征的了解,进而提高学生参与学术对话与知识交流的话语能力。Bhatia(2004:144-145)认为,话语能力包含文本能力、体裁意识和社会语境知识。其中,文本能力不仅包括准确掌握词汇和句式等浅层语言特征的本领,还涵盖驾驭文本、修辞和语用知识解构与重塑文本的本领;体裁意识指学生能够识别、建构、阐释及充分运用各类体裁及要素资源,完成话语实践,融入话语共同体的能力;社会语境知识表示可以运用语言参与社会与机构活动,表达社会身份的素质和能力。由此可见,Ding & Bruce(2017)提出的上述三个问题主要是围绕学术话语能力展开的。接下来,笔者将分别探讨这三个问题,进而评判语料库对学术英语研究的价值和适用性。

第一,语料库给学术英语研究提供什么信息?

词表(wordlist)、主题词(keyword)和索引(concordance)是语料库处理文本样本的三个主要手段(梁茂成等 2010)。

首先,词表确切来说指的是词频表,是一个语料库中所有词及其出现频数的列表。它可以按词语出现的频数、词语占全部文本的百分比排列,也可以按字母顺序排列。词频表可用来调查语篇词汇的密度、多样性、复现率、高频实义词等词汇类型或频数特征,进而比较某些词在不同文本或不同语体中的分布状态等。学术英语中较有代表性的词表研究是Coxhead(2000)的学术英语词表。它对涵盖学术文章、大学教材和实验手册的350万词学术书面语语料库展开词表研究。在排除英语最常见的2,000个词汇后,Coxhead分析了剩余词汇的词频和分布率,得出学术英语词表。该词表涵盖570个词族(word family),占学术文本全部词汇的10%,而这570个词族在同等规模的小说语料库中仅占1.4%。可见,该词表充分呈现出学术用途英语词汇的特征。Coxhead(2000)认为,从另一个角度讲,词表所呈现的词汇恰恰也是学生在各类学术交际中需要掌握的词汇,因此学术英语词表为学生和教师列明学生在学业知识学习以及教师在学术英语教学中需要重视的词汇。杨冬玲、陈坚林(2015:3)认为,Coxhead(2000)在应用语料库方法产出学术词汇列表的研究领域具有里程碑的意义。因为在2000年之前,结合语料库与学术英语的研究数量有限,且语料库规模较小,主要使用手工统计的方式。由此可见,词表可以提供语料库词频方面的统计信息。

其次,主题词表是指某篇或某一批语篇中与参照语料库相比具有超高复现频率的词汇列表。主题词表可以用来揭示语篇的内容大意、文体风格、主题词之间的语法和语义联系,也可以揭示主题的情节发展。通过观察主题词,还可以发现某一即定文类或主题文本的词语特征。梁茂成等(2010:86)认为,“词语像人类一样聚群……一些特定的词语群总是被触发,表达相同或相似的主题”。根据这一特点,我们可以计算某一文本或某一类文本的词语分布,并与其他文本的词语分布进行对比,把文本中那些显著高频的词语析取出来,生成一个词表。该词表可被看作是主题词表,反应文本的“所言之事”(aboutness)(Scott 2000)。生成主题词表需要两个语料库,一个是用于观察和分析的语料库,称为“观察语料库”(observed corpus),另一个是用于对比的语料库,称为“参照语料库”(reference corpus)。观察语料库可以是单篇文本,也可以是同类题目的多个文本。参照语料库可选用通用语料库,其总量要大于观察语料库。Römer & Wulff(2010)以密歇根大学高水平学生论文语料库(Michigan Corpus of Upper-Level Student Papers,简称MICUSP)为研究对象,以生物学科子库为观察语料库,MICUSP为参照语料库,得出生物学科子库的关键词表。species、gene、plague、cells、protein是主题性(keyness value)最高的五个词。这表明生物学文本涵盖的内容和学科特性。可见,主题词表提供学术英语中针对特定学科和体裁的特色词汇,是学生在专业学科知识学习中需要掌握的词汇。

索引又被称为“语境中的关键词”(Key Word In Context,简称KWIC),它是某一检索词在被检索的语料文本中出现的所有检索行的列表。通常,检索词居中,同时前后各有若干词,呈现其周边一定范围内的语境。索引可以按照检索词的字母顺序给出,或者检索词左右某位置的字母顺序列出,以便于我们从索引行中寻找规律。通过观察索引行中的检索词和它的“搭配”(collocation),我们可以了解该词的使用语境、规律和范式。Tribble(2002)以雷丁学术文本语料库(Reading Academic Text Corpus)的植物分子生物学文本为语料,检索activity并以字母顺序排列activity右侧的第一个单词,得到索引行如下(见图1.3):

alt

图1.3 雷丁学术文本语料库的activity索引行

Tribble发现在植物分子生物学文本中,activity多与动词或动词短语depend、disappear、required、associated with连用,这体现了生物学活动的独特行为(Tribble 2002:137)。此外,他还发现activity也受到enzyme、flavanone 3-hydoxylase、lipoxygenase的修饰,清晰界定了该行为的学科倾向。接下来,Tribble(2002)又分别在雷丁学术文本语料库和LOB语料库的言情小说子库检索in,分别得到图1.4和图1.5的索引行。可以看到,在学术文本中,in后常跟随经过修饰的名词,而在小说文本中,in则常伴随动词和人称代词。可见,in在不同语体文本中的使用语境和规律是不同的。

alt

图1.4 雷丁学术文本语料库的in索引行

alt

图1.5 LOB语料库言情小说文本的in索引行

词表和主题词对教学大纲制定者和教学材料编写者来说具有重要的参考价值。教学大纲制定者可以根据词表和主题词拟定教学大纲的词汇部分;同样,教材编写者可以围绕词表和主题词进行教材编写,并辅以语料库索引设计相应的词汇和语法练习。

第二,语料库是如何增进学术英语范畴内的文本能力、体裁意识和社会语境知识的?

语料库研究通常涉及两个层面。首先是微观层面的词汇考察。上述词表、主题词等信息揭示的是学生在学术或特定专业学习语境中需要掌握的词汇和主题词。例如,Thompson(2006)考察英国学术口语语料库(British Academic Spoken English corpus,简称BASE corpus)经济学讲座语料,对其词表和主题词进行分析。他发现经济学讲座中仅有Coxhead(2000)学术英语词汇表570个词族中的340个。此外,他通过主题词分析进一步发现,经济学讲座中名词的主题词特征尤为明显,高频名词主题词有:accounts、budget、capital、choice、commodity、constraint、cost、curve、debt、demand、elasticity、exports、income、liberalization、market、probabilities、profit、supply、trade、value、variable等,而let、represent、maximize、consume等则是常见的动词主题词。他认为,这些名词主题词体现经济学话语中“实体抽象化”和“过程具体化”的特点,而动词主题词的出现迎合了经济学话语的“符号表征”和“数理阐释”特征(Thompson 2006:263)。可见,语料库的词汇发现可以反映出学生应该掌握的文本能力。正如Thompson(2006)的研究表明,学生在学习经济学课程时,不仅需要理解而且也要利用represent和let等主题动词建立符合表征和数理的关系,营建经济学假说。

其次是语法句式层面。就语法句式而言,Charles(2000)以英语为母语的材料学和政治学博士论文为语料,观察“引导型It”结构(例如,It is important to note...或It seems reasonable to attribute...)的频率和功能,发现政治学论文使用“引导型It”结构的频率约为每十万词150例,材料学论文的频率略高,约为每十万词170例。在分析了该结构中谓语动词和评价形容词后,她进一步发现两个学科论文通过“引导型It”结构表达不同的学术立场和声音,并认为这是受学科知识特点和知识建构方式的影响。同时,Charles认为,两个学科的论文在该结构使用上的相似之处源于一般意义上的学术行为过程和价值判断能力,如合理、信度和效度等。因此,该语法结构在一定程度上体现学术语篇的文本能力。

接下来的部分将通过学术引用(Hyland 1999a)和博士论文文献综述(Flowerdew & Forest 2009)两个实例,讨论语料库在增强体裁意识方面的作用。文献引用(citation)在学术论文体裁中的知识建构与观点铺垫方面起着至关重要的作用。学术论文的重要交际目的是推介研究和观点。新知识的产生和其真实性架构在学科知识网络与文献载体上,采取适当的引用方式和话语策略援引前人文献,铺垫新知识产生的学科框架,能使学科读者信服研究论文和结论观点。Hyland(1999a)通过语料库发现,学术引用的主要形式是非嵌入式引用,即把被引作者和文献置于引句之外,从而突出被引文献,淡化作者参与度。此外,他还发现学术引用的另一个特征是以转述总结被引文献为主,少有段落摘抄。在转述动词的使用方面,理工学科论文以研究类动词为主,如observe、show等,而人文学科论文以言语类动词为主,如suggest、argue等。可见,语料库数据发现能够反映出学术论文体裁是如何将前人的观点纳入自己的论证的,是如何评价和发展前人的观点的。

Flowerdew & Forest(2009)以博士论文文献综述部分为语料,以research一词为出发点,发现research一词在文献综述部分的使用频率为900次,且出现在70%以上的综述中。值得注意的是,当论文作者在建立“揭示研究空白”(indicating gap)语步时使用research一词的频率最高,约每千词8次,是其他综述语步的五倍,而在“进行理论回顾和文献观点调查”(surveying knowledge claims)时反而使用较少research。他们考察research一词的搭配,进一步发现两个惯用的搭配措辞:little research has been done和further research is needed。文献综述微观体裁的交际目的无外乎是找到文献缺口,铺垫当前研究的价值和意义,进而推动研究现状的发展。上述研究能让我们看到该词汇的使用频率和短语搭配是如何为体裁的交际目的服务的。如果把这种基于语料的发现展示给学生或者学术新手,无疑会增强他们的体裁修辞意识和语用能力。(www.xing528.com)

第三,语料库涉及的语言学习理论能够如何促进学术英语能力的提升?

根据Tribble(2002)的观点,学术英语能力由学科知识、写作过程知识、情境知识与语言系统知识组成。其中,学生的自主学习主要围绕学科知识展开。尽管教师需要开展各类教学活动来帮助学生提高写作过程知识、情境知识和读者意识以及语言和体裁知识,但是Tribble(2002:132)认为,在学术英语知识构成方面,语料库是教师教学与学生自学的重要资源。通过以上分析与例证可以清楚看到,语料库的数据发现为教师提供关于学术英语的文本知识、体裁和社会语境知识等方面的信息。

就语料库相关语言学习理论而言,王龙吟、何安平(2005)和Flowerdew(2015b)认为“数据驱动学习”和“注意”是最重要的理论接口

“数据驱动学习”(Data-Driven Learning,简称DDL)由Tim Johns于20世纪90年代初提出,是指在教室或课下自学时使用语料索引,让学生探索目标语的使用规律。语料检索可以更好地体现以学习者为中心的发现式学习。例如,当学生在撰写学术论文时无法确定data suggest和data suggests哪一个才是正确的语法使用的时候,便可以登录BNC网站,分别检索data suggest和data suggests。学生会发现前者出现的频率为73次,而后者的出现频率仅为11次。约七倍的差距可以令学生清楚地看到data suggest更符合学术写作的常规,这将帮助学生决定在学术论文中使用前者。检索结果还将学术语境中使用data suggest的语境提供给学生,学生可以通过观察掌握data suggest的语用功能。这是DDL成功运用在学生自主学习中的例子。可见,它已经超越传统的课堂学习活动,成为一种学生独立自主进行发现式学习和探索式学习的模式。

由此可见,DDL是以语料库为基础,使用原始语料或通过语料库检索工具得到的结果进行语言学习的发现式和探索式学习模式。它可以是以教师为主导,将原始语料或通过语料库检索工具得到的结果编制成教学材料和练习。然后以学习者为中心设计一系列教学活动,引导学生发现目标语的规则,提高学生对有关知识点的敏感度。此外,它还可以是学生根据个人不同的学习需求和意愿,自己检索语料库,进行发现式和探索式的学习模式。根据语言习得的规律,语言知识的记忆不能保证语言使用的正确,必须有大量语言的输入才能使学生掌握所学习的语言。在语料驱动学习的过程中,语料库索引将大量的目标学术语呈现给学生,相比传统教学为解释某一学术英语规则在教材中提供有限的几个例子,DDL提供给学生的语言输入量要大得多。此外,由于语料库收集的是实际使用中的语言,它所提供的不仅是大量的语言输入,而且是真实的语言输入。与此形成对比的是,传统教材上的语言例子很多是由教材编写者根据自己的语言直觉编写出来的,并非真实语境下使用的语言。DDL所提供的语言输入在质和量两个方面都优于传统教学中的语言输入。

就“注意”而言,Schmidt(1990)认为,它等于“注意力”与“意识”之和,它影响语言输入向语言纳入转化的过程。语言学习者在进一步处理语言输入或将其中的某种形式转化为纳入之前,必须注意到这种形式的存在并理解它,纳入就是学习者注意到的那部分输入。王龙吟和何安平认为,由学生自己发现的凸显语言形式较容易被内化为纳入,“因为学习者必须首先经历‘注意’这个阶段,然后才能有所发现,这样一来,他们发现的语言形式必然也是他们注意到的语言形式,因而这样的凸显部分较容易被内化为纳入,进而有利于提升对该语言形式的意识”(王龙吟、何安平 2005:30)。以下的教学实例体现了语料库索引对学生学术英语知识的提高作用。

在教师的指引下,学生分别以although和though为检索词,从鲁汶英语本族语论文语料库(Louvain Corpus of Native English Essays,也称LOCNESS)中提取相关索引行。although的索引行有150条,though的索引行有52条。接下来,再观察although和though在句子中的位置并进行分类编号,进而归纳出四种语言形式,如表1.3所示。

表1.3 although和though的用法分类

alt

(1)编号a代表although和though所引导的从句或短语在主句之前。

例句:Although laws may have changed, deep-rooted prejudiced attitudes remain in these adults.

(2)编号b代表although和though引导的成分在主句之后。

例句:Sometimes they need to write just to express their pain or unsure feelings, though, more often, their purpose is to teach a lesson.

(3)编号c代表although和though引导的成分在主语之后作插入语

例句:Britain, although small, is more often than not in the fore of international matters.

(4)编号d代表although和though后面不接任何从句或短语。

例句:He did nothing to help though and continued to walk by.

在although的150条检索结果中,半数以上的although引导的从句或短语出现在主句之前(67.3%),所有的although都用作连接词引导从句或短语,无论它们在句中的位置如何。在though的52条检索结果中,though引导从句或短语出现在主句之前的情况只占总数的15.4%,而在超过半数的情况下(67.3%),though不用作连接词。

王龙吟、何安平(2005)在上述教学实例基础上进行了评价:学习者在教师的指引下,利用语料库索引进行类似以上述步骤的归纳,可以发现一些语言形式方面的凸显特征。如上所述,这些学术英语的语言特征是学习者自己注意到的,因而更易于语言习得。

此外,大量的实证研究表明了学生对学术英语课堂采用语料库方法和自行探索索引表现出了积极的态度(如Yoon & Hirvela 2004),并肯定了语料库和数据驱动学习对提高词汇语法认识的作用,增强了独立学术写作的自信度(如Yoon 2008)。就高级学习者而言,Starfield(2004)实地观察和跟踪记录博士生在进行二语研究学术写作时自助使用语料库的情况,发现语料库的数据驱动学习有助于博士研究生策略性地选择使用学术英语资源,从而建立适当的立场身份,更好地融入话语共同体。可见,语料库涉及的语言学习理论可以有效促进学术英语能力的提升。

总而言之,围绕Ding & Bruce(2017)提出的三个问题,我们在大量的实证研究和思辨阐释的基础上清楚地看到,语料库语言学的语料、方法和理论充分契合学术英语的研究与教学。语料库通过提供语言使用频率和真实使用环境,揭示学术英语特定的词汇和主题词以及基于学术体裁规约的语言使用规律;另一方面,数据驱动学习等与语料库相关的理论能够促进学术英语的学习以及学术英语能力的提高。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈