
近十年国内外学习者语料库建设情况及研究述评.doc
11页近十年国内外学习者语料库建设情况及研究述评摘 要:本文通过对学习者语料库相关文献的搜索和整理,对近十年国内外学习者语料库建设情况进行了重点介绍,同时对基于学习者语料库的二语习得相关研究进行了探讨,旨在对我国学习者语料库的建设和相关研究提供借鉴 关键词:学习者语料库;二语习得;英语学习 1 . 概述 语料库语言学的研究开始于20世纪50年代,之后该领域的研究者逐渐增多,语料库的研究开始与大多数语言研究相关领域相结合,这一结合的主要贡献之一为变体研究,包括语言媒介变体研究(口语变体与笔语变体),语场变体研究(一般文体与专门化语体)以及地理地位变体研究(世界英语)然而,对外语/二语学习者语言变体的语料库研究直到20世纪90年代初才逐渐兴起(Granger, 2003: 538)学习者语料库主要是指经过计算机处理的外语学习者的语言产出的数据库(Leech, 1998: 3),本文将对近十年国内外学习者语料库的发展现状和基于学习者语料库的二语习得相关研究作一个评述 2 . 学习者语料库的建设情况 经过三十多年的发展,学习者语料库的建设在全世界范围内掀起一股热浪。
在学习者语料库研究颇有建树的研究团队代表是由比利时Louvain-La-Neuve大学的Sylviane Granger教授所创建的英语语料库语言学中心(Center for English Corpus Linguistics),简称CECL根据CECL的不完全统计,截止到2014年11月14日,全世界学习者语料库已经达到136个,涉及的语言包括英语、汉语、捷克语、阿拉伯语、荷兰语、法语、德语、匈牙利语、朝鲜语、挪威语、西班牙语、意大利语等十几种,媒介方式由之前的以笔语为主逐渐向多媒介方式转变,包括口语(spoken)、笔语(written)、多媒体(multimedia)以及计算机中介交流(computer-mediated communication,简称CMC),收录的语料丰富多样,例如学生习作、访谈、演讲、测试等,涵盖了从语言初学者到熟练使用者不同层次的语言学习者(http:// www.uclouvain.be/en-cecl-lcworld.html)在统计的语料库中,以英语为学习目标语言,母语为汉语的学习者语料库共有15个,5个来自中国大陆地区,6个来自香港地区,3个来自台湾地区,1个来自新加坡。
2 . 1 国外学习者语料库的建设发展情况 2.1.1 CECL开发的学习者语料库 由比利时著名的英语语料库语言学中心CECL开发的学习者语料库主要有五个:ICLE、LINDSEI、LONGDALE、VESPA和FRIDA除了FRIDA是法语学习者语料库以外,其余四个语料库都是英语学习者语料库 国际英语学习者语料库(The International Corpus of Learner English,简称ICLE)是由CECL在20世纪80年代末启动建设的,是世界最常用的学习者语料库之一2009年ICLE已经升级为第二版本,其涵盖的学习者母语类型由第一版的11种语言增至16种该语料库主要收录来自非英语国家的中高级英语成年大学生学习者所写的议论文(占85%)以及其他文体(Granger, 2003: 539),有限时作文与非限时作文之分目前该语料库正在建设第三版本 英语学习者追溯型数据库(The Longitudinal Database of Learner English,简称LONGDALE)是2008年1月正式启动建设的项目,目前还在建设中。
该语料库旨在搜集与英语学习者学习过程中不同阶段的语言输出,因此数据的搜集对象是在两三年的一个时间段内持续搜集的同一批英语学习者的语料,以此控制语言掌握熟练水平的发展过程,并且这些语言学习者具有不同的母语背景,一般在研究初期语言水平为中级目前数据库建设已搜集到同一批学习者在2008、2009及2010年三个时间段所撰写的议论文,但该语料库最终目的是涵盖尽可能多的文本及口语的语言输出数据类型,包括散文,摘要,图片描述,口头访谈等等 专门用途英语多类型数据库(The Varieties of English for Specific Purposes Database,简称VESPA)同LONGDALE一样是2008年1月起开始的,旨在建成一个以英语为二语学习不同课程的学生的ESP文本产出语料库,课程包括语言学、法律、医学、生物等等,文本体裁包括报告、论文、硕士毕业论文等等,学生的语言水平不同,从大学一年级学生到博士生不等 Louvian国际英语口语数据库(The Louvain International Database of Spoken English Interlanguage,简称LINDSEI)是在ICLE其后1995年开发的口语语料库,其语料来自于14个背景的不同母语的中高级英语学习者的口头访谈。
2.1.2 其他国家的新兴学习者语料库举例 除了比利时以外,近十年来世界上其他国家的学习者语料库建设如雨后春笋般蓬勃发展,主要集中在欧洲(英国、德国、法国、西班牙、意大利、波兰、荷兰、瑞典、芬兰、挪威等国家),北美洲(美国和加拿大),亚洲(中国、日本、韩国等国家);另外巴西、以色列、南非等国家也开始投入建设学习者语料库以下是近年来具有代表性的新兴学习者笔语语料库,目前这些语料库还在不断更新发展之中 亚洲大学生英语短文语料库(The Corpus of English Essays Written by Asian University Students,简称CEEAUS)是日本神户大学的石川慎一郎研究室2008年开始开发的新的语料库CEEAUS由几个模块构成,如CEEJUS模块(日本学生所写英文短文),CEECUS模块(中国大学生所写英文短文),CEENAS模块(英语母语者短文)等该语料库目的是为多层次的中介语对比分析提供支持,通过此语料库研究者可以比较日本的POS标签和语义标签系统,便于分析本族语者和非本族语者的词汇和语法使用情况。
CEEAUS目标是发展成为更全面大型的国际亚洲英语学习者数据库网络(the International Corpus Network of Asian Learners of English,简称ICNALE),石川慎一郎研究室计划和来自中国、韩国、新加坡、马来西亚、香港、台湾等国家和地区的研究者合作完成这一网络的建设,对比分析英语学习者和英语母语者的语言,中国英语学习者和英语母语者的语言,日本学习者和中国英语学习者的语言等等CEEAUS区别于其他语料库的独特之处在于其搜集语料过程中对写作条件的严格控制,写作的主题仅有两个,即①“It is important for college students to have a part time job.”②“Smoking should be completely banned at all the restaurants in the country.”语料库中两个话题的文章各占一半,而且写作时间为20到40分钟,期间禁止使用词典 此外,随着越来越多的国际学生使用英语参与学术课程学习及科研,学术专业英语的学习者语料库兴起,代表为德国约翰内斯・谷登堡大学的Marcus Callies教授团队正在建设的学术英语学习者语料库(The Corpus of Academic Learner English,简称CALE),英国华威大学和雷丁大学在2000~2005年期间联合建设的不列颠学术口语语料库(The British Academic Spoken English (BASE) corpus)以及华威大学、雷丁大学和牛津布鲁克斯大学在2004~2007年间建设的不列颠学术笔语语料库(The British Academic Written English corpus)。
在建的CALE数据库中搜集的主要是大学英语相关课程要求高水平英语学习者所写的七种学术文章类型,例如研究论文、读书笔记、摘要、评论等BASE语料库中包括了160场讲座和40场研讨会的视频资料(华威大学摄制)和音频资料(雷丁大学录制),分为四个大的学科类别:艺术和人文,生命医药科学,体育科学以及社会科学,每个学科含40场讲座和10场研讨会最后,BAWE语料库含2761篇写作熟练程度评价较高的学生习作,长度从500字到5000字不等,同样归属于BASE语料库中提到的四项学科类别,共35个课程类别学生水平从本科生到研究生横跨四级BASE和BAWE的文本均通过牛津文本存档(Oxford Text Archive http://ota. ahds.ac.uk)免费下载除以上三个学术英语数据库以外,英国兰开斯特大学在建的LANCAWE语料库,美国密歇根大学的MICASE学术口语语料库(http://quod.lib.umich.edu/m/micase/)和MICUSP高水平学生论文语料库(http://micusp. elicorpora.info/)同样可以供研究者借鉴,尤其是密歇根大学的两个语料库的所有资料包括音频和相应文本均可以在网站上获得并且可以根据不同标签进行搜索和浏览。
除了口语和笔语两种媒介方式以外,在C E C L统计的136个现有的学习者语料库还有采用了多媒体媒介方式和计算机中介交流(CMC)的学习者语料库从2001年起开始建设的成人英语二语学习者多媒体语料库(The Multimedia Adult ESL Learner Corpus,简称MAELC)是美国波特兰州立大学应用语言学系的Lab School研究项目的一部分该语料库包括了四年里几个成人ESL班级超过3600个小时的课堂互动实录录像,可以为成人英语学习者的深度个案研究提供丰富的数据,同时由于录制过程是在每个班级设置六个录像机,每个班级两名学生佩戴无线麦克风,该数据库对小组交流和同伴交流模式的研究具有独特的优势,同时可以追溯研究单个学生在这期间的语言发展状况此外,以计算机中介交流作为媒介方式的学习者语料库代表为在建的意大利帕多瓦大学的Padova学习者语料库该语料库的数据搜集对象为学习英语、法语和西班牙语的意大利学生,学生在混合语言课堂上使用FirstClass软件学习语言,用计算机输出笔语语料,语料形式有日记、辩论、报告以及个人简历等此外,由FirstClass软件可供学习者连续使用3到5年,因此该语料库属于回溯性语料库,可以长期搜集学习者语料供研究教学所用。
2 . 2 国内学习者语料库的建设发展情况 近十年我国的学习者语料库建设发展迅速,语料搜集由以书面为主转向书面口语并重,同时也出现了一些学术英语的专业语料库及针对英语翻译专业的平行语料库;此外,大陆、香港和台湾地区的研究机构和研究人员数目也有显著的增加,还建立了一些非英语学习者语料库 国内学习者语料库中笔语语料库依然占绝大部分大陆地区的代表是由桂诗春、杨惠中编著的我国第一个英语学习者语料库――中国学习者英语语料库CLEC(CLEC―Chinese Learner English Corpus),该语料库已于2003年由上海外语教育出版社出版该语料库由我国中学生、大学生的一百多万词的书面英语语料组成编者将库内所有的语料进行语法标注和言语失误标注,是世界上第一部正式对外公布的含有言语失误标注的英语学习者语料库CELC为编辑词典、编写教材、语言测试的英语工作者提供了丰富而翔实的。












