
基于语料库的英语写作水平与词块运用关系研究.docx
10页基于语料库的英语写作水平与词块运用关系研究 杜双艳 常荣荣摘要:词块作为一种能将功能与形式融为一体的语言单位,能更好地体现出语用、语法及句法之间的关系首先收集某高校英语专业学生的54篇毕业论文,并自建平行语料库参照Altenberg词块分类法,将词块分为三类:完整分句、分句成分和不完全词组统计数据可知,学生写作中存在大量词块,且呈现词块长度越长使用数量越少的分布态势其中,分句成分所占的比例最多,不完全词组次之,完整分句最少研究分析表明,写作水平高的同学更能灵活地使用词块关键词:语料库;词块;写作;结构类型:H319.36文献标志码:A:1001-7836(2018)07-0124-03词块指由多词组成,可以独立用于构成句子或者话语,实现一定语法、语篇或语用功能的最小的形式和意义的结合体[1]该结合体是语言语篇写作的重要组成部分,二语学习者若提高外语写作水平,还需掌握词块的使用状况并正确地运用词块在综合运用语言的基础上,学习者将自身的语法与思维通过写作呈现出来,而词块是写作过程中语言运用的关键本文拟基于安徽省某高校2016届英语专业本科毕业生的论文,自建小型语料库,研究不同的分层次的论文,考察英语学习者写作水平与词块运用之间是否存在关联。
通过使用Emediter,Antconc等语料库分析软件辅之以人工筛选对词块数据进行分类统计,分析不同层次论文在词块数量和结构类型上的差别,总结出英语学习者写作水平与词块运用之间的关系,以期对英语教学与学习提供可行建议一、文献综述国外语言学家Becker1975年首次提出“预制语块”这一概念,指一种特殊的“多词词汇现象”,即多个词汇的组合[2]Lewis在“The Lexical Approach”中提出“多词预制词块”在语言学习中不可或缺[3]46Nattinger & DeCarrico提出语言的产出过程就是“对预制语块进行选择,然后将这些语块串联起来的过程[4]国内,有关词块的研究多从理论发展至实证研究上杨玉晨基于国外有关词块的研究成果,提出词块的定义,即:“词块”是固定和半固定的结构化了的“板块”结构[5]王立非、张岩基于SWECCL语料库的作文子库研究发现中国学生在写作过程中词块运用种类较少,与语言本族语者相差较大[6]龚成红研究得出词块的运用得体与语篇是否连贯关系紧密且成正相关[7]在词块分类方面,Becker从结构和功能上将词块分为六大类,即原文片断、情景话语、元语篇、聚合词、句子构造结构和限制性短语[2]。
Altenberg从功能和形式上将词块分为三大类:完全分句 (不独立分句和独立分句)、分句成分(多分句成分和单分句成分)和不完全词组[8]目前,国内有关词块分类的研究多是基于Altenberg的词块分类法Altenberg是第一个基于语料库驱动的词块研究者,最早采用语料库频率信息识别词块,对基于语料库的词块研究做出了巨大的贡献因此,本文基于该分类标准,对不同层次论文中的词块运用进行分析二、研究设计1研究问题本研究通过考察不同词长词块在论文中的分布状况,采取Altenberg的词块分类法研究安徽省某高校英语专业毕业生论文词块的使用状况依據论文划分标准,考察学生写作水平高低与学生在写作过程中词块运用之间的关联本研究试图回答三个问题:(1)不同写作水平论文在篇幅长度和词汇运用上有何差异?(2)3—6字词长词块在不同写作水平论文中数目及结构类型分布状况如何?(3)学习者写作水平与词块运用之间是否相关,存在何种关联?2语料库简介本研究所使用的语料为研究者自建语料库,以安徽省某高校2016届英语专业本科毕业生为研究对象首先,依据学生毕业论文成绩,按照相同比例从优秀、良好及及格三个不同层次的论文库中随机抽取54篇论文;然后,依据论文得分进行分组统计,统计标准与该校不同层次论文成绩划分标准相符,即:85分以上为英语写作水平较高的高分组,85—75分为中分组,75—60分为写作水平较低的低分组;最后,建立小型研究语料库。
建库主要经过以下阶段:采集语料,删除冗余信息,校对,保存语料TXT的格式,去噪等语料处理该语料库包括高分组、中分组及低分组三个子库3研究方法与步骤本文基于研究者自建毕业论文语料库,结合定量与定性的研究方法,探索英语学习者写作水平与英语语言词块运用之间的关系首先,将高分组、中分组和低分组三个子库分别导入Antconc语料库软件中,统计出三个子库的形符和类符,并计算出三组论文的形符类符比,即TTR值;然后,利用Antconc软件中N字语词频表功能检索三组子库毕业论文中3—6词长词块数据,考察不同水平论文中3—6词长词块数目的使用状况;最后,研究者根据前文提及Altenberg的词块分类法,分析三组论文中3—6词长词块的不同结构类型,统计频数并考察不同结构类型词块的运用情况三、研究结果与分析1三组论文的TTR值形符(token)类似于我们日常说的“词”,总形符数是语料库容量最常用的测量单位类符(type)作为一个统计量,指语料库文本中任何一个独特的词性(word form)重复出现的形符只能记作一个类符[9]形符类符比,即TTR值,是衡量语篇文本词汇密度的常用办法,可说明文本中词汇的运用丰富度。
TTR值越大,表明词汇的使用难度较低,词汇的多样性较少,反之,则表明词汇的使用种类较多且难度大本文首先利用Emeditor文本编辑器,对高分组、中分组与低分组的语料进行文本降噪处理,清除原始语料中冗余内容,包括论文的致谢、目录及参考文献等部分,仅保留论文正文;然后,研究者将语料分别导入Antconc3.2.4w,依次点击“word list”与“start”按钮,得出三组论文形符与类符值具体统计结果如表1:由表1可知,高分组形符数高达75 295,中分组次之为68 938,低分组形符数最少为67 555可以看出,三组不同水平毕业论文中,高分组论文篇幅长度最长,中分组略高于低分组,形符差距为1 383,整体呈现写作水平越高的论文其篇幅越长论文词汇难度运用方面,高分组的TTR值最高为13.54%,中分组为12.57%,而低分组最低为11.77%由于TTR值的高低与词汇运用多样性成反比,则可得出高分组中词汇运用的丰富度低于中分组和低分组且高分组的词汇变化幅度小研究结果与该高校论文加分标准中词汇运用越丰富分数越多的原则相违背经考察,高分组词汇丰富度较低的原因是由论文中大量使用功能词而引起的,如:and,a of,the等词语。
基于上述研究数据,得出三组论文篇幅长度与论文写作水平呈正相关,论文的词汇运用多样性与写作水平呈负相关2三组论文中不同词长词块的分布状况词块是计算机可以检索出的以相同形式反复出现的两词或多词的有意义的连续词组单位研究者通过Antconc3.2.4w软件N字语词频表功能,检索出不同词长的多个具有意义且合符意义的词块利用Antconc软件工具中的“Cluster”词群功能,在软件下方按钮处分别设置所需检索的词长数字,在“Search Term”中选取“N-Grams”项,并在“N-Gram Size”中设置词长,分别输入三字词长、四字词长、五字词长及六字词长为便于研究,在基于Biber[10]提出词块是词容为100万词的语料库中出现频率为10次以上的词语序,研究者结合语料库库容,以三个子库中3—6词长的连续词组单位且最低出现的频率值为5的词块作为研究参数,最后点击“Start”按钮,得出原始不同词长词块数目,然后人工筛选并删除非词块词语组合,如can be found in, equal interpersonal relationship with, of interpersonal function of the等意义残缺且语法错误的词汇组合。
得出的最终结果如表2示:由表2可以看出,不同词长词块在三组论文中分布状况各不相同研究发现,得分越高的论文,使用词块数量越多高分组论文运用词块数量最多,中分组论文词块数量略少于低分组且观察统计结果,低分组中三字词长词块与四字词块均多于中分组,这是由中低两组论文篇幅长度相近而引起的从词块长度来看,三组论文中,词块数量随着词块长度的增加而衰减,词块长度越短,其数量越多如上表所示,高分组中,3字词块的数量为5 416,使用频率高达77.11%,而6字词块的数量仅为113,频率低至1.61%不同词长词块中,3字词块分布最广,所占比例最大三组论文中3字词长词块的分布频率最高为中分组(81.82%),最低为高分组(77.11%);4字词长词块使用数目次于3字词块且二者差距较大,三组论文中4字词长词块所占比重最多为高分组(16.37%),最少为中分组(13.26%);5字词长词块的使用分布状况略高于6字词长词块,高中低三组论文中,5字词块的使用频率分别为:4.91%,3.91%,3.28%;6字词长词块使用频数远远低于其他词长词块,如高分组使用频数仅为113,频率为1.61%,中分组与低分组相近,频率分别为0.91%和1.02%。
对比三组论文不同词长词块使用状况,发现该校英语专业学生在写作过程中均使用大量词块,其中,3字词长词块使用分布最广总体考察中发现写作水平越高的论文其词块使用数量越多,不同长度词块的使用呈现出词块长度越长使用数量越少的分布态势3三组论文中不同词块结构类型的分布状况前文提及本文参照Altenberg的词块分类法对三组论文中不同词块的结构类型进行分析即形式上将词块分为三大类,包括完整分句、分句成分及不完全词组完整分句是语言学句法层级最高的语言实体,具有相对完整的主谓结构和语法意义它包括独立分句及不独立分句独立分句表达完整的语义可单独使用,如;I dont know, the plot goes on the following等,从属分句需与其他分句构成完整句子,如:in my opinions,as the evidence on the aboved等分句成分可分为单分句成分和多分句成分,如:and others, three years ago等和there are, I believe等不完全词组指不具备完全结构与形式的词组,如:most of them, so as to等具体词块结构类型在三组论文中的分布状态如表3所示。
从表3可以看出,三组论文中,分句成分结构类型的3—6字词长词块分布最广,完整分句和不完全词组结构类型的词块使用数目远远低于分句成分,其中,不完全词组的分布数量略低于完整分句高中低组论文中分句成分结构类型的词块使用频率相近,所占组别总数频率分别为:73.73%、76.99%、83.87%,其中,多分句成分结构类型词块远远高于单分句成分词块,三组论文多分句成分词块和单分句成分词块之间的频率差分别为:32.87%、30.99%、25.01%三组论文3—6完整分句结构的词块使用分布中,高分组和中分组的使用频率相近,分别为13.6%与13.59%,低分组的使用频率较少为9.30%,频数分别为955、462、365在完整分句结构类型词块运用上,独立分句远远高于不独立分句,二者在三组论文中的使用频数差分别为:855、438、347全部词块使用数据中不完全词组结构类型词块的使用数目最少,呈现得分越高的论文不完全词组使用数量越少的特点,具体的使用频率呈阶梯分布状,其使用频率分别为:12.67%、9.42%、7.33%从3—6词长词块不同结构类型在三组论文中的分布状況发现,英语专业学习者在英语词块运用写作过程中,大量使用具有分句成分结构词块,多是带有多分句成分结构的词块,而完整分句和不完全词组结构的词块运用较少。
三组论文完整分句、分句成分及不完全词组结构词块的分布频率(12.16%,78.03%,9.81%)与Altenberg[8]基于本族语口语语料库CL。
