
SketchEngine的核心功能和应用前景.docx
19页Sketch Engine的核心功能和应用前景葛晓华中国人民大学北京外国语大学摘要:Sketch Engine自发布以来己日益成熟,其应用效果开始受到国内外学者的关 注在国外,Sk E被应用于词典编纂、语言教育和翻译研究等多领域,但在国 内,相关研究仍不多见本文在介绍Sk E主要功能(词汇素描、差异素描、创 建语料库等)以及梳理国内外相关文献的基础上指出,Sk E的功能有待继续深 入挖掘,并就此展望了该软件和平台在我国词典编纂、语言教学、翻译教学研究 以及外语教学等方面的研究前景关键词:Sketch Engine; 词典编纂; 语言教学;番羽译;作者简介:葛晓华100872北京市中国人民大学外国语学院收稿日期:2017-01-21基金:中国人民大学2014年度外国语学院985工程科学硏究基金项目(项目编 号:2014Q004)的阶段性研究成果Core Functions and ApplicationProspects of Sketch EngineGE Xiao-huaSchool of Foreign Languages, RUC;Abstract:As a 1 eading corpus query tool, Sketch Engine is widely used in many areas including lexicography, collocation studics and tremslation studies, etc. This paper describes its core functions and summaries its application during the past 13 years in China and abroad. The survey showed that the range of application is covering many areas, including lexicography, language study, language teaching, translation studies and discourse analysis, etc. At the same time, there is stil 1 plenty of room for further cxploration.Keyword:Sketch Engine; Lexicography; Language Teaching; Transittion;Received: 2017-01-211引言语料库检索工具Sketch Engine (以下简称"Sk E” )自发布以来(Kilgarriff et al., 2004)已有13年的历史,并且日益成熟。
Sk E能够根据语法成分自动 提取词语的搭配规律,并将其按照频率和显著性进行统计排列,较Wordsmith 或Ant Cone提供主题词(KWIC)的功能更为进步;且Sk E不受语料库大小限制, 目前自带语料库达397个,最大的语料库en Ten Ten含196亿字符,使大规模 总结分析成为可能,显著提高了研究者的效率该检索工具的优势还在于其适用 于所有语言近年来,Sk E在拓展原有功能的基础上,引入了新的功能同时, 国际上也开始对Sk E进行多方位的开发利用,但是国内对于该软件的应用尚不 多见本文在描述Sk E核心功能的基础上,梳理国外SSCI和国内CSSCT期刊中有关 SkE的研究成果,并展望Sk E的应用前景,使得对基于语料库、定量与定性相 结合的研究的探讨更深入2 Sk E的核心功能2. 1 词汇素描(Word Sketch)Sk E最核心的功能为词汇素描,即Sk E能将检索词的语法和搭配行为总结在同 一个页面上例如,我们选择Sk E自带的BNC数据库,在词汇素描页面的查询 栏中输入“obtain”这个词目(lemma),可以得出该词在BNC中所有的语法和 搭配信息(图1为部分信息)o从图1的标头(header)可以看到“obtain (verb) ”在BNC中共出现12, 713次,每百万词出现113.21次。
图1中每一栏 都是根据“obtain”语法成分整理的、与其搭配的相关信息,包括搭配词、词频、 搭配强度指数Ml值由第1栏可见,修饰“obtain”且与之搭配强度最高的副 词为“dishonestly",频次为21次,MI为9.20由第2栏可见,作为宾语与“obtain”搭配强度最高的名词为“information” ,频次为411次,MI为9. 29第3栏为作为主语与“obtain”搭配的名词,该栏较复杂,因为有I]寸宾语 会被误解为主语,需要研究者进一步校对核查第4栏为与“obtain”并列使用 的动词,如“seek”、“retain”或“hold”等第5栏介绍“obtain”与介词 的搭配情况,如 uobtain from”、“obtain by” 等所有条目均经过降噪处理,可以立刻解读词汇素描的结果可以作为字典的一个 条目,因为Sk E能够查找检索词的所有重复规律,并将资料整理为词典编纂者 所需要的形式如果点击搭配栏中的“ + ” ,系统会显示一个多词素描,例如,点击 "information"后面的"+ ” ,会出现"obtain information”的多词搭配素 描(见图2) o双语词汇素描(bilingual word sketch)是词汇素描的延伸,用户可以在一种 语言中选取一个词汇,在另一种语言中选择其对应词,进而比较它们在两个语 料库中的搭配词。
这些搭配词可以揭示这一对词在两种语言中是否具有意义上的 差异,能否成为互换词通过词汇素描功能,用户可以观察“oblain”的所有搭配情况,若想进一步了 解“obtain”与“fraud”搭配详情,点击“fraud”后面的数字即可(见图 3)obtain(verb)British National Corpus (BNC) frequencia = 12,713modifiers of "obtairf1,0630.08dishonestly219.20by any deception dishonestly obtainsillegally117.85illegally obtainedfree97.83fraudule ntly67.45easily406.92easily obtainedreadily146.80readily obtainedindepe nd"tly66.55subseque ntly136.48subsequently obtainedthereby96.37first356.24without first obtainingthus185.79thus obtainidobjects of /obtairTinformation +■result +■results obtainedconsent +■con sen t was obtainedpermissio n +obtained permissiondatum +data obtainedcopyobtain a copyapprovallicenceevidence +■ftformula;■we obtain fitformula;certificatebenefit图1 obtain的词汇素描下载原图Obtain information 器;:obtain: modifiers of ^obtain*10.0522dish on estly29.03knowingly3B.24thus22.78SO30.26(obtain-v filtrados por in formation-n)obtain: uin passiveobtain: subjects of "obtain10.0937Sunday27.09inspector25.98manager55.31person33.44obtain: p「ef>o,itional phrases77obtain" from ...380.09"obtain hv …142. 2 差异素描(Sketch Diff)Sk E另一个重要的功能是差异素描,可以通过对比两个词的搭配并根据语法关 系将搭配词划分为不同的类别。
这种检索和呈现方式对研究者和语言学习者来说 都非常友好便捷以"obtain (v.) ”和"gain (v.) ”为例,每一栏中越接近 上部、颜色越深的部分与“obtain”搭配越紧密,而越接近下部、颜色越深的部 分与“gain”搭配越紧密,无色区域是与两个词均有搭配且无显箸差异的词汇 (部分信息见图4)例如,“seek”与“obtain"并列使用(16次),而 "lose” 与"gain” 并列使用(26 次),"qualification” 既可作为 “obtain”的宾语,也可作为“gain”的宾语Written bo・・・the decision. Where theWritten bo…protection in order, e.g., toWritten bo…ap pear to be rape where seWritten bo..・means that if the cheque 1Written bo・・・that an immigrants enWritten bo…the fact that the selkWritten bo…sell the property, albeitobtain/gain British National Corpus iobtain 6.0 4.0 2.0 0 -2.0 -4.0and/or …2239& 0.020.01seek16010.0■ ■retain909.2■ ■hold1509.1■ ■consolidate509.0• •communicate609.0■ •use707.1■ ■try065.4lose026■ ■10.1objects of %w8,2265,8010.650.69datum14108.4• •copy9808.1■ ■licence7207.9• •result277p9.13.7consent129D8.84.8information411639.36.8permission109168.46.1frdimatplPbiCistinc(di73.0approval45(注:在Sk E中与obtain搭。












