
杨百翰大学BNC语料库使用说明.ppt
43页BNC语料库使用说明杨百翰大学BNC语料库简介 •1. 简介•1.1 通过这个网址,可以搜索到100 million词的British National Corpus (1970s-1993). (当然现在Corpus of Contemporary American English(1990-2009)能免费提供 400+ million 词,网址为:http://www.americancorpus.org/)http://corpus.byu.edu/选择学习BYU-BNC的原因•1. BYU-BNCm免费且方便•2. BYU 还有另外两个语料库TIME Corpus of American English 和Corpus of Contemporary American English (COCA) ,它们的使用方法基本相同1.2 BYU-BNC界面简介•2. 主要搜索功能•2.1 搜索搜索words、、phrases、、lemmas、、wildcards和其他更加复杂的字词和其他更加复杂的字词•2.1.1 输入单词“mysterious” (图2.1.1-1):•得到相关结果(图2.1.1-2):在各子库中的频率,每百万词使用的频率•若对图2中的相应条块进行点击,那么就可以看到KWIC,如图2.1.1-3 (以点Fiction的条块为例):图2.1.1-1图2.1.1-1使用CHART显示图2.1.1-3 使用KWIC显示方式•2.1.2 输入词组输入词组“white+名词名词” (图2.1.2-1)• 得到的结果都是white后面跟的名词短语 (图2.1.2-2),检索表达式为:white [n*]图2.1.2-1 •规则:输入名词的话用正则表达式: [n*];动词: [v*]; 形容词: [aj*]; 副词: [av*]……图2.1.2-2 White+名词的短语•2.1.3 输输入入通通配配符符(wildcards),如分别输入un*ly和r?n*,结果如图2.1.3-1和.2.1.3-2图2.1.3-1 图2.1.3-2 •2.1.4 输输入入lemma(即一个单词的单单复复数数、时时态态等所有形式),若要得到sing这个单词的所有形式,可以如下图所示(图2.1.4-1) 图2.1.4-1规则:若要得到某个单词的所有单复数和时态形式,那么就要在输入时,在这个单词外加 [ ]。
图2.1.4-2形容词early的圆形,比较级和最高级三种形式一次性检索出来检索•2.1.5 输输入入某某种种词词性性且且部部分分带带有有某某些些字字母母的的命命令令,如要得到以un-开头、-ed结尾的所有形容词的所有形式(见图2.1.5-1)和得到动词+任何词+ground的所有词组(见图2.1.5-2):•规则:若要得到某种词性且词中带有部分带有某些字母的形式时,如要得到以un-开头、-ed结尾的所有形容词的所有形式,那么输入: un*ed.[aj*];若要得到动词+任何词+ground的所有词组,那么输入: [vv*]*[ground]即可前者用来研究词汇,后者用来查询特定词性的搭配图2.1.5-1 图2.1.5-2 动词+任何词+ground的所有词组•2.2 搜索搭配词和出现的频率搜索搭配词和出现的频率•如 “thick后跟的名词” (图2.2-1)图2.2-1 规则规则:在context里输入[n*] 后选择4,表示在thic4后面(4跨距范围内)出现的任何名词•如跟在 “smile前面的形容词” (图2.2-2)规则:在words里输入: smile.[n*],表示作为名词的smile; 在context里输入: [aj*]表示其前后出现形容词的语境。
Confidence前使用的行用词 图2.2-3•2.3 搜索在子语料库搜索在子语料库(register)内内(或之间或之间)出出现的频率现的频率(或比较或比较)(不同语域中的用法不同语域中的用法)•如在Fiction和Newspaper子数据库中passionate后面可以跟任何名词的词及频率,分别如两图(2.3-1和2.3-2)图2.3-1 图2.3-2 •但是也可以之间对两者子语料库中它们出现频率的对比,操作:分别选择section 1&2,如下图(图2.3-3): 图2.3-3 •2.4 进行语义倾向比较进行语义倾向比较•2.4.1 比较近义词•如:近义形容词hot和warm后面所跟名词的区别(如图2.4.1):图2.4.1 规则:在words的方格里分别输入hot和warm,再在context方框里输入[nn*],表示后面所跟任何名词当然也可以比较在某个子语料库中出现的频率比较 •2.4.2 比较反义词•如:woman和man前面所跟的形容词的区别(如图2.4.2)图2.4.2 规则:在words的方格里分别输入woman和man,再在context方框里输入[aj*],选在左3,表示前面3个跨距内所有的形容词。
当然也可以比较在某个子语料库中出现的频率比较•2.4.3 搜索近义词搜索近义词•如:搜索beautiful的所有近义词(如图2.4.3-1)规则:在words的方格里输入[=beautiful],表示和beautiful语义相近的所有形容词•再如:搜索动词clean的所有近义词,如下图:图2.4.3-2 •当然可以进一步搜索与clean语义相近的动词+the+名词的词组,[[=clean]].[v*] the [n*] 如下图:图2.4.3-3 BYU-BNC词性附码的使用•1)查询多义词特定的词性,如for•2)某个词前/或者后面特定词性的若干搭配词, 如confidence 前的形容词•3)词性附码放置的位置•Words或者context处将BNC KWIC制作成mini text•需要工具:• 1. 文本编辑器• 2. MS-word •以上方法同样可以用于检索代表当代美国的语料库 http://www.americancorpus.org/,以及以不同年代的TIME做成的历史语料库http://www.americancorpus.org/。












