
整理基于语料库的工作课件.ppt
29页关于语料库的三点基本认识语料库中存放的是在语言的实际使用中真实出现过的语言材料;语料库是以电子计算机为载体承载语言知识的基础资源; 真实语料需要经过加工(分析和处理),才能成为有用的资源;6/15/20226/15/20221 1中文信息处理中文信息处理- -基于语料库的工作基于语料库的工作语料库示例北京大学计算语言所富士通人民日报标注语料库样例:北京大学计算语言所富士通人民日报标注语料库样例:历史历史/n /n 将将/d /d 铭记铭记/v /v 这个这个/r /r 坐标坐标/n /n :/w /w 北纬北纬/b /b /m /m 度度/q /q 、/w /w 东经东经/b /b /m /m 度度/q /q ;/w /w 人们人们/n /n 将将/d /d 铭记铭记/v /v 这这/r /r 一一/m /m 时刻时刻/n /n :/w /w 年年/t /t 月月/t /t 日日/t /t 时时/t /t 分分/t /t /w /w 中国中国/ns /ns 政府政府/nnt /nnt 顺利顺利/ad /ad 恢复恢复/v /v 对对/p /p 香港香港/ns /ns 行使行使/v /v 主权主权/n /n ,/w /w 并并/c /c 按照按照/p “/w /p “/w 一国两制一国两制/j ”/w /j ”/w 、/w “/w /w “/w 港港人治港人治港/l ”/w /l ”/w 、/w /w 高度高度/d /d 自治自治/v /v 的的/u /u 方针方针/n /n 保持保持/v /v 香香港港/ns /ns 的的/u /u 繁荣繁荣/an /an 稳定稳定/an /an 。
/w/w6/15/20226/15/20222 2中文信息处理中文信息处理- -基于语料库的工作基于语料库的工作语料库的分类生语料库生语料库/ /熟语料库熟语料库 生语料库生语料库生语料库生语料库就是未经加工的就是未经加工的, ,没有任何切分没有任何切分, ,标注标记的原标注标记的原始语料库始语料库 熟语料库熟语料库熟语料库熟语料库就是指经过加工就是指经过加工, ,带有切分带有切分, ,标注标记的语料库标注标记的语料库系统型语料库系统型语料库/ /专用型语料库专用型语料库 系统型语料库系统型语料库系统型语料库系统型语料库就是依据事先确定的选材原则和比例选就是依据事先确定的选材原则和比例选取语料的语料库取语料的语料库 专用型语料库专用型语料库专用型语料库专用型语料库就是指专门服务于某个特定目的的语料就是指专门服务于某个特定目的的语料库库单语种语料库单语种语料库/ /多语种语料库多语种语料库6/15/20226/15/20223 3中文信息处理中文信息处理- -基于语料库的工作基于语料库的工作语料库发展简史第一代(197080年代) 第二代(198090年代) 第三代(1990年代)6/15/20226/15/20224 4中文信息处理中文信息处理- -基于语料库的工作基于语料库的工作第一代语料库Brown语料库LOB语料库LLC语料库百万词级以语言研究为导向6/15/20226/15/20225 5中文信息处理中文信息处理- -基于语料库的工作基于语料库的工作第二代语料库COBUILD语料库 Longman语料库千万词级词典编纂应用导向6/15/20226/15/20226 6中文信息处理中文信息处理- -基于语料库的工作基于语料库的工作第三代语料库ACL/DCI语料库 The The A Association for ssociation for C Computational omputational L Linguistics inguistics D Data ata C Collection ollection I Initiative nitiative UPenn树库 LDC( Linguistic Data Consortium )超大规模(上亿词级)标准编码体系深度标注/多语种NLP应用6/15/20226/15/20227 7中文信息处理中文信息处理- -基于语料库的工作基于语料库的工作语料库建设中处理的问题文本生文本生文本标注文本标注文本语料库建设中处理的问题低级格式问题低级格式问题标记化:什么是一个词?标记化:什么是一个词?词法词法句子句子6/15/20226/15/20228 8中文信息处理中文信息处理- -基于语料库的工作基于语料库的工作低级格式问题垃圾格式由于语料库的来源复杂,语料库中可能存在无由于语料库的来源复杂,语料库中可能存在无法处理的各种各样的格式或内容,他们是没有法处理的各种各样的格式或内容,他们是没有用处的,需要过滤掉。
用处的,需要过滤掉文档页眉、分隔符、排版代码、表和图表文档页眉、分隔符、排版代码、表和图表如果数据来源于如果数据来源于OCROCR,会引入错误识别的问题,会引入错误识别的问题6/15/20226/15/20229 9中文信息处理中文信息处理- -基于语料库的工作基于语料库的工作低级格式问题大小写thethe,TheThe,THETHERichard Richard BrownBrown brownbrown paint paint识别句子中人名的启发式方法把每个句子开头的大写字母转换成小写字母把每个句子开头的大写字母转换成小写字母把一串连续大写的词当作标题和副标题把一串连续大写的词当作标题和副标题这样,其余的大写字母就可以认为是名字这样,其余的大写字母就可以认为是名字6/15/20226/15/20221010中文信息处理中文信息处理- -基于语料库的工作基于语料库的工作标记化:什么是一个词什么是词前后有空格的连续字母组成的字符串,可以包前后有空格的连续字母组成的字符串,可以包含连字符和省略号,但是不能包含其它的标点含连字符和省略号,但是不能包含其它的标点符号Kucera and FrancisKucera and Francis(19671967)$22.50$22.50,Micro$oftMicro$oft,C C| |netnet6/15/20226/15/20221111中文信息处理中文信息处理- -基于语料库的工作基于语料库的工作标记化:什么是一个词句点大多数句点的作用是表明句子结束,其它情况大多数句点的作用是表明句子结束,其它情况表示缩写,例如:表示缩写,例如:etc.etc.,Calif.Calif.。
保留句点的意义Wash.Wash.(WashingtonWashington)- Wash- Washetc.出现在句子的末尾的时候,只保留一个句点,这个句点同时表示两种意思6/15/20226/15/20221212中文信息处理中文信息处理- -基于语料库的工作基于语料库的工作标记化:什么是一个词单撇号单撇号 ImIm,isnt isnt I amI am,is notis notdogs dogs 表示什么?表示什么? dog isdog is,dog hasdog has,还是所有格形式?,还是所有格形式?词末尾的单撇号如何处理?词末尾的单撇号如何处理? 通常代表一对引号的结束,不是该词的一部分通常代表一对引号的结束,不是该词的一部分 如果它跟着一个如果它跟着一个s s出现出现 boys toysboys toys6/15/20226/15/20221313中文信息处理中文信息处理- -基于语料库的工作基于语料库的工作标记化:什么是一个词连字符:不同形式表示相同形式的词连字符:不同形式表示相同形式的词 带有连字符的一串字母应该看成一个词还是两个?带有连字符的一串字母应该看成一个词还是两个?(有时候是一个,有时候是两个)(有时候是一个,有时候是两个) 一个,来源于排版印刷一个,来源于排版印刷 找到一行中最后的连字符,丢弃它,把本行的词和下一行的连起找到一行中最后的连字符,丢弃它,把本行的词和下一行的连起来来 e-mail, co-operatee-mail, co-operate 连字符用于表示引用的短语或者数量、比率连字符用于表示引用的短语或者数量、比率 the 26-year-oldthe 26-year-old database, data base, data-basedatabase, data base, data-base 破折号和词语之间的空格破折号和词语之间的空格6/15/20226/15/20221414中文信息处理中文信息处理- -基于语料库的工作基于语料库的工作标记化:什么是一个词相同形式表示不同的“词语”saw saw 工具工具saw seesaw see的过去时的过去时6/15/20226/15/20221515中文信息处理中文信息处理- -基于语料库的工作基于语料库的工作标记化:什么是一个词其它语言中的分词中文、日文、泰文中文、日文、泰文严守一把关上严守一把关上 严守一严守一 把把 关上关上德语中大多数的词语有空格分割,但是复合名德语中大多数的词语有空格分割,但是复合名词写成单独的词词写成单独的词LebensversicherungsgesellschaftsangestellterLebensversicherungsgesellschaftsangestellter 人身保险公司的雇员人身保险公司的雇员database data base harddisk hard diskdatabase data base harddisk hard disk6/15/20226/15/20221616中文信息处理中文信息处理- -基于语料库的工作基于语料库的工作标记化:什么是一个词非词语分界的空格data base database, 9365 1873 93651873data base database, 9365 1873 93651873New York, San FranciscoNew York, San Francisco如果和连字符一起出现,问题就更加复杂了如果和连字符一起出现,问题就更加复杂了the New the New York NewYork New Haven Railroad Haven Railroad习惯搭配形成的词习惯搭配形成的词Work outWork out I couldnt I couldnt workwork the answer the answer outout. .6/15/20226/15/20221717中文信息处理中文信息处理- -基于语料库的工作基于语料库的工作标记化:什么是一个词号码号码号码号码国家国家国家国家号码号码号码号码国家国家国家国家0171 378 06470171 378 0647UKUK+45 43 48 60 60+45 43 48 60 60DenmarkDenmark(44.171 830 1007)(44.171 830 1007)UKUK95-51-27964895-51-279648PakistanPakistan+44 (0) 1225 753678+44 (0) 1225 753678UKUK+411/284 3797+411/284 3797SwitzerlandSwitzerland01256 46866101256 468661UKUK(94-1) 866854(94-1) 866854Sri LankaSri Lanka(202) 522-2239(202) 522-2239USAUSA+49 69 136-2 98 05+49 69 136-2 98 05GermanyGermany1-925-225-30001-925-225-3000USAUSA33 1 34 43 32 3633 1 34 43 32 36FranceFrance212.995.5402212.995.5402USAUSA+31-20-5200161+31-20-5200161The Netherla。
