自然语言理解-语料库
52页1、语料库,什么是语料库,语料库是语言材料的集合 语料库的特点 必须是真实语言环境中出现过的语言材料 必须是以电子计算机为载体 必须经过一定的分析、加工和处理,语料库的类型1,按来源分类 口语语料库 书面语语料库 按语言分类 单语语料库 双语语料库 按加工分类 生语料库 熟语料库,语料库的类型2,按加工方式分 单语 原始语料库 切分标注语料库 句法树库 语义标注语料库 双语 篇章对齐语料库 句子对齐语料库 词语对齐语料库 结构对齐语料库 ,语料库研究的历史,第一代(197080年代) 百万词级 以语言研究为导向 第二代(198090年代) 千万词级 词典编纂应用导向 第三代(1990年代) 超大规模(上亿词级) 标准编码体系 深度标注/多语种 NLP应用 第四代(?) 互联网作为语料库,第一代语料库1,Brown语料库 始建于1960年代初 W.N.Francis和H.Kucera发起 美国Brown大学建立 世界上第一个根据系统性原则采集样本的标准语料库 主要代表当代美国英语 规模100万词次,第一代语料库2,LOB语料库 始建于1970年代初 由英国Lancaster大学著名语言学家G
2、eoffrey Leech倡议 挪威Oslo大学StigJohansson主持完成 安装在挪威Bergen大学挪威人文科学计算中心 规模于Brown语料库相当 主要代表当代英国英语,第一代语料库3,LLC语料库 1960年代初,由Randolph Quirk主持 收集2000小时的谈话和广播等口语素材并整理成书面材料 由瑞典Lund大学J. Svartvik主持全部录入计算机 1975年建成,第二代语料库1,COBUILD语料库 建于1980年代 以词典编撰为应用背景 有英国Birminghan大学与Collins出版社合作完成 规模达2000万词次 基于该语料库出版的Collins Cobuild词典(1987)受到了广泛的好评,第二代语料库2,Longman语料库 建于1980年代 包括三个语料库 LLELC语料库(Longman/Lancaster英语语料库) LSC语料库(Longman口语语料库) LCLE(Longman英语学习语料库) 目标是编撰英语学习词典,为外国人学习英语服务 词典规模达5000万词次,第三代语料库2,PennTreeBank(宾州大学树库) 美国Pe
3、nnsylvania大学1980年代末开始发起 由该校计算机系M.Marcus主持 1993年,完成了对近300万英语词的句子语法结构标注 2000年完成了中文树库(第一版):10万词次,4185个句子,第三代语料库1,ACL/DCI语料库 美国ACL倡议发起 收集语料范围广泛 华尔街日报 Collins英语词典 Brown语料库 PennTreeBank 一些双语或多语文本等 既有已标注的语料,也有未标注语料 制定了语料库文件的格式标注 采用统一的SGML标注语言 语料标注依照TEI(Text Encoding Initiative)标准,语料库的收集、整理和应用,语料的选取,Summers, Longman/Lancaster English Corpus: Criteria and Design, Harlow: Longman 精品原则 有影响力原则 随机挑选原则 高流通度原则 典型性原则 易于获得原则 具有统计样本意义原则 符合语言规范原则 平衡性:主观性强,语料库的加工,语料库标注(Annotation) 1)词性标记(Part-of-speech tagging) 2)句
4、法层次和范畴标记(Grammatical parsing) 3)词义标记(Word sense tagging) 4)篇章指代标记(Anaphoric annotation) 5)韵律标记(Prosodic annotation),语料库加工工具,分类工具名称功能描述 A. 文件处理工具 文本过滤器 将不同的文件格式转成为纯文本文件格式 文本分类器 自动判别文本领域 语料库辅助校对工具及一致性检查工具 按照语料库加工规范,对语料质量进行管理 B. 语言处理工具 分词与词性标注工具 对语料进行词语识别,词性标记处理 词义标注工具 对词义进行标注 浅层分析工具 对语块(chunk)进行标注 句法分析工具 对句子进行完全句法分析 双语语料对齐工具 对双语语料进行各个层级(段落、句子、小句、词的对齐加工,双语语料库(Bilingual Corpora)加工,段落对齐 句子对齐 词对齐 短语对齐,双语句子对齐,基于长度(length-based)的对齐方法Gale & Church (1993) 纯粹基于句子的长度来估计对齐可能性资源要求少,算法效率相对较高 基于词(word-based)的对齐
《自然语言理解-语料库》由会员小**分享,可在线阅读,更多相关《自然语言理解-语料库》请在金锄头文库上搜索。
2020年高考真题——理科综合(全国卷Ⅲ)+Word版含答案
2021年绝味鸭脖策划书
2021年熟食店创业方案
2021年熟食店开店策划
2021年卤菜店创业计划书
2021年周黑鸭网络营销策划方案
东大21年1月考试《现代设计方法》考核作业
谈我国行政管理效率的现状及其改观对策(论文)
单证员考试-备考辅导-复习资料:无贸易背景信用证案分析.docx
土木工程毕业生答辩自述.docx
建筑学毕业后工作状态真实写照.doc
C#代码规范(湖南大学).doc
xx区食药监局2019年工作总结及2020年工作计划
2019年中医院药物维持治疗门诊工人先锋号先进事迹
2019年度xx乡镇林长制工作总结
2019年性艾科工作计划书
2019年人才服务局全国扶贫日活动开展情况总结
关于组工信息选题的几点思考
摘了穷帽子 有了新模样
2019年某集团公司基层党支部书记培训班心得体会
2024-01-31 15页
2024-01-31 21页
2024-01-31 37页
2024-01-31 30页
2024-01-31 22页
2024-01-31 48页
2024-01-31 32页
2024-01-31 40页
2024-01-31 31页
2024-01-31 20页