电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

自然语言理解-语料库

52页
  • 卖家[上传人]:小**
  • 文档编号:61278683
  • 上传时间:2018-11-27
  • 文档格式:PPT
  • 文档大小:350.01KB
  • / 52 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 1、语料库,什么是语料库,语料库是语言材料的集合 语料库的特点 必须是真实语言环境中出现过的语言材料 必须是以电子计算机为载体 必须经过一定的分析、加工和处理,语料库的类型1,按来源分类 口语语料库 书面语语料库 按语言分类 单语语料库 双语语料库 按加工分类 生语料库 熟语料库,语料库的类型2,按加工方式分 单语 原始语料库 切分标注语料库 句法树库 语义标注语料库 双语 篇章对齐语料库 句子对齐语料库 词语对齐语料库 结构对齐语料库 ,语料库研究的历史,第一代(197080年代) 百万词级 以语言研究为导向 第二代(198090年代) 千万词级 词典编纂应用导向 第三代(1990年代) 超大规模(上亿词级) 标准编码体系 深度标注/多语种 NLP应用 第四代(?) 互联网作为语料库,第一代语料库1,Brown语料库 始建于1960年代初 W.N.Francis和H.Kucera发起 美国Brown大学建立 世界上第一个根据系统性原则采集样本的标准语料库 主要代表当代美国英语 规模100万词次,第一代语料库2,LOB语料库 始建于1970年代初 由英国Lancaster大学著名语言学家G

      2、eoffrey Leech倡议 挪威Oslo大学StigJohansson主持完成 安装在挪威Bergen大学挪威人文科学计算中心 规模于Brown语料库相当 主要代表当代英国英语,第一代语料库3,LLC语料库 1960年代初,由Randolph Quirk主持 收集2000小时的谈话和广播等口语素材并整理成书面材料 由瑞典Lund大学J. Svartvik主持全部录入计算机 1975年建成,第二代语料库1,COBUILD语料库 建于1980年代 以词典编撰为应用背景 有英国Birminghan大学与Collins出版社合作完成 规模达2000万词次 基于该语料库出版的Collins Cobuild词典(1987)受到了广泛的好评,第二代语料库2,Longman语料库 建于1980年代 包括三个语料库 LLELC语料库(Longman/Lancaster英语语料库) LSC语料库(Longman口语语料库) LCLE(Longman英语学习语料库) 目标是编撰英语学习词典,为外国人学习英语服务 词典规模达5000万词次,第三代语料库2,PennTreeBank(宾州大学树库) 美国Pe

      3、nnsylvania大学1980年代末开始发起 由该校计算机系M.Marcus主持 1993年,完成了对近300万英语词的句子语法结构标注 2000年完成了中文树库(第一版):10万词次,4185个句子,第三代语料库1,ACL/DCI语料库 美国ACL倡议发起 收集语料范围广泛 华尔街日报 Collins英语词典 Brown语料库 PennTreeBank 一些双语或多语文本等 既有已标注的语料,也有未标注语料 制定了语料库文件的格式标注 采用统一的SGML标注语言 语料标注依照TEI(Text Encoding Initiative)标准,语料库的收集、整理和应用,语料的选取,Summers, Longman/Lancaster English Corpus: Criteria and Design, Harlow: Longman 精品原则 有影响力原则 随机挑选原则 高流通度原则 典型性原则 易于获得原则 具有统计样本意义原则 符合语言规范原则 平衡性:主观性强,语料库的加工,语料库标注(Annotation) 1)词性标记(Part-of-speech tagging) 2)句

      4、法层次和范畴标记(Grammatical parsing) 3)词义标记(Word sense tagging) 4)篇章指代标记(Anaphoric annotation) 5)韵律标记(Prosodic annotation),语料库加工工具,分类工具名称功能描述 A. 文件处理工具 文本过滤器 将不同的文件格式转成为纯文本文件格式 文本分类器 自动判别文本领域 语料库辅助校对工具及一致性检查工具 按照语料库加工规范,对语料质量进行管理 B. 语言处理工具 分词与词性标注工具 对语料进行词语识别,词性标记处理 词义标注工具 对词义进行标注 浅层分析工具 对语块(chunk)进行标注 句法分析工具 对句子进行完全句法分析 双语语料对齐工具 对双语语料进行各个层级(段落、句子、小句、词的对齐加工,双语语料库(Bilingual Corpora)加工,段落对齐 句子对齐 词对齐 短语对齐,双语句子对齐,基于长度(length-based)的对齐方法Gale & Church (1993) 纯粹基于句子的长度来估计对齐可能性资源要求少,算法效率相对较高 基于词(word-based)的对齐

      5、方法 一般要依赖词典资源,算法效率相对较低,人民日报语料库1,北京大学、富士通公司、人民日报社共同开发 含人民日报1998年上半年全部文本(约1千7百万字) 完整的词语切分和词性标注信息 高准确率,人民日报语料库2,样例 历史/n 将/d 铭记/v 这个/r 坐标/n :/w 北纬/b /m 度/q 、/w 东经/b /m 度/q ;/w 人们/n 将/d 铭记/v 这/r 一/m 时刻/n :/w 年/t 月/t 日/t 时/t 分/t 。/w 中国/ns 政府/nnt 顺利/ad 恢复/v 对/p 香港/ns 行使/v 主权/n ,/w 并/c 按照/p “/w 一国两制/j ”/w 、/w “/w 港人治港/l ”/w 、/w 高度/d 自治/v 的/u 方针/n 保持/v 香港/ns 的/u 繁荣/an 稳定/an 。/w,London-Lund英语口语语料库1,what a_bout a cigarette# ./ *(4 sylls)*/ *I wont have one th/anks#* -/ arent you .going to sit d/own# -/ /m#

      6、-/ have my _coffee in p=eace# -/ quite a nice .room to !sit in (actually)#/ *isnt* it#/ *y/es#* -/ 转引自Tony McEnery& Andrew Wilson, 1996, Corpus Linguistics, p55,London-Lund英语口语语料库2,语料库的编码体系,冯志伟,标准通用置标语言SGML及其在自然语言处理中的应用,载当代语言学1998年第4期。 SGML(标准置标语言)http:/www.w3.org/MarkUp/SGML/ XML(可扩展的置标语言)http:/www.w3.org/TR/REC-xml TEI(文档编码计划)http:/www.tei-c.org/ CES(语料库编码标准)http:/www.tei-c.org/Applications/index-co02.html,语料库检索,通常倒排表实现词语到文本的快速检索 演示:语料库检索和集列(concordance),语料库检索(Demo),语料库应用,支持自然语言处理应用系统开发 支持语言学研

      7、究和语言教学研究,语料库对NLP的支持,基于大规模语料库的语音识别; 基于大规模语料库的音字转换技术(中文输入); 基于大规模语料库的自动文本校对技术; 利用语料库训练HMM模型进行分词,词性标注,词义标注,等等; 基于语料库的句法分析; 基于语料库的机器翻译; 基于机器学习技术,通过语料库获取语言知识,包括搭配特征,句法规则,等等; 基于语料库的语言模型训练和语法模型评价;,应用:词频统计与Zipf定律,1998全年人民日报语料中频度最高的28个词(带词性)北京大学计算语言学研究所俞士汶教授提供,齐普夫(Zipf)定律,齐普夫定律是美国学者G.K.齐普夫于本世纪40年代提出的词频分布定律。它可以表述为:如果把一篇较长文章中每个词出现的频次统计起来,按照高频词在前、低频词在后的递减顺序排列,并用自然数给这些词编上等级序号,即频次最高的词等级为1,频次次之的等级为2,频次最小的词等级为。 若用f表示频次,r表示等级序号,则有 f(r) = cr -,1, c是常数 人们称该式为齐普夫定律。,齐普夫(Zipf)定律,词语分布均匀度,1998年人民日报语料库部分词语分布 北京大学计算语言学研

      8、究所俞士汶教授提供,词语分布均匀度:如何衡量?,熵? 北大提出流通度公式:,词语均匀度,Word POS Frequency DC 中 f 44418 0.99989 的 u 736812 0.99988 在 p 154681 0.99985 为 p 31394 0.99971 等 u 35223 0.99970 上 f 40645 0.99968 个 q 35769 0.99968 了 u 141789 0.99968 能 v 19574 0.99966 也 d 37295 0.99964 从 p 26576 0.99960 大 a 27858 0.99952 和 c 147835 0.99951 并 c 18585 0.99950,Word POS Frequency DC 都 d 24309 0.99949 人 n 36128 0.99949 对 p 54411 0.99946 不 d 62676 0.99942 把 p 19989 0.99942 是 v 138767 0.99942 到 v 30611 0.99940 记者 n 28324 0.99936 地 u 28010

      9、0.99935 有 v 60901 0.99935 一 m 90038 0.99934 结束 v 3255 0.99931 通过 p 8174 0.99928 那些 r 1871 0.99928,汉语语料库建设规范 语料库分词和标注规范,语料库建设规范,选材规范 文本描述规范 加工规范 体系构造规范,主要内容,已有的相关内容 语料库的加工规范的总原则 结构化词表构造原则 切分标注原则,已有的相关研究成果,1信息处理用现代汉语分词规范 中国国家标准GB13715,1992年 2信息处理用现代汉语词类标记集规范 教育部语言文字应用研究所 2002年,已有的相关研究成果,3现代汉语语料库文本分词规范 北京语言文化大学语言信息处理研究所 清华大学计算机科学与技术系 1998年 4北大语料库加工规范: 切分、词性标注、注音 北京大学计算语言学研究所 2003年 5資讯处理用中文分词标准 台湾计算语言学学会 ,1996年,语料库加工规范的总原则,不矛盾性原则:指切分标注时不能出现两可的情况,即可以同时适用两条或两条以上的规则的情况。 完备性原则:指规范能够覆盖文本的全部,即不能出现没有适用的规则的情况。,词表原则,切分标注一般都遵循一个原则词表原则 把词表中已经收录的词语都作为一个分词单位,不再切分, 所以几乎每一个规范的背后都有一个相应的词表。 此外切分标注要做的事情主要就是未登录词的处理。 未登录词包括词的重叠形式(如“点点头、高高兴兴”)、附加形式构成的词(用前后缀构成的词,如“阿明、花儿、人民性、大众化”)、离合形式的词(词的离合形式,如“睡了一觉、理了个发”)、合成数词(如“三千四百五十六”)、新词。新词主要是人名、地名等专有名词和未收入词表中的一些低频词。,词表的构造原则(已有成果),孙宏林在谈谈汉语分词的标准(语言文字应用, 1997.4)中提出确定词表的优先顺序: 单用标准扩展标准语义标准音节标准频度标准。 孙茂松、张磊在人机并存,“质”“量”合一(语言文字应用, 1997.1)中,强调人的理性判断与机

      《自然语言理解-语料库》由会员小**分享,可在线阅读,更多相关《自然语言理解-语料库》请在金锄头文库上搜索。

      点击阅读更多内容
    最新标签
    发车时刻表 长途客运 入党志愿书填写模板精品 庆祝建党101周年多体裁诗歌朗诵素材汇编10篇唯一微庆祝 智能家居系统本科论文 心得感悟 雁楠中学 20230513224122 2022 公安主题党日 部编版四年级第三单元综合性学习课件 机关事务中心2022年全面依法治区工作总结及来年工作安排 入党积极分子自我推荐 世界水日ppt 关于构建更高水平的全民健身公共服务体系的意见 空气单元分析 哈里德课件 2022年乡村振兴驻村工作计划 空气教材分析 五年级下册科学教材分析 退役军人事务局季度工作总结 集装箱房合同 2021年财务报表 2022年继续教育公需课 2022年公需课 2022年日历每月一张 名词性从句在写作中的应用 局域网技术与局域网组建 施工网格 薪资体系 运维实施方案 硫酸安全技术 柔韧训练 既有居住建筑节能改造技术规程 建筑工地疫情防控 大型工程技术风险 磷酸二氢钾 2022年小学三年级语文下册教学总结例文 少儿美术-小花 2022年环保倡议书模板六篇 2022年监理辞职报告精选 2022年畅想未来记叙文精品 企业信息化建设与管理课程实验指导书范本 草房子读后感-第1篇 小数乘整数教学PPT课件人教版五年级数学上册 2022年教师个人工作计划范本-工作计划 国学小名士经典诵读电视大赛观后感诵读经典传承美德 医疗质量管理制度 2 2022年小学体育教师学期工作总结 2022年家长会心得体会集合15篇
    关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
    手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
    ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.