
第一讲统计自然语言处理概论2.ppt
86页统计自然语言处理 与信息检索孙越恒 天津大学网络智能信息计算研究所E-mail: yhs@目录• 概述--NLP的概念、历史与现状 • NLP的研究内容 • NLP研究的困难 • NLP方法论之争 • 统计方法示例 • 本课的主要内容 • 抛砖引玉1. 什么是自然语言 Ø以语音为物质外壳,由词汇和语法两部分组 成的符号系统《新华词典》 Ø语言是人类交际的工具,是人类思维的载体 Ø是约定俗成的,有别于人工语言(程序设计 语言)一、NLP的概念什么是自然语言处理 – NLP, Natural Language Processing – 用机器处理人类语言的理论和技术 – 研究在人与人交际中以及人与计算机交际中的语言问题的一门学 科NLP要研制表示语言能力和语言应用的模型,建立计算框架来 实现这样的语言模型,提出相应的方法来不断完善这样的模型, 并根据语言模型设计各种实用系统,以及对这些系统的评测技术 --Bill Manaris, 《从人机交互的角度看自然语言处理 》 其它名称 – 自然语言理解(Natural Language Understanding) – 计算语言学(CL, Computational Linguistics) – 人类语言技术(Human Language Technology)从智能接口到知识处理• 智能接口 – 功能: • 把现实世界中的语言信息送入电子世界 – 主要成果 • 拼音输入、手写输入、语音识别 • 知识处理 – 功能: • 对于已进入电子世界中的语言信息进行加工处理获得知 识 – 主要研究内容 • 媒体的加工和管理、语言信息处理机器能够理解人的语言吗 ?l很难,但是没有证据表明不行l什么是“理解” – 结构主义:机器的理解机制与人相同 • 问题在于谁也说不清自己理解语言的步骤 – 功能主义:机器的表现与人相同• 图灵测试:如果通过自然语言的问答,一个 人 无法识别和他对话的是人还是机器,那么就 应 该承认机器具有智能有用否?能用否?• NLP有用吗? – 据统计,日常工作中80%的信息来源于语言 – 文本是人类知识最大的存储源,并且文本的数量 在不停地增长 • 电子邮件、新闻、网页、科技论文 • NLP能用吗? – 并非每一样语言处理的应用都需要深层理解 – 中间产品陆续产生 – 成功应用的实例 • word中英文自动校对 • 搜索引擎 • Google翻译2. NLP的性质• NLP需要的知识非常复杂 –语言学、计算机科学、数学、逻辑学、认知科 学等 • 理解语言的过程是动态的,不是静态的 • NLP需要的知识大多是归纳的,不是演绎 的 • 存在Upper Bound(上限) • 对歧义的限制和系统的覆盖率矛盾 • 领域词典不充分3. NLP的历史• 20世纪50年代起步 – 机器翻译 • 50-60年代采用模式匹配的方法 – 60年代衰落 • 70-80年代采用面向受限域的深入理解的方法 • 90年代至今统计方法占主流 – 随着互联网的发展而复苏 – 互联网为NLP提供了市场需求和试验数据4. NLP现状• 仍然缺乏理论基础 • 词汇句法方面的问题尚未解决,已开始挑战语 义、知识等深层课题 • 语音识别中采用的统计语言模型推动了NLP的发展,目前的统计模型在向语言深层发展 • Ontology受到普遍重视 • 开放域处理时起时落 • 一切才刚刚开始……二、NLP的研究内容• 自然语言处理的科学内容 • 语言学的任务 – 刻画和解释语言现象 • 人类是如何获取和理解语言的 • 理解语言和世界的关系 • 理解语言在通讯时的结构和内在含义 • 人们在说些什么 – 覆盖语言结构的各个方面 • 人们说的事情和世界怎样联系在一起2. NLP的不同层次3. 基础研究 (1)词法分析词法分析的主要目的是找出词汇的 各个词素,从中获得语言学信息。
词法分 析是很多中文信息处理任务的必要步骤 • 自动分词(中文分词) • 词性标注• 短语识别 • 分词:中文词与词之间没有明显的分隔符,使得 计算机对于词的准确识别变得非常困难因此, 分词就成了中文处理中所要解决的最基本的问题 ,分词的性能对后续的语言处理如机器翻译、信 息检索等有着至关重要的影响随着对中文处理 关注程度的增加,国际计算语言联合会 (ACL) 下 设的汉语特别兴趣 (SIGHAN) 研究组每年举办国 际汉语分词评测大赛2)句法分析句法分析是对句子结构进行分析 ,如句子的形式结构:主语、谓语、 宾语等句法分析是语言学理论和实 际的自然语言应用的一个重要桥梁 一个实用的、完备的、准确的句法分 析将是计算机真正理解自然语言的基 础句法分析的一个例子小王和小李的妹妹结婚了规则: S -> NP VP NP -> NP C NP NP -> N NP -> NP de N VP -> V le词典: 小王:N 小李:N 和:C 妹妹:N 结婚:V 了:le 的:de两种分析结果:(3)语义分析 • 语义分析的研究,如词义排歧和语义归纳、推 理等,尚处于萌芽期并将逐步走向前台,成为 下一阶段计算语言学研究的一个亮点。
• 计算机本身没有智能,自然语言的语义分析和 内容信息的理解,离不开相应的语义知识库的 支持,它是帮助计算机“了解”人类语言的一 个媒介和桥梁,也是让计算机逐渐“聪明”起 来的一个物质前提 • 语义分析主要研究基于语义知识库的语义相似 度的计算方法、语义知识库的自动构建等内容 • 语义:语言和世界的映射关系,符号之间的 变换关系• “语义”就是一个单词或者一个语言成分的 含义的解释而其解释通常不止一种 • 在自然语言中,一个词语的新语义往往是 通过流行的新的用法而产生的一个词语或单词在句子中有多种解释,取 哪一个呢?• 语用:符号或者语言成分和它们的使用者之间的关 系 • 通俗解释:说话双方按照该单词或者语言成分所在 的“语境”,来确定应该选择其中哪一种释义或含 义 • “语境”的范围可以变化很大:从一个句子,一段 话,到整篇文章,乃至文章作者的身份和处境,所 在的时代的文化背景 (4)语用分析• 例1:有两组不同背景的人在一起开会其中 一组人正在讨论社会上流感问题,有人在说 话中提到了“病毒”,他们是在医学的语境 下指称“生物性病毒”另一组人正在讨论计算机安全问题,有 人在说话中提到了“病毒”,他们是在计算 机安全这一话题的语境下指称“计算机病毒 ”。
• 评论:这是同一词语在不同的“语境”中具 有不同“语义”的典型例子• 例2:设想例1中正在讨论“计算机病毒”和“生物病毒 ”的这两组人正在一起开会,目的是为领导机关拟定某 某年度科研项目申报提纲中的最后一个项目的名称由 于主管机关所掌握的经费的限制,允许申报的只剩下最 后一项,而且必须在中午12点以前将申请书上报,过期 作废可以想象,这两组人将互相争执不下,达不成共识 但是为了避免因为上报时机延误而使双方都落空,最后 决定先写出一个“表述一致,但是各持自己理解”的申 请书:《关于建立“病毒”检测与预防机制的研究》 至于是那种病毒,留待今后进一步申述 • 评论:这是一个假想的例子,但是他显示了许多外交文 件的实质自然语言的含糊性在此显示出它伟大的功能 句法、语义和语用是语言的三个主要层面 ,三者之间可能存在如下关系:• 句法结构相同,语义不同 – “吃苹果”,“吃食堂” • 句法:动宾结构 • 语义分别为:动作-对象关系,动作-地点关系 • 语义相同,句法结构不同 – “吃了苹果”,”苹果吃了” • 语义:动作-对象 • 句法分别为:动宾关系和主谓关系 • 语义相同,语用有别 • 你真讨厌(男生对女生说) • 你真讨厌(女生对男生说)统计语言模型是自然语言处理的主流技术之一。
研究的主要内容包括各种语言模型的构建、改 进以及应用 • N-gram模型 • 隐马尔科夫(HMM)模型 • 最大熵模型 • 依存语言模型 • 朴素贝叶斯模型 • 条件随机场(5)统计语言模型4. NLP系统的主要任务• 知识表示 – 产生式 – 谓词逻辑 – 语义网络 – 概念从属理论(CD理论) • 知识控制策略 – 知识的冲突• 知识集成 – 从多个知识源获取的不同层面, 不同性质的知识如何融合在一起 • 知识获取 – 机器学习5. 一个NLP的例子:英汉机器翻 译• 输入英文句子:---- Miss Smith putted two books on this dining table. • 形态分析(Morphological Analysis) Miss Smith put (+ed) two book+s on this dining table.• 句法分析(Syntactic Analysis)• 词汇转换 Miss ⇒ 小姐 Smith ⇒ 史密斯 put (+ed) ⇒ 放 Two⇒ 两 book+s ⇒ 书 on ⇒ 在…上面 this ⇒ 这 dining table.⇒ 餐桌• 短语转换 小姐史密斯放两书在上面这餐桌 史密斯小姐放两书在这餐桌上面• 生成– 模拟人类写作的过程,生成符合逻辑的连贯的文本 – 史密斯小姐放两书在这餐桌上面 – 史密斯小姐(把)两(本)书放在这 (张)餐桌上面 • 最终翻译结果 – 英文:Miss Smith put two books on this dining table. – 中文:史密斯小姐把两本书放在这张餐桌上面6. 语言处理的步骤• 文本预处理 • 句子切分 • 形态分析(Morphological Analysis) • 分词 • 词性标注(Part-of-Speech Tagging) • 句法分析 • 词义消歧(Word Sense Disambiguation) • 语义关系分析 • 指代消解(Anaphora Resolution) • 逻辑形式(Logic Form)三、NLP研究的困难歧义 (ambiguity) 病构 (ill-formedness) 复述 (paraphrasing)1.歧义(1)注音歧义 – 快乐(le4)的单身汉 – 火红的第五乐(yue4)章 (2)分词歧义 – 交集型歧义 • 研究/ 生命/ 的/ 起源 • 研究生/ 命/ 的/ 起源– 组合型歧义 • 他/ 从/ 马/ 上/ 下来 • 他/ 从/ 马上/ 下来– 和未登录词绞在一起 • 刘挺/ 拔/ 出/ 宝剑 • 刘/ 挺拔/ 出/ 宝剑 – 多交集字段的歧义 • [ 结合] [ 成分] [ 子时] – 有的歧义无法在句子内部解决 • 乒乓球拍卖完了 (3)短语歧义 – [咬死猎人]的狗 – 咬死[猎人的狗](4)句法歧义Our company is training workers.(5)语义歧义--词义歧义 – 打[玩]乒乓球 – 打[编织]毛衣 – 打[通讯] – …… (6)语用歧义 – “你真讨厌!”2. 病构• 真实文本的语言现象非常复杂,不规范,不干 净 – 未登录词(Unknown Words) – 已知词的新用法 • 例子:Please xerox a copy to me. – 不合乎语法的句子 • 例子:他非常男人。
名词不能受程度副词修饰 ) – 不合乎语义约束的搭配 • 例子:My car drinks gasoline like water. – 由于作者疏忽造成的错误 – 真实的语言是非常脏的3. 复述• 举例 – 毛泽东出生于1893年 – 毛泽东出生在1893年 – 毛泽东诞生于1893年 – 毛泽东同志是1893年出生的 – 毛主席生于1893年 – 毛泽东生于光绪6年(虚拟的)四、NLP方法论之争— 理性主义和经验 主义• 理性主义者(Rationalist) – 1960-1。
