您所在位置：网站首页 > 建筑/环境 > 建筑资料自然语言理解

自然语言理解

7页

卖家[上传人]：pu****.1

文档编号：507966955

上传时间：2023-12-27

文档格式：DOC

文档大小：34KB

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

15 金贝

/ 7 举报版权申诉马上下载

文本预览

下载提示

常见问题

1、1 引言自然语言理解这个概括的术语，适用于多样的电脑应用，从小型、相对简单之事，例如发给机器人的简短命令，到高度复杂的任务，例如完全读懂报纸新闻或理解一段诗。许多真实世界的运用介于两个极端之间，例如文本分类用于自动分析电邮，并且将其转发至公司适合的部门，并不需要深切理解文本1，但是比起结构固定的数据库之查询，要处理的词汇以及句法更广更多样。自然语言理解系统设定的目标深度与广度，决定其复杂度(连带隐含的挑战)与处理的应用类型。系统的广度以其词汇及文法的多寡来衡量；系统的深度以其相对于母语人士的理解程度来衡量。“近似英语”指令的翻译程式属于最窄浅的一种，但处理的应用也少。狭窄但深入的系统探究并模拟理解的机制2，但应用范围仍然有限。超越简单关键字对比的文件内容理解系统，例如判断新闻稿是否适合某读者，属于比较宽广的系统，也算复杂 3，但是仍然有些浅薄。既广且深的系统，现今的尖端技术仍无法达成。2 概念及主要内容自然语言处理(N LP , Natural Language Processing)是使用自然语言同计算机进行通讯的技术, 因为处理自然语言的关键是要让计算机 “理解”

2、自然语言,所以自然语言处理又叫做自然语言理解(NLU Natural Language Understanding),也称为计算语言学(Computational Ling uistics)。一方面它是语言信息处理的一分支，另一方面它是人工智能(Al , Artificial Intelligence)的核心课题之一。Natural Language Understanding 俗称人机对话。人工智能的分支学科。研究用电子计算机模拟人的语言交际过程，使计算机能理解和运用人类社会的自然语言如汉语、英语等，实现人机之间的自然语言通信，以代替人的部分脑力劳动，包括查询资料、解答问题、摘录文献、汇编资料以及一切有关自然语言信息的加工处理。这在当前新技术革命的浪潮中占有十分重要的地位。研制第 5 代计算机的主要目标之一，就是要使计算机具有理解和运用自然语言的功能。自然语言理解是一门新兴的边缘学科，内容涉及语言学、心理学、逻辑学、声学、数学和计算机科学，而以语言学为基础。自然语言理解的研究，综合应用了现代语音学、音系学语法学、语义学、语用学的知识，同时也向现代语言学提出了一系列的问

3、题和要求。本学科需要解决的中心问题是：语言究竟是怎样组织起来传输信息的？人又是怎样从一连串的语言符号中获取信息的？这一领域的研究将涉及自然语言，即人们日常使用的语言，包括中文、英文、俄文、日文、德文、法文等等，所以它与语言学的研究有着密切的联系，但又有重要的区别。自然语言处理并不是一般地研究自然语言，而在于研制能有效地实现自然语言通信的计算机系统，特别是其中的软件系统。因而它是计算机科学的一部分。语言是人类区别其他动物的本质特性。在所有生物中，只有人类才具有语言能力。人类的多种智能都与语言有着密切的关系。人类的逻辑思维以语言为形式，人类的绝大部分知识也是以语言文字的形式记载和流传下来的。因而，它也是人工智能的一个重要，甚至核心部分。用自然语言与计算机进行通信，这是人们长期以来所追求的。因为它既有明显的实际意义，同时也有重要的理论意义：人们可以用自己最习惯的语言来使用计算机，而无需再花大量的时间和精力去学习不很自然和习惯的各种计算机语言；人们也可通过它进一步了解人类的语言能力和智能的机制。实现人机间自然语言通信意味着要使计算机既能理解自然语言文本的意义，也能以自然语

4、言文本来表达给定的意图、思想等。前者称为自然语言理解，后者称为自然语言生成。因此，自然语言处理大体包括了自然语言理解和自然语言生成两个部分。历史上对自然语言理解研究得较多，而对自然语言生成研究得较少。但这种状况近年来已有所改变。无论实现自然语言理解，还是自然语言生成，都远不如人们原来想象的那么简单，而是十分困难的。从现阶段的理论和技术现状看，通用的、高质量的自然语言处理系统，仍然是较长期的努力目标，但是针对一定应用，具有相当自然语言处理能力的实用系统已经出现，有些已商品化，甚至开始产业化。典型的例子有：种数据库和专家系统的自然语言接口、各种机器翻译系统、全文信息检索系统、自动文摘系统等。自然语言处理，即实现人机间自然语言通信，或实现自然语言理解和自然语言生成是十分困难的。造成困难的根本原因是自然语言文本和对话的各个层次上广泛存在的各种各样的歧义性或多义性（ambigui t?。一个中文文本从形式上看是由汉字（包括标点符号等）组成的一个字符串。由字可组成词，由词可组成词组，由词组可组成句子，进而由一些句子组成段、节、章、篇。无论在上述的各种层次：字（符）、词、词组、句

5、子、段，还是在下一层次向上一层次转变中都存在着歧义和多义现象，即形式上一样的一段字符串，在不同的场景或不同的语境下，可以理解成不同的词串、词组串等，并有不同的意义。一般情况下，它们中的大多数都是可以根据相应的语境和场景的规定而得到解决的。也就是说，从总体上说，并不存在歧义。这也就是我们平时并不感到自然语言歧义，和能用自然语言进行正确交流的原因。但是一方面，我们也看到，为了消解歧义，是需要极其大量的知识和进行推理的。如何将这些知识较完整地加以收集和整理出来；又如何找到合适的形式，将它们存入计算机系统中去；以及如何有效地利用它们来消除歧义，都是工作量极大且十分困难的工作。这不是少数人短时期内可以完成的，还有待长期的、系统的工作。以上说的是，一个中文文本或一个汉字（含标点符号等。串可能有多个含义。它是自然语言理解中的主要困难和障碍。反过来，一个相同或相近的意义同样可以用多个中文文本或多个汉字串来表示。因此，自然语言的形式（字符串）与其意义之间是一种多对多的关系。其实这也正是自然语言的魅力所在。但从计算机处理的角度看，我们必须消除歧义，而且有人认为它正是自然语言理解中的中

6、心问题，即要把带有潜在歧义的自然语言输入转换成某种无歧义的计算机内部表示。歧义现象的广泛存在使得消除它们需要大量的知识和推理，这就给基于语言学的方法、基于知识的方法带来了巨大的困难，因而以这些方法为主流的自然语言处理研究几十年来一方面在理论和方法方面取得了很多成就，但在能处理大规模真实文本的系统研制方面，成绩并不显著。研制的一些系统大多数是小规模的、研究性的演示系统。3 主要发展历程3.1 初始研究自然语言理解从20世纪60年代初开始研究，由于N.乔姆斯基在语言学理论上的突破和此后各家理论的发展，以及计算机功能的不断提高，当下已经取得了一定的成果，分为语音理解和书面理解两个方面。语音理解用口语语音输入，使计算机听懂语音信号，用文字或语音合成输出应答。方法是先在计算机里贮存某些单词的声学模式，用它来匹配输入的语音信号，称为语音识别。这只是一个初步的基础，还不能达到语音理解的目的。因为单凭声学模式无法辨认人和人之间、同一个人先后发音之间的语音差别，也无法辨认连续语流中的语音变化;必须综合应用语言学知识,以切分音节和单词，分析句法和语义，才能理解内容，获取信息。3.

7、2发展60 年代至70 年代初期，研究工作一直停留在单词的语音识别上，进展不大。直到70 年代中期才有所突破，建立了一些实验系统,能够理解连续语音的内容,但是还限于少数简单的语句（见自然语言语音理解系统）。书面理解用文字输入，使计算机看懂文字符号，也用文字输出应答。这方面的进展较快， 70 年代初期取得突破，中期以后又有所发展。如今已能在一定的词汇、句型和主题范围内查询资料，解答问题，阅读故事，解释语句等，有的系统已付诸应用。由于绝大多数语种使用的是拼音文字，计算机识别拼音字母已无问题，而输入又是按单词分别拼写，因此书面理解一般没有切分音节和单词的问题，只需直接分析词汇、句法和语义。但是汉语用的是汉字，无论是用汉字编码输入还是将来计算机能直接认识汉字，都要首先解决切分单词的问题，因为输入就是一连串汉字，词和词之间没有空隔。书面理解的基本方法是：在计算机里贮存一定的词汇、句法规则、语义规则、推理规则和主题知识。语句输入后，计算机自左至右逐词扫描，根据词典辨认每个单词的词义和用法；根据句法规则确定短语和句子的组合 ;根据语义规则和推理规则获取输入句的含义 ;查询知

8、识库，根据主题知识和语句生成规则组织应答输出。现阶段已建成的书面理解系统应用了各种不同的语法理论和分析方法，如生成语法、系统语法、格语法、语义语法等等，都取得了一定的成效。在 John McCarthy 创造人工智能一词八年后，叫做 STUDENT 的程序于 1964 年由 Daniel Bobrow 撰写，他借由此在麻省理工学院获得博士学位论文，这是计算机对自然语言理解最早的尝试之一。Bobrow的论文示了计算机如何理解简单的自然语言输入以解决代数词问题。年后，在1965年，麻省理工学院的Joseph Weizenbaum撰写了 ELIZA，这是个互动项目，通过检查用户的输入中的关键词进行回复。如果 ELIZA 找到关键字，则会应用转换用户注释的规则，并返回结果语句。如果没有找到关键词，ELIZA会以通用的反复回复或者重复之前的评论来回应。通过这些技术， Joseph Weizenbaum 的计划能够愚弄一些人使其相信他们正在和一个真实的人交谈。1969年，斯坦福大学的 Roger Schank 介绍了自然语言理解的概念依赖理论。这个模型部分受到Sydney La

9、mb工作的影响，并被Schank在耶鲁大学的学生广泛使用，如Robert Wilensky, Wendy Lehnert 和 Janet Kolodner。1970 年, William A. Woods引入了增强转换网络（ATN）而不是短语结构规则来表示自然语言输入，ATN使用了一组等效的状态自动机，它们被递归地调用。ATN及其更通用的称为“广义ATN”的变体被使用了许多年。1971年，Terry Winograd在麻省理工学院完成了 SHRDLU的博士论文写作。这是一个词汇设限、运作于受限如“积木世界”的一种自然语言系统。SHRDLU的成功示范为该领域的持续研究提供了重要动力。在20世纪70年代和80年代，SRI International的自然语言处理小组继续在该领域进行研究和开发。基于该研究进行了许多商业努力，例如，在 1982年，Gary Hendrix最初成立Symantec Corporation公司，作为开发用于个人计算机上的数据库查询的自然语言界面的公司。然而，随着鼠标驱动，图形用户界面的出现， Symantec Corporation 改变了方向。许多其他商业努力大约在同一时间开始，例如， 1983 年，Michael Dyer在耶鲁大学开发了 BORIS系统，该系统与Roger Schank和W. G. Lehnart 的工作相似。4 主要研究方向大约 90 年代开始，自然语言处理领域发生了巨大的变化。这种变化的两个明显的特征是：系统输入要求研制的自然语言处理系统能处理大规模的真实文本，而不是如以前的研究性系统那样，只能处理很少的词条和典型句子。只有这样，研制的系统才有真正的实用价值。系统输出鉴于真实地理解自然语言是十分困难的，对系统并不要求能对自然语言文本进行深层的理解，但要能从中抽取有用的信息。例如，对自然语言文本进行自动地提取索引词，过滤，检索，自动提取重要信息，进行自动摘要等等。同时，由于强调了“大规模”，强调了“真实文本”，下面两方面的基础性工作也得到了重视和加强。（1）大规模真实语料库的研制。大规模的经过不同深度加工的真实文本的语料

《自然语言理解》由会员pu****.1分享，可在线阅读，更多相关《自然语言理解》请在金锄头文库上搜索。

点击阅读更多内容

TA的资源