电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本
换一换
首页 金锄头文库 > 资源分类 > DOC文档下载
分享到微信 分享到微博 分享到QQ空间

语法知识在语言信息处理研究报告中的作用

  • 资源ID:470275479       资源大小:40KB        全文页数:8页
  • 资源格式: DOC        下载积分:15金贝
快捷下载 游客一键下载
账号登录下载
微信登录下载
三方登录下载: 微信开放平台登录   支付宝登录   QQ登录  
二维码
微信扫一扫登录
下载资源需要15金贝
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
如填写123,账号就是123,密码也是123。
支付方式: 支付宝    微信支付   
验证码:   换一换

 
账号:
密码:
验证码:   换一换
  忘记密码?
    
1、金锄头文库是“C2C”交易模式,即卖家上传的文档直接由买家下载,本站只是中间服务平台,本站所有文档下载所得的收益全部归上传人(卖家)所有,作为网络服务商,若您的权利被侵害请及时联系右侧客服;
2、如你看到网页展示的文档有jinchutou.com水印,是因预览和防盗链等技术需要对部份页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有jinchutou.com水印标识,下载后原文更清晰;
3、所有的PPT和DOC文档都被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;下载前须认真查看,确认无误后再购买;
4、文档大部份都是可以预览的,金锄头文库作为内容存储提供商,无法对各卖家所售文档的真实性、完整性、准确性以及专业性等问题提供审核和保证,请慎重购买;
5、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据;
6、如果您还有什么不清楚的或需要我们协助,可以点击右侧栏的客服。
下载须知 | 常见问题汇总

语法知识在语言信息处理研究报告中的作用

-语法知识在语言信息处理研究中的作用俞士汶【提要】自然语言理解是计算机科学中一个有重要学术意义和应用价值的研究课题。实现自然语言理解既需要句法、语义、语用等多层面的语言学研究,也需要同思维科学、认知科学等多门学科密切配合。本文只是阐述语法知识与语法研究在语言信息处理中的重要作用,既有理论探讨,也有应用实践。笔者以为计算机处理需要的汉语语法研究以及句法分析算法研究,在目前来说,还应该是汉语信息处理研究的一个重点。1. 语言信息处理的研究对象 随着社会生活的日益信息化,人们越来越强烈地希望用自然语言同计算机交流信息。如果计算机能够“理解自然语言,用户就能够通过自然语言使用数据库、专家系统、管理信息系统等各种软件,那将一扫计算机屏幕前沉闷枯燥的气氛,使计算机的环境变得更加引人入胜。因此,“自然语言理解一直是人工智能中的一个富有挑战性的课题。从计算机科学的角度看,自然语言理解的任务是建立一种计算模型,这种计算模型能够像人那样“理解自然语言。这就有必要给出关于“理解的定义。然而,由于自然语言固有的复杂性,人们对自己理解语言的机制也还是不甚了了。说话人可以用不同的话表达同样的意愿,也可以用同一句话表达不同的意思。反过来,对于同一句话,不同的听话人也会有不同的反响。人与人用自然语言(包括口头的与书面的)进展交流之所以没有困难,是因为交流总是在一定的环境中进展的,交流双方的知识背景一定有共同的局部,而且交流的目的大体上也有了预设。现在的计算机智能还远远没有到达能够像人一样了解环境与理解语言的水平,即使在可预见的将来也达不到这样的水平。因此,给“自然语言理解下一个本质性的定义是极其困难的。不过,由于语言是信息的载体,关于计算机对自然语言的理解一般可以根据实用的信息处理的观点来进展评判。如果计算机系统实现了1人时机话,或2机器翻译,或3自动文摘,或4抑扬顿挫带有感情地朗读文章等语言信息处理功能,则认为计算机具备了一定程度的理解自然语言的能力。由于这些系统,除了分析输入给计算机的文章或话语之外,还需要具备生成自然语言的语句或文章的功能,因此,在计算机科学中,除了“自然语言理解,也常常使用“自然语言处理或“语言信息处理这些意义相近的术语。本文则使用“语言信息处理。观察计算机系统所处理的语言信息,大致上可分为两类。一类是模式信息,如声音和图象,它们是语音识别和文字识别的前期处理对象。另一类是符号信息,如书面语的文本或者作为汉语语音识别结果的音节符号,它们是代码化了的,或者更确切地说,计算机只将每个字符的编码看作处理对象。利用键盘进展人时机话,对存储于计算机系统内的文本进展检索、校对、翻译、做摘要,乃至让计算机“理解人类的语言,所有这些工作,计算机所处理的对象都是符号信息。通常文献中所说的“语言信息处理是指其处理对象为符号信息,本文也是在这个意义上使用“语言信息处理这个术语。 自然语言信息处理经历了困难曲折的开展过程。无论同计算机科学技术本身的开展速度相比较,还是同计算机适合各行各业的应用技术的开展速度相比较,语言信息处理的开展是相当缓慢的,道路是曲折的。尽管如此,由于社会需求的推动,特别是近年来,Internet迅速扩*,大量的信息犹如潮水般涌来,这些信息的主要载体仍然是自然语言,人们渴望开展自然语言信息处理技术以实现文本自动分类、文献检索、信息提取、自动翻译、自动文摘、自动勘校,以加速信息、知识与文化的交流,促进社会、经济、科学的进步,显然这是每一个国家都面临的挑战。语言信息处理技术的开展又有了新的强大的推动力量。人们已经了解到,语言信息处理技术有着广阔的应用领域。已有一些语言信息处理系统形成产品,进入了市场。同时,人们在开发语言信息处理系统时所创造的各种分析技术,所积累的诸如电子词典、语料库等语言数据资源也会被集成到各种信息处理系统中,从而提高信息处理系统的智能水平。语言信息处理产业崛起的前景已经呈现在人们眼前。语言信息处理研究所取得的理论成果还会对哲学与人文科学的开展产生重要的影响,其社会意义可能更在技术、经济意义之上。自然语言理解的研究也在为探索人类智能的本质奉献力量。 我国的学者研究语言信息处理自然以汉语作为主要研究对象。人类的各种自然语言有着深层的相似性,汉语信息处理同其他语言有很多的共性,当然汉语信息处理也有自己的特性。同科学技术的其他领域一样,在语言信息处理领域,中国学者也面临竞争和挑战,不过这个领域却为中国学者留下了更为广阔的空间,提供了更多的时机。汉语的“根在中国。国内学者同汉语最亲近,最易把握汉语信息处理的特殊性。关键的问题是如何处理好既要努力同国际研究接轨又要充分把握汉语信息处理特殊性的关系。在艺术界人们成认最有民族性的艺术也最有国际性。在语言信息处理领域也应作如是观。中国学者只要充分认识到自己的优势,善于扬长补短,一定可以在语言信息处理领域为中国的开展和世界的进步作出自己独特的奉献。2. 语言信息处理系统的根本模型 机器翻译系统是典型的、其应用价值也是最明显的自然语言处理系统。当代机器翻译系统的模型可用图1表示: 原文输入 静态知识库 译文输出句法分析词典句子生成语法规则语义分析常识译词选择动态知识库语境分析上下文信息构造生成内部表示 / 转换图1 机器翻译系统根本模型图1反映的是基于规则方法的机器翻译系统的根本模型。90年代,机器翻译研究还开展了基于统计与基于实例等的各种模型。不过,当前世界上实际运行的机器翻译系统根本上仍以基于规则的模型为根底。从这个根本模型可以了解到,机器翻译系统的根本原理乃是要素合成原理。首先将原文的句子分解成根本构成要素(词,惯用语等),这样才可以查词典,才好运用语法规则找出句子的构造,这就是句法分析(包括词法分析),并通过语义分析及语境分析排除不适当的歧义,从而形成原文的机器内部表示。于是可在构造的层次上进展转换,得到译文句子的构造,并选择适当的译词,以后再进展词序调整、虚词增删及形态变化,最终得到译文的表层句子。3. 语法知识的重要作用 上节介绍的机器翻译系统除了一般的计算机系统都有的硬件和软件(分析与生成程序)外,还有一个特别的组成局部,即语言知识库,包括静态的词典、语法规则库等,也包括动态的上下文相关信息。而且,在机器翻译系统中,语言技术(既包括存储于计算机系统内的语言知识库,也包括语言知识的获取、表示与运用)是居于核心地位的技术。同硬件、软件相比较,目前语言技术开展尚不够成熟,成为机器翻译开发过程中必须攻克的难关。 不难理解,词典与语法规则库中需要注入大量的语言知识,上下文相关信息的提取当然也要依靠语言知识的运用。更重要的,是要在适当的语法理论指导下,找出一种合理的形式系统。这种形式系统不仅可以用来表达不同层次的语言知识,而且需要保证自然语言句子的表层线性序列与其内部表示之间以及不同语言的内部表示之间具有可计算性,也就是彼此之间能通过一系列规则、操作或过程进展转换。可以说,语言技术特别是语言知识库的质量已成为自然语言处理系统成败的关键。 除了少数实验模型,大多数自然语言处理系统都包含句法分析这个步骤。狭义的语法分析就是指句法分析包含词法分析,广义的语法分析则包括句法分析、语义分析和语境分析。 在自然语言理解的领域中,越来越多的论著强调语义分析的重要性,这是容易理解的。在汉语中,很容易举出例子: 例1 教师写毛笔。 例2 学生吃食堂。对于这些例子,仅仅在句法的层次上分析出“写和“吃是动词,“毛笔和“食堂是名词,且动词与名词之间是述宾关系,并不能妥善地解决机器理解与翻译的问题,必须进展语义分析,系统要在词典与常识库中为分析程序提供语义信息,如:“写和“吃是人或动物的行为。参与“写这个行为的角色有“施事 、“内容和“工具等,通常只有表示人类的名词才可以充当其“施事,书写的“工具应属于文具类。参与“吃这个行为的角色有“施事 、“受事 、“处所“等,动物类的名词可以充当其“施事,只有食品类的名词才可以充当其“受事。还要给“教师 、“学生分别附以“人类的语义标记“人类是“动物的下位概念,给“毛笔附以“文具类、给“食堂附以“处所的语义标记1。 同样,也有充分的理由认为语境分析是不可缺少的,例如要将“老王修车去了这句汉语译成英语或日语,至少要从上下文中弄清楚老王是不是修车师傅。系统要有一个动态的知识库存放分析语境所得到的信息。分析程序要参照动态知识库,说明只有突破一个句子的界限,在篇章的*围内才可能正确地理解每一个句子。 人们大致上采用两种方式使用自然语言进展交流2。一种是“意合法,发话者的几个关键的词语,就可以让听话者捕捉到有关的信息,这当然要依赖于当时的上下文环境。另一种是“构造法,即人们平常说的、写的句子,虽然外表上这些句子看来只是音节或词的线性序列,但实际上是有一定的构造的。在这两种方式中“构造法是根本的。目前,计算机能处理的也就是这样的有合法构造的句子,其中心任务就是通过句法分析、语义分析和语境分析得到句子构造的形式化的机内表示。句法分析、语义分析与语境分析,这三者之间的关系应当是以句法分析为主,词法和句法知识总是最根本的,也是研究得比较成熟的。适度的语义分析和语境分析是必要的,可以消除句法分析后残留的歧义构造。句法分析固然解决不了关于理解的全部问题,但也不宜对语义分析与语境分析期望过高。因为反映客观世界的语义系统或者说知识系统,概念系统即使能建立起来,也会十分庞杂,语境分析更是没有边界,这方面的研究虽有进展,但很不成熟。因而,当前开发自然语言处理系统的正确策略应该是将三者有机地结合起来。这也许是最有效且最经济的原则。这个原则对汉语是否适宜,人们仍有疑心。由于汉语是我们的母语,在日常交流中运用“意合法得心应手,对汉语语法的形式系统缺乏清晰的认识,因此,当借重句法分析开发汉语信息处理系统而得不到理想的效果时,容易对汉语句法分析的作用产生疑心。不过笔者认为当前句法分析在汉语信息处理系统中仍然具有举足轻重的作用,仍有很多潜力可以发挥。不过这需要仔细分析汉语句法分析的特殊困难及其产生的原因,并采取恰当的对策。4. 汉语句法分析的特殊困难与对策 这个问题显然涉及汉语的特点,主要是汉语语法的特点。要确切地了解计算机分析汉语的特殊困难,就要拿汉语同其他语言比较。因此,关于其他语言的知识是必要的。限于作者的知识领域,本文在论述汉语语法特点时主要是同英语、俄语与日语进展比较。作者所从事的或所了解的语言信息处理研究的实践说明,汉语分析碰到了很大的困难。从外语特别是英语到汉语的机器翻译系统比从汉语到外语的要成功得多。作者以为,这种情况主要同汉语语法的特点有密切的关系。造成汉语自动分析困难的原因可以从以下几个方面进展探讨。 1. 同一词类可担任多种句法成分且无形态变化3。 2. 汉语句子的构造原则与短语的构造原则根本一致3。汉语短语构造的一个重要特点是各类短语的组成成分又可以是各种类型的短语。汉语表现自然语言的这种普遍递归性的特殊之处在于短语担任不同的句法成分时形态不发生任何变化。 以上两个特点对计算机分析汉语有重要影响。计算机程序可以从词语的形态变化中找到语法分析的根据与线索。例如英语句子中的主要谓语动词容易根据形态确定,主句与从句也比较容易区分,这些对句法分析都是至关重要的。外国人学汉语不会没有困难,但困难不在于对汉语语法根本规律的掌握。无论是中国人还是外国人都有共同的关于客观世界的知识,都有共同的用“意合法表达知识、交流信息的能力,因而,人对汉语词类的多功能与多级语言单位的构造的一致性是容易理解、容易掌握的。相反的,计算

注意事项

本文(语法知识在语言信息处理研究报告中的作用)为本站会员(鲁**)主动上传,金锄头文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即阅读金锄头文库的“版权提示”【网址:https://www.jinchutou.com/h-59.html】,按提示上传提交保证函及证明材料,经审查核实后我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.