好文档就是一把金锄头!
欢迎来到金锄头文库![会员中心]
电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

自然语言的应用研究范文.docx

8页
  • 卖家[上传人]:志高****9
  • 文档编号:200504655
  • 上传时间:2021-10-05
  • 文档格式:DOCX
  • 文档大小:19.73KB
  • / 8 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 自然语言的应用研究范文 ) 摘要作为情报语言学研究对象之一的自然语言,在情报检索中的应用正日趋广泛本文将其与规范语言进行了比较,重点讨论了其应用中的三个问题,自然语言标引、标引检索用词表及检索语言整体化趋势,并就其未来发展作了阐述 主题词自然语言规范语言情报检索 *** 自然语言与规范语言 自然语言是相对于规范语言而言的,其本质特征是不受控制从情报检索的发展历程来看,作为语言保障的规范语言是对自然语言实施控制而出现的;而情报检索的进一步发展必使得曾被否定的自然语言重新得以肯定 规范语言的产生 规范语言是适应情报检索需要而创制的一种人工语言,它在手工检索条件下产生,并得到了充分发展及应用 如历史最久远的分类语言,采用比较抽象的类号来表达概念,组织检索系统它具有良好的系统性,适于学科或专业出发的族性检索同时,随着学科发展及用户需求的变化,分类语言也由等级体系型日益向分面组配方向发展 而规范语言的另一重要分支—主题语言,则以自然语言为基础,经过人为的形式控制,用来直接表达主题概念年代由于计算机检索的迅速发展,主题语言也在经历了元词语言的短暂应用后进入叙词语言的大普及阶段作为吸取以往所有规范语言优点的叙词语言,适应了标引、检索的多种要求,是在机检条件下效率较好的一种规范语言。

      年代,在国外被称为“叙词表”时代,其应用达到了顶峰 无论是哪种规范语言,为了达到简明专指地进行标引及全准便捷地实现 性的仍是自动标引以及部分人工的机助标引目前国内已实现的自然语言标引方式有以下几种 ①无标引,即全文单汉字标引 这是与全文检索技术相对应的一种典型的自然语言标引方式它比较完全地实现了自动化,且标引深度大,检索方便灵活,可以检到一些细节性、边缘性的信息但由于以字为对象进行处理,易产生虚假组配,检索噪声大而筛选负担重,同时检全率较低,扩、缩、改检比较困难 ②基于题名或文摘的抽词标引 这种方式应用较早,至今仍在汉语文献自动标引中占有较大比重它一般需构造一个抽词词典,然后根据各种算法用文献中的自然语言匹配词典,匹配或成功即成为标引词由于采用先组式标引,不像单汉字标引需对字的字间关系进行组配,因此检索速度快但它所能处理的自然语言受到抽词词典的构造、维护状况限制,且纯机械的抽词也无法完全避免误差 ③基于题名的增补关键词标引 关键词标引是适应科技文献数量剧增及快速简便的检索需要而产生的,早期主要基于题名的情报性,直接抽取其中的自然语词并加以轮排而成然而题名在表达概念的准确性、专指性、完备性方面存在差异,对非科技文献犹甚,因此出现了从文摘、正文甚至著者等方面增补关键词的改进方法,这同时也增加了人工辅助的成分。

       ①词串标引 词串标引是在对自然语言的理解基础上,由人将用自然语言书写的主题描述句标记成形式化主句,然后由机器自动完成相应的索引款目国外年代末年代初词串标引发展迅速,问世了一批进行词串标引的机编索引系统如、、等其中最著名的标引专指度高,轮排准确,款目与自然语言贴近汉语是对其职能号、使用规则进行修正调整后专用于汉语文献的主题标引系统,与之配套的微机软件亦已研制成功 自然语言标引与检索词表问题 自然语言检索的理想模式是标引、检索阶段均使用自然语言,且不使用任何控制手段然而这将造成检索策略构造困难、检全率的问题,同时也在不同程度上存在一些影响检准率的因素同时,由于计算机对自然语言的理解力以及汉语语词切分、识别尚存在相当距离,纯自然语言自动标引与检索未获真正意义上的推广及使用 这种状况使得自然语言也不得不研究吸取规范语言的某些控制手段或指导思想,以期在保持自然语言的基本特征及固有优点下,最大限度地提高标引、检索效率由此产生了各种自然语言标引、检索词表 ①后控制词表 以往的规范文语言词表是在文献或情报输入时就对索引词先行加以控制,因此又称为前控词表由于它的控制带有一定的粗泛性、滞后性,有时甚至失控,因而人们开始尝试使用自然语言进行检索,但这又造成了与受控语言的脱节。

      于是,在标引时使用自然语言,在检索时实施一些不严格的控制,这就成了后控制词表的最初思路 年美国匹兹堡大学法律中心采用一种同义词表来辅助其法律全文数据库的检索,它只是简单地将相同含义的词编辑在一起,作为一种自动扩检工具而获得了相当好的效果 国内在这方面的研究始于年代初,近年来则正逐渐形成理论和实践热点,出现了一批实验或实用性后控制词表系统如基于用户提问和用户建议的自学后控制系统,基于字面相似原理的后控词表辅助编制系统,基于词对相似和词对共现原理的后控制词表系统以及基于分面分析的机辅后控制词表系统等 后控制词表通过罗列自然语词来提供一种转换或扩检系统,其控制效果由词表对自然语言词间关系的显示形式、种类及质量所决定它作为利用规范语言的原理和方法编制的自然语言检索用控制词表较好地减轻了标引和检索负担,又同时保留了自然语言的优点,其应用前景十分广阔 ②入口词表 入口词表的编制是为解决标引和检索的入口词问题,最初的出发点是针对规范语言词表而言的它解决了词表词量有限的问题,并提供了规范语言与自然语言的接口随着情报检索的发展,入口词表的应用范围也有所拓展,可以认为标引词、检索词表达的变化以及查找途径的增加都可称为入口思想的反映。

       常见的入口词表有与规范语言词表同一的入口词表、专门编制的入口词表等,截词检索从其功能而言也是一种无形的入口词表另外,词表的轮排索引提供了从词素出发的多个入口,也是入口词表的一种重要形式 ③切分词典 这是针对汉语分词的困难,而构造的一种机内词典,在自动标引时作为切分抽词的辅助工具其中又可细分为主题词词典、关键词词典、部件词词典、非用字后辍表等 上述切分词典均在自然语言自动标引中得到了应用,但仍存在一些需完善之处如保证词典抽词的准确性、便检性,切分规则的完备性以及提高处理隐含概念、缩略语等特殊语言现象的能力 自然语言与规范语言的结合使用—整体化趋势 自然语言与规范语言的构成特点决定了它们在检索效率方面具有互补性,如果能扬弃二者的优缺点并将之有机结合,从理论而言无疑将取得最为合理优良的检索效率 从实践方面来看,国外自年代中期即已显示了将两种语言结合使用的显著趋势在使用整体化语言的混和型情报检索系统中不仅标引相对经济、明确,检索效果也更为理想根据我国计算机检索的仍以规范语言人工标引及传统情报检索为主的现状,采用整体化语言应当是提高机检水平,逐步实现向自然语言过渡的一种现实而有效的途径 整体化语言的结构与功能可见下图: 规范语 8。

      点击阅读更多内容
      关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
      手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
      ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.