好文档就是一把金锄头!
欢迎来到金锄头文库![会员中心]
电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

信息检索的方法和技术.ppt

17页
  • 卖家[上传人]:M****1
  • 文档编号:578598459
  • 上传时间:2024-08-24
  • 文档格式:PPT
  • 文档大小:283.03KB
  • / 17 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 第第3 3章章 信息检索的方法和技术信息检索的方法和技术3.1 3.1 信息检索方法信息检索方法3.2 3.2 信息检索途径信息检索途径3.3 3.3 信息检索步骤信息检索步骤3.4 3.4 信息检索效果评价信息检索效果评价3.5 3.5 信息检索技术信息检索技术 3.1 3.1 信息检索方法信息检索方法 依据信息检索手段划分,信息检索方法通常可以分为手工依据信息检索手段划分,信息检索方法通常可以分为手工检索和计算机检索两大类,如图检索和计算机检索两大类,如图3-13-1所示信息检索方法信息检索方法手工检索手工检索计算机检索计算机检索追溯法追溯法工具法工具法综合法综合法命令检索命令检索菜单检索菜单检索超文本检索超文本检索超媒体检索超媒体检索图图3-1 3-1 信息检索方法信息检索方法 1. 1.手工检索方法手工检索方法 是指直接利用印刷型检索工具进行信息检索的方法,包括直接检是指直接利用印刷型检索工具进行信息检索的方法,包括直接检索一次信息源的索一次信息源的“直接检索直接检索”方式和利用手工检索工具获取信息线索的方式和利用手工检索工具获取信息线索的“间接检索间接检索”方式。

      前者一般较少采用后者又可分为以下三种前者一般较少采用后者又可分为以下三种 ((1 1)追溯法)追溯法::在已获得一些所需文献的基础上,再依据文后所附在已获得一些所需文献的基础上,再依据文后所附““引用参考文献引用参考文献””信息追溯检索相关信息又称引文法信息追溯检索相关信息又称引文法 ((2 2)工具法)工具法::首先利用传统检索工具获取所需信息线索,再依据首先利用传统检索工具获取所需信息线索,再依据所获线索查找原始文献全文,也称常规法,是最主要的检索方法依所获线索查找原始文献全文,也称常规法,是最主要的检索方法依据课题需求对文献时限的要求,又可分为:据课题需求对文献时限的要求,又可分为:①①顺查法顺查法②②倒查法倒查法③③抽查抽查法 ((3 3)综合法)综合法::将工具法和追溯法结合起来,交替使用,又称分段将工具法和追溯法结合起来,交替使用,又称分段法、交替法或循环法按照具体应用又可分为:法、交替法或循环法按照具体应用又可分为:①①间隔交替法间隔交替法②②复合复合交替法 2.2.计算机检索方法计算机检索方法 利用特定计算机检索系统的检索界面,从数据库中检出用户所利用特定计算机检索系统的检索界面,从数据库中检出用户所需信息的方法。

      计算机检索的核心是数据库,包括题录数据库、文需信息的方法计算机检索的核心是数据库,包括题录数据库、文摘数据库、全文数据库和多媒体数据库等当前,计算机检索正逐摘数据库、全文数据库和多媒体数据库等当前,计算机检索正逐渐成为信息检索的主要方法渐成为信息检索的主要方法 ((1 1)命令检索)命令检索::使用操作指令和检索表达式来实施检索,是最使用操作指令和检索表达式来实施检索,是最基本的计算机信息检索方法也称为基本的计算机信息检索方法也称为专业检索专业检索 ((2 2)菜单检索)菜单检索::依据检索系统中菜单的引导来完成信息检索依据检索系统中菜单的引导来完成信息检索它又分为它又分为基本检索基本检索和和高级检索高级检索两种方式两种方式 ((3 3)超文本检索)超文本检索::在检索界面中选择所需的超文本信息单元来在检索界面中选择所需的超文本信息单元来链接检索链接检索 ((4 4)超媒体检索)超媒体检索::在检索界面中选择所需的多媒体信息单元来在检索界面中选择所需的多媒体信息单元来链接检索,又称链接检索,又称““多元法多元法””或或““综合法综合法”” 3.2 3.2 信息检索途径信息检索途径 依据文献外部特征和内容特征的不同标识,各种信息检依据文献外部特征和内容特征的不同标识,各种信息检索途径如图索途径如图3-23-2所示。

      所示检索途径检索途径文献外部特征文献外部特征文献内容特征文献内容特征著者途径著者途径题名途径题名途径机构途径机构途径代码途径代码途径信息源类型途径信息源类型途径其它途径其它途径分类途径分类途径主题途径主题途径关键词途径关键词途径 图图3-3 3-3 信息检索途径信息检索途径 1.1.根据文献外部特征的检索途径根据文献外部特征的检索途径 ((1 1)著者途径)著者途径::使用著者索引(或字段)检索与某个著者相使用著者索引(或字段)检索与某个著者相关的信息内容关的信息内容 ((2 2)题名途径)题名途径::利用题名索引(或字段)查找所需信息题利用题名索引(或字段)查找所需信息题名包括信息标题名(或篇名)、书名或刊名、标准名、文档名、名包括信息标题名(或篇名)、书名或刊名、标准名、文档名、数据库名等数据库名等 ((3 3)机构途径)机构途径::在机构索引(或字段)中检索与特定机构名在机构索引(或字段)中检索与特定机构名称相关的信息机构名称包括著者所在单位、书刊的出版发行者、称相关的信息机构名称包括著者所在单位、书刊的出版发行者、数据库的研发生产者、特定网络系统的维护者以及有关信息服务数据库的研发生产者、特定网络系统的维护者以及有关信息服务单位的名称等等。

      单位的名称等等 ((4 4)代码途径)代码途径::从特定代码(或字段)入手检索所需信息,从特定代码(或字段)入手检索所需信息,如如ISBNISBN、、ISSNISSN、专利号(或申请号、公开号)、报告号、合同号、、专利号(或申请号、公开号)、报告号、合同号、馆藏号、文档号和馆藏号、文档号和IPIP地址等 ((5 5)信息源类型途径)信息源类型途径::将具体信息所属的特定信息集合的类将具体信息所属的特定信息集合的类型作为检索入口的途径检索时需使用相应的辅助索引,例如:型作为检索入口的途径检索时需使用相应的辅助索引,例如:会议索引、图书索引、专利索引等会议索引、图书索引、专利索引等 ((6 6)其它检索途径)其它检索途径::根据某些信息的特殊标识进行检索的方根据某些信息的特殊标识进行检索的方法 例如化学分子式、地域名称、生物属种、图案色彩等例如化学分子式、地域名称、生物属种、图案色彩等 2.2.根据信息内容特征的检索途径根据信息内容特征的检索途径 ((1 1)分类途径)分类途径::以学科性质和内容的相应类目和类号为以学科性质和内容的相应类目和类号为特征标识来检索所需信息的途径。

      检索时依据所需信息的学科特征标识来检索所需信息的途径检索时依据所需信息的学科属性,在相应检索工具的属性,在相应检索工具的““分类目录分类目录””或或““分类索引分类索引””中查找分类途径有助于族性检索和查全率的提高分类途径有助于族性检索和查全率的提高 ((2 2)主题途径)主题途径::以课题内容的主题性质进行检索其最大以课题内容的主题性质进行检索其最大优点是易于掌握、概念集中、组配灵活,是最优最主要的检索优点是易于掌握、概念集中、组配灵活,是最优最主要的检索途径 ((3 3)关键词途径)关键词途径::在关键词索引(或字段)中检索所需信在关键词索引(或字段)中检索所需信息关键词组配灵活、不需规范,使用方便关键词组配灵活、不需规范,使用方便 3.3 3.3 信息检索步骤信息检索步骤 1. 1. 检索策略检索策略 要要完成某项课完成某项课题的检索,题的检索,需要分若干需要分若干步骤执行步骤执行检索步骤的检索步骤的科学组织和科学组织和合理安排称合理安排称为检索策略为检索策略如图如图3-33-3所所示需求课题需求课题用户用户主题分析主题分析选择检选择检索系统索系统确定检确定检索工具索工具具体操作具体操作制定检索制定检索表达式表达式选择检选择检索途径索途径结果输出结果输出检索结束检索结束用户用户评价评价图图3-3 3-3 检索步骤检索步骤 2. 2. 检索步骤检索步骤 ((1 1)课题主题分析)课题主题分析::是整个检索策略的基础,也是检索效是整个检索策略的基础,也是检索效率高低的关键,目的是明确信息需求的一些相关事项。

      主要包括率高低的关键,目的是明确信息需求的一些相关事项主要包括5 5个方面:个方面:①①信息需求涉及到的主题概念及其关系;信息需求涉及到的主题概念及其关系;②②信息需求的信息需求的学科属性;学科属性;③③所需信息的内容特征和外部特征;所需信息的内容特征和外部特征;④④信息需求的类信息需求的类型;型;⑤⑤对查新、查准、查全、检索速度和检索费用的指标要求对查新、查准、查全、检索速度和检索费用的指标要求 ((2 2)选择检索系统)选择检索系统::需要明确检索系统是综合性的还是专业需要明确检索系统是综合性的还是专业性的,是手工的还是计算机的性的,是手工的还是计算机的 ((3 3)确定检索工具)确定检索工具::检索工具有综合性的也有专业性的;有检索工具有综合性的也有专业性的;有手工的也有光盘的、联机的和网络的;有题录的和文摘的手工的也有光盘的、联机的和网络的;有题录的和文摘的, ,也有全也有全文的 ((4 4)选择检索途径)选择检索途径::一般优先选择主题词和关键词途径,其次一般优先选择主题词和关键词途径,其次是分类途径;若已知著者、题名等,则可直接依据相应途径检索。

      是分类途径;若已知著者、题名等,则可直接依据相应途径检索 ((5 5)制定检索表达式)制定检索表达式::检索表达式是人与检索系统交流的入口检索表达式是人与检索系统交流的入口语言,是检索步骤中最重要的一环;检索表达式分为下述两种:语言,是检索步骤中最重要的一环;检索表达式分为下述两种: ① ①简单表达式简单表达式::单独使用一个检索词进行检索在手工检索中单独使用一个检索词进行检索在手工检索中全部使用简单表达式,在计算机检索中简单表达式指使用单个字段全部使用简单表达式,在计算机检索中简单表达式指使用单个字段属性值进行的检索属性值进行的检索 ② ②复合表达式复合表达式::两个以上的检索词通过特定的算符组合而成两个以上的检索词通过特定的算符组合而成专门应用于计算机检索系统专门应用于计算机检索系统 ((6 6)执行具体检索操作及结果输出)执行具体检索操作及结果输出 ((7 7)用户评价)用户评价::主要在查新、查全、查准、有效性等方面作出主要在查新、查全、查准、有效性等方面作出评价 3.4 3.4 信息检索效果评价信息检索效果评价 检索效果(检索效果(retrieval effectivenessretrieval effectiveness)是指检索系统检索的)是指检索系统检索的有效程度,它反映检索系统的能力,这是对机检提出,有些指标对有效程度,它反映检索系统的能力,这是对机检提出,有些指标对手检也有意义。

      检索效果包括技术效果和经济效果两方面,技术效手检也有意义检索效果包括技术效果和经济效果两方面,技术效果主要指系统的性能和服务质量,它是由检索系统实现其功能的能果主要指系统的性能和服务质量,它是由检索系统实现其功能的能力所确定的;经济效果主要指检索系统服务所花费的成本和时间,力所确定的;经济效果主要指检索系统服务所花费的成本和时间,它是由检索系统完成其检索服务的代价所确定的一些指标不仅可它是由检索系统完成其检索服务的代价所确定的一些指标不仅可作定性的、也可作定量的评价,它们针对的是检索系统,也涉及实作定性的、也可作定量的评价,它们针对的是检索系统,也涉及实施检索的人所能发挥检索系统的最大能力、效益等因素施检索的人所能发挥检索系统的最大能力、效益等因素 有有6 6项评价检索效果的指标,它们由克兰弗登(项评价检索效果的指标,它们由克兰弗登(CranfieldCranfield)在)在分析用户基本要求的基础上提出的,包括:收录范围、查全率、查分析用户基本要求的基础上提出的,包括:收录范围、查全率、查准率、响应时间、用户负担及输出形式准率、响应时间、用户负担及输出形式 在检索实践中,评价检索效果的基本指标有以下几种:在检索实践中,评价检索效果的基本指标有以下几种:查全率(查全率(Recall ratioRecall ratio))————用用R R表示表示查准率(查准率(Precision ratioPrecision ratio))————用用P P表示表示漏检率(漏检率(Omission ratioOmission ratio))————用用O O表示表示误检率(误检率(Fall-out ratio)Fall-out ratio)————用用F F表示表示新颖率(新颖率(Novelty ratioNovelty ratio))————用用N N表示表示有效性(有效性(Availability ratioAvailability ratio))————用用A A表示表示检索速度(检索速度(Time ratioTime ratio))————用用T T表示表示 查全率(查全率(R R))= = 检中的相关信息量检中的相关信息量/ /系统中的相关信息总量系统中的相关信息总量漏检率(漏检率(O O))= 1 - = 1 - 查全率查全率查准率(查准率(P P))= = 检中的相关信息量检中的相关信息量/ /检索出的信息总量检索出的信息总量误检率(误检率(F F))= 1 - = 1 - 查准率查准率检索速度(检索速度(T T))= = 检索出的相关信息量检索出的相关信息量/ /检索用时检索用时新颖率(新颖率(N N))= = 检中的在单位时间内发布的最新相关信息检中的在单位时间内发布的最新相关信息 量量/ /单位时间内发布的最新相关信息总量单位时间内发布的最新相关信息总量 有效性(有效性(A A))= = 用户实际利用的相关信息量用户实际利用的相关信息量/ /检索出的相关检索出的相关 信息总量信息总量 将检索结果中的有关将检索结果中的有关参量列于表中,讨论涉及参量列于表中,讨论涉及四个方面:相关文献、非四个方面:相关文献、非相关文献、被检出的文献相关文献、被检出的文献和未被检出的文献。

      和未被检出的文献 一系列的实验结果表一系列的实验结果表明查全率与查准率之间存明查全率与查准率之间存在互逆关系在互逆关系, 从不同检索语从不同检索语言出发得到的实验结果都言出发得到的实验结果都表明了这种关系,即查全表明了这种关系,即查全率高时,查准率较低,反率高时,查准率较低,反之亦然要提高查准率,之亦然要提高查准率,则要付出查全率降低的代则要付出查全率降低的代价;要提高查全率,也会价;要提高查全率,也会使查准率下降使查准率下降 提高检索效果的措施提高检索效果的措施 一是提高检索系统的质量对用户而言,则要选择适合课题的一是提高检索系统的质量对用户而言,则要选择适合课题的学科覆盖范围的、优质的检索工具,包括其收录的全面、著录的清学科覆盖范围的、优质的检索工具,包括其收录的全面、著录的清楚、标引的准确、完善等等二是提高用户使用检索系统的能力,楚、标引的准确、完善等等二是提高用户使用检索系统的能力,充分发挥检索系统的功能检索语言、检索技术、方法的正确、灵充分发挥检索系统的功能检索语言、检索技术、方法的正确、灵活的使用,以使检索者(用户)能更好地与检索系统协调、配合。

      活的使用,以使检索者(用户)能更好地与检索系统协调、配合另外,也要根据不同的检索课题的需要,适当调整对查全率和查准另外,也要根据不同的检索课题的需要,适当调整对查全率和查准率的要求,比如要求查全率很高的查新工作,就要放弃对查准率的率的要求,比如要求查全率很高的查新工作,就要放弃对查准率的苛刻要求一般来说泛指性的词用得多,或相关概念检索词用得多苛刻要求一般来说泛指性的词用得多,或相关概念检索词用得多对提高查全率有利;反之,专指性的词用得多,或检索词互相限定对提高查全率有利;反之,专指性的词用得多,或检索词互相限定多,则对提高查准率有利当代科技信息检索系统能达到的查全率多,则对提高查准率有利当代科技信息检索系统能达到的查全率和查准率分别是和查准率分别是6060%%-70-70%和%和4040%%-50-50% 3.5 3.5 信息检索技术信息检索技术 信息检索技术指应用于检索过程中的原理、方法、策略、设备信息检索技术指应用于检索过程中的原理、方法、策略、设备条件、检索手段等因素的总称关于信息检索技术,可以从两个方条件、检索手段等因素的总称关于信息检索技术,可以从两个方面进行理解:一是集中应用于计算机检索系统的检索技术;二是检面进行理解:一是集中应用于计算机检索系统的检索技术;二是检索手段的技术变革。

      索手段的技术变革 1. 1.计算机检索技术计算机检索技术::主要有:主要有:①①布尔逻辑检索技术布尔逻辑检索技术②②截词检索截词检索技术技术③③限制检索技术限制检索技术④④加权检索技术加权检索技术⑤⑤全文检索技术全文检索技术⑥⑥网络检索技网络检索技术详情见第术详情见第7 7章 2. 2.检索手段的技术变革检索手段的技术变革::①①书刊式书刊式②②卡片式卡片式③③缩微品和磁带缩微品和磁带④④联机检索技术、光盘检索技术和网络检索技术联机检索技术、光盘检索技术和网络检索技术。

      点击阅读更多内容
      关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
      手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
      ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.