
信息检索与检索系统.ppt
32页单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,*,第2章 信息检索与检索系统,2.1 信息检索的含义和作用,2.2 检索工具的基本功能及类型,2.3 检索系统的构成,2.4 检索语言,2.1 信息检索的含义和作用,1.信息检索的含义,(1)“信息检索”(Information Retrieval),是指将信息按一定方式组织和存贮起来,并针对信息用户的需求找出所需要的信息的过程信息检索的广义概念包括两个部分,即信息存储和信息检索,狭义则仅指该过程的后一部分,即信息的查找过程信息检索的目的是为了解决特定的信息需求和满足信息用户的需要它根据检索(查找)对象的不同,又可以分为文献检索、事实检索和数据检索信息检索的本质是信息用户的需求和一定的信息集合的比较和选择的过程,即“匹配”的过程,也就是用户需求的主题概念或提问表达式同一定信息系统的检索语言相适应的过程2)科技信息检索,是应用现代信息检索理论并借助一定的检索工具和技术,从浩如烟海的科技信息资源中查找所需信息的过程3)信息检索方式,按照信息存储手段和载体形式,可以分为手工检索(手检)和计算机检索(机检)手工检索是针对印刷型检索工具的,计算机检索使用的对象是计算机检索系统(包括各种数据库、检索软件及相关应用软件、计算机硬件和通信设施等)。
无论是手检还是机检,按检索过程和最终结果的关系可分为直接检索和间接检索两种方式直接检索是指查阅一次信息(或一次文献)直接获取所需信息的方法,其效率很低(手检)间接检索主要是指利用各种检索工具或检索系统获取信息线索的方法,再通过信息线索获取原始信息,这种方式效率要高得多,因而是现代信息检索的主要方式4)信息检索入口,又称检索点或检索标识,是指信息内部特征或外部特征的属性值的集合检索标识是系统标引员和信息用户所共同遵循的“接口”,是信息用户检索信息的出发点和依据检索标识主要包括主题词、关键词、分类号、著者、标题、机构名称或代码等5)信息检索的类型,按检索结果的内容来划分,可以划分为文献检索、数据检索、事实检索和概念检索文献检索(Documents Retrieval),是目前信息检索的主要类型,它是通过二次文献查找所需的一次文献或(和)三次文献数据检索(Data Retrieval),是满足数据需求的检索过程,如数理化等科学数据、经济数据、历史地理数据等这里的数据指大量的数值、数字和相应的在逻辑层次结构上紧密相关的信息内容,它不等同于狭义的数学上的含义事实检索(Fact Retrieval),是对特定事实或事件的检索。
事实内容包括大量的科学事件和社会事件,例如传统的报刊检索和现代的网络新闻检索就是查找“何时何地发生的具体事件”概念检索(Concept Retrieval),是查找特定概念的含义、作用、原理或使用范围等解释性内容或说明最常见的概念检索是查找各种参考工具书,例如字词典、百科全书、名录、手册、指南等参考工具书2.信息检索的作用,(1)信息检索是信息社会个人素质的一个重要组成部分,(2)信息检索是实现信息资源共享的重要途径,(3)信息检索是科学研究和技术创新的重要组成部分,(4)信息检索是提高个人竞争力的重要因素,2.2 检索工具的基本功能及类型,1.检索工具的基本功能,信息检索工具的主要功能表现在存储和检索两个方面报道及时全面、存储规范有序、检索方便准确是对检索工具的基本要求因此,检索工具应具备下列基本功能:,(1)报道功能,以高度压缩的形式简要揭示信息的内容特征(如标题、主题、摘要和分类等)和外部特征(如书刊名、著者和号码等)2)标识功能,对著录信息进行多种标识,如序号、代码号、主题词、关键词、学科类目等3)辅助检索功能,检索工具须提供多种辅助检索手段,如分类索引、主题索引、著者索引、机构索引和代码索引等。
辅助检索功能的完善程度不仅是检索工具的主要质量指标,而且也是影响信息用户能否充分实现信息资源共享的一个关键因素2.检索工具的基本类型,(1)按载体形式划分,书刊型检索工具,,即以图书或期刊形式出版的常用检索工具又可分为期刊式、单卷式和附录式等形式卡片型检索工具,,将文献的各种检索标识著录在卡片上并按一定方法排列组织而成的传统检索工具缩微型检索工具,,以缩微胶卷或平片的形式报道文献线索的检索工具,需要专用的缩微阅读设备机读型检索工具,,以计算机为主要手段进行信息存储和信息检索的工具它是信息检索工具(系统)发展的主导形式和方向2)按著录信息的特征划分,目录(Contents),以文献的外部特征为著录依据,记录具体出版事项及其收藏信息的报道性检索工具按组织形式和范围可划分为国家书目、联合目录、馆藏目录、报刊目录、联机性和网络性目录等多种类型,按报道信息的学科范围可将目录划分为专题目录和综合目录索引(index),将文献的一些外部特征和内容特征作为著录依据,并依此线索揭示文献原始信息内容的检索工具,如著者索引、主题索引、分类索引、关键词索引等文摘(abstract),在著录文献外部特征的基础上,另外增加揭示内容特征的摘要部分,它是系统地报道、积累和检索文献信息的主要工具,是传统检索工具的核心。
根据文摘揭示信息内容的深度,可以分为指示性文摘和报道性文摘参考工具书(reference),是分析和著录大量具体而常用的科学数据与事实、以备查用的各种常用工具书的总称搜索引擎(searching engine),将网络信息按一定分类方法组织起来,通过检索网址的方式来检索信息的检索工具如百度、Google、搜狐、yahoo等3)检索工具的其它分类方法,按检索手段,可分为手工检索工具和计算机检索工具;,按报道的信息来源,可分为单一型和多类型检索工具;,按收录信息的学科范围,可分为综合型和专业型检索,工具;,按检索的对象和结果,可分为文献信息和事实数据检索 工具2.3 检索系统的构成,1.检索系统的构成,信息检索系统是由存储在一定载体上的有序化信息集合,相应的检索技术和设备,以及配套协调机制共同构成的具有信息存储和检索功能的共享信息环境1)检索文档,经过有序化处理并附有检索标识的信息集合如各种手检工具和机检数据库检索文档包括顺排文档和倒排文档,顺排文档的检索是对库中主文档的检索,倒排文档是抽取具有检索意义的字段再重新组成的索引文档(检索属性和信息地址的有序集合)2)检索设备,用以存储信息和检索标识、实现信息查询及其结果传递的技术手段。
如主机、终端及通信设施等3)系统规则,规范信息采集分析、标引著录、组织管理、检索与传输等过程的各种标准体系4)作用于系统的人,包括信息采集、分析和标引人员,系统管理和维护人员,信息用户和信息检索服务人员等以上四要素是针对广义的信息检索系统而言的狭义的检索系统仅指软件环境的核心部分,即:手工检索系统由正文、辅助索引、分类表和主题词表、说明、文献来源目录等5部分组成;计算机检索系统由数据库的字段、记录、文档、主题与分类索引、辅助咨询等部分组成良好的信息检索系统须具备以下特征:,须有规范的检索语言作环境支持(包括适宜的操作系统);,须有一部数据字典或词表作后盾;,对信息特征的标引和著录务求详细准确;,须具备多种系统检索标识;,全部检索标识必须有序化并相互协调;,提供多种检索方法和途径;,检索过程简易高效,符合“用户努力最小”原则;,准确的信息传递和信息输出;,多种检索系统之间须具有兼容性和通用性2.检索系统的基本原理,信息源,主题概念分析,标引语言,数据库,检索词,主题概念分析,信息需求,用户,标引词,检索工具,存储标识=检索标识,规范化词,检索语言,规范化词,?,采集,转换,信息存储过程,信息检索过程,录入,输出,信息检索系统基本原理框图,2.4 检 索 语 言,1.检索语言的概念,检索语言是用于描述信息系统中信息的内部特征和外部特征及其表达信息用户需求提问的一种专门语言。
或者说,检索语言是信息存储和信息检索共同遵循的一种约定性语言检索语言又称为标引语言、索引语言、存储语言等信息检索的匹配过程就是通过检索语言的匹配过程实现的2.检索语言的基本要求和特点,(1)易于标引和检索,:,这是衡量检索语言的首要指标其基本因素有:词语或符号的含义必须明确,不能有歧义或交叉语言概念丰富,概括面广,让各种文献信息都能有类可归(即有词或有号)标识的简洁直观性检索语言的语法必须严密规范;,(2)检索语言须具有实用性,;,(3)具有较高的查全率和查准率,;,(4)满足多种检索要求,提供多种检索途径,;,(5)检索语言之间的通用性和兼容性,3.检索语言的类型,(1)检索语言按是否受控划分为人工语言和自然语言,人工语言,:,对检索语言的概念加以规范和控制,把各种同义词、多义词、同形异义词等进行规范化处理,使每一个检索词只能表达一个概念,分类语言、标题词和主题词(叙词)语言都属于人工规范语言;,自然语言,:,对检索语言中的同义词、多义词等不加处理,取其自然状态,单元词和关键词属于这一类2)按检索时的组配实施状况划分为先组式和后组式检索语言,先组式检索语言:,在检索前,检索词已被预先组配好,检索时用户只能严格按照预先设定的检索词去查找信息而不能任意组配。
如分类索引中的各级分类款目、标题索引中的标题词都是如此后组式检索语言:,在检索前检索词没有被预先组配,检索时可以对检索词任意组配,构成所需要的检索概念其组配的基本原理是:具体概念可通过一般概念组配而成单元词、叙词、关键词都属于这一类3)按内容性质划分为分类语言和主题语言,分类语言:,是用分类号和相应分类款目来表达各种概念,以学科体系为基础,将各种概念按学科性质和逻辑层次结构进行分类和系统排序其特点是能集中体现学科的系统性,反映事物的从属派生关系,便于按学科门类进行族性检索按照分类方式的不同,又可分为体系分类语言、组配分类语言和混合分类语言主题语言:,是对信息主题内容特征的主题词汇概念,经规范化处理所形成的检索语言由于主题词表达概念准确,所以主题途径是检索信息的主要途径主题词汇按一定规则构成主题词表,词表通过参照方式揭示词汇之间的相互关系,用作信息标引和信息检索的参考依据主题语言按照主题性质的不同,可以分为,标题词,(,subject heading,),语言、单元词(uniterm)语言、叙词(descriptor)语言、关键词(keyword)语言等4.体系分类语言,体系分类语言是目前世界上最流行的检索语言,常见的有,杜威十进制分类法(DDC)、国际专利分类法(IPC)、美国国会图书馆分类法(LC)、英国国会图书馆分类法(LCC)、中国图书馆图书分类法(中图法)、中国科学院图书馆图书分类法(科图法)等。
体系分类语言的具体表现形式就是分类表及其辅助说明,一部完整的分类法由三个部分组成,即:分类表、辅助表和使用说明现以中图法和科图法为例予以简单说明1)中图法分类表的构成,分类表,:,是选择、类分、组织和检索信息的依据,分为:,编制说明,:,对类的设置与排序、标引和查阅方法等问题的说明基本部类,:,将全部知识划分为马列毛邓、哲学、社会科学、自然科学和综合性图书五个部分又称基本序列大纲,:,也称基本大类,构成分类表的一级类目中图法把知识体系分为22个基本大类简表,:,即基本类目表,是整个分类表的骨架详表,:,又称主表,即分类表的正文,由类号、类目和注释组成复分表,:,是祥表的一系列标准子目表,用于对祥表中指定需要划分的类目作进一步的细分辅助表:,即中国图书馆图书分类法索引,用于引导用户从信息主题的角度迅速准确地确定分类号使用说明:,是中图法的配套使用手册图22(P.34)列出了中图法各级类目展开的示例2)科图法简介,:,中科院系统图书情报机构几乎全部采用科图法科图法与中图法都属于体系分类语言,其编。
