
信息检索考试重点.docx
10页❸信息检索的概念❸广义的信息检索是指将信息按一定的方式组织和存储起来,并根据用户的 需要找到有关信息的过程和技术;❸狭义的信息检索是指从信息集合中找到所需信息的过程第一章 计算机信息检索的1.1学科基础一信息学概述❸信息概述❸信息需要和检索1.2技术基础一信息技术概述❸信息技术概述❸信息检索的关键技术一P14★具有广泛影响的定义:信息:是指应用文字、数据或信号等形式通过一定的传输和处理,来表达各种 相互联系的客观事物在运动总所具有的特征性内容的总称知识(Knowledge)❸词典解释:知识是人类在改造世界的社会实践中获得的对事物本质认识的 成果和结品❸知识 是人类对自然界、人类社会中各种现象、规律进行思维分析、加工 提炼形成的系统化、理论化结果也就是通过大脑思维重新组合的系统化 的信息集合❸因此,系统化、理论化的正确信息就是知识(1) 按信息的表达形式划分•文献信息•声像信息•电子信息文献(document)是指记录有知识(或信息)的一切载体也就是说用文字、图形、符号、声频、视频等手段记录下来的人类知识都 可以称之为文献三个要素:平内容-被记录的知识(信息)K载体入记录知识信息的手段一个特点:记录(2) 按信息加工的层次划分 -P5❸零次信息指尚未以公开形式进入社会流通使用的信息。
如:实验记录、会议记录、 内部档案、论文草稿、设计草稿等❸一次信息指以信息编制者的研究成果为依据而创作(撰写)的并公开发表或出版的 信息如:图书、学术论文、专利说明书、科技报告等,是信息检索的主要对象 和最终目标❸二次信息指对一次信息进行加工整理,使之简化(如著录信息特征,摘录信息内容 要点等),或分类编辑之后所得的产物,或为了便于检索和利用一次信息而编辑 出版的产物如目录、索引、文摘、书目型数据库等二次文献是对一次文献的浓缩和有序化,主要作用:是存贮和报道一次文 献线索、提供查找的途径,是检索的主要学习对象❸三次信息指根据某种需要和目的,利用二次信息作为手段,将某方面的大量一次信息加以 全面系统的再度选择、分析和综合,编写成具有专指性内容和使用目的更为明确、 效果更为直接的三次信息如:专题评述、综述、百科全书、参考工具书等顺序文档(Sequential file)以文献记录作为信息存储单元,按文献记录入藏的存取号从小到大顺序排列而形 成的目录式文档,由于它存储有关于每篇文献的最完整信息,所以通常又把它称 为主文档(Master File),相当于印刷型检索工具的正文部分倒排文档(Inverted file)就是把记录中一切可检字段或属性值抽出,按某种顺序重新加以组织后所得到的 一种文档.倒排档从主文档中派生出来,所以,又叫做辅助文档.顺序文档# 001专家系统在情报检索中的应用# 002 一种新的倒排档溢出处理算法#003情 报检索专家系统的特点与发展#004提问式中的位置算符#005提问式准波兰变换 算法的研究#006智能检索系统的设计与开发倒排文档倒排档 002提问逻辑式004,005位置算符 004溢出处理 002智能检索系统 001,003,006专家系统 001,003准波兰变换 005记录(Record)是构成数据库的信息单元,每条记录都描述了一原始信息的外表 和内容特征。
字段(Field)是记录的下级数据单位,用来描述实体的某一属性常见字段-P17第二章计算机信息检索(1) 脱机检索20世纪50〜60年代是六十年代发展起来的批次检索,用户不与检索系统发生直接联系,只需 把检索要求送往检索中心,由检索人员利用计算机进行文献检索的一种方 式'优点:价格便宜,无网络通讯费,检索费用由用户平摊,随机存储缺点:检索结果延误,委托性检索2) 联机检索20世纪60〜80年代J联机检索是用户利用终端设备,通过通信网络或通信线路与检索系统联 机,进行人机对话,从检索中心的数据库查找所需要的文献信息过程优点:检索的速度快,检索质量高缺点:检索费用高3) 光盘检索20世纪80年代优点:价格较低,使用不受时间限制4) 网络检索20世纪90年代初一2.4计算机信息检索语言一P40语言是一种人们用以交流沟通的重要工具人与计算机对话,需要有计算 机语言,人与检索系统对话来实施检索,则需要有检索语言捕1 检索语言(retrieval language)是检索信息所使用的人工语言是从自然语言中精选出来并加以规范 化的一套词汇符号,用以对信息内容进行概括其内容或外在特征的概念及其相互 关系的概念标识体系。
是信息检索系统存储和检索信息时共同使用的一种约定性语言,以达 到信息存储和检索的一致性,提高检索效率又称标引语言、索引语言、概念标 识系统等2.4.3检索语言的类型(图表)1. 分类语言❸ 是建立在科学分类的基础上,运用概念划分与概括的方法,进行层层划分, 每次划分,就产生若干类目逐级划分,就产生了不同级别的类目,这些 类目层层隶属,形成一个严格有序的等级体系❸常用分类号或分类词表示优势:希类目体系展开比较系统,便于从学科门类出发,进行族性检索希将概念逐级划分,具有等级结构,便于扩大和缩小检索范围希以分类号作为检索标识,不存在文种限制宥 标记简明,适用于分类排架,也可用于组织分类检索工具不足:宥 不能充分揭示信息资源中大量存在的细小专深主题希 分类表中的类目不能随时更改,因而不能及时反映新的科学技术宥 按照直线序列设置类目,对边缘学科课题只能标引在一门学科的类目之 下,检索时可能漏检宥大型类表一般篇幅较大,对类表管理的要求较高2. 主题语言❸是用自然语言中的名词、名词性词组描述事物概念,用参照系统等表达概 念之间的相互关系的一种检索语言❸特点:直观性强,专指度高1) 关键词语言❸ 所谓关键词,就是从记录信息的文献题名、摘要和正文中提取出来的,能 够表达信息主题内容的、具有检索意义的关键性词汇。
它是一种未经规范 化的自然语言❸关键词的特点是:① 一般不建立关键词表,通常使用禁用词表来淘汰非关键词,即不具有检索意 义的词② 在标引阶段只进行少量控制或不作控制,最容易实现,尤其适用于电子计算 机处理和自动标引,建立的检索系统也是时差最短和最经济的检索系统③ 在检索阶段通过后控词表对同义控制和相关词推荐等方式提供帮助2) 叙词语言❸ 所谓叙词,是指从自然语言中优选出来并经过规范化处理的名词术语,采 用表示单元概念的规范化词语的组合来对信息主题或内容进行描述的标 识系统,属于后组式语言❸特点:专指性、直观性、多维检索等2.5计算机信息检索的原理和步骤•-信息检索的定义❸广义:包括信息存储与检索两个过程,即是指将信息按照一定的方式组织 和存储起来,并根据用户的需要从信息集合中找出所需信息的过程❸狭义:从信息集合中找出所需信息的过程2.5.1 计算机检索的原理❸本质是用户的信息需求与存储在信息集合中的信息进行比较和选择,即匹 配的过程P49❸也就是将描述特定用户所需信息的提问特征,与信息存储的检索标识进行 异同的比较,从中找出与提问特征一致或基本一致的信息2.5.2计算机信息检索的步骤(图表)1.分析检索课题,明确检索要求检索要求大致分为3类:❸ 新(研究探索型):及时获得最新的内容,对查全没有过高要求。
❸ 准(科研攻关型):要解决研究中的具体问题,要求检出的文献有针对性, 对查准要求较高❸ 全(课题普查型):要全面了解某一特定领域的发生、发展和现状,是一 种回溯性检索,对查全有较高要求3. 确定检索途径检索途径是检索的入口,主要有两类:一是反映信息内容特征(分类、主题) 的检索途径;一是反映信息外部特征(题名、著者、代码等)途径❸(1)分类途径它是按学科分类体系查找信息的途径,主要有分类目录和分类索引适合族 性检索eg❸(2)主题途径是利用信息的主题内容来进行检索的途径,即用关键词、主题词来检索 适合特性和交叉检索❸ (3)题名途径是根据已知的书名、刊名或篇名查找信息的途径,主要工具有书名 目录、刊名索引、篇名索引等❸(4)著者途径根据已知著者(包括个人及团体作者)的姓名查找信息的途径,通过它可 以检索到某一著者被某一检索工具收录的所有信息如:著者索引、著者目录等按著者姓名字顺编排书写格式姓前(全称)、名后(缩写,即用首字母)如:Willian Henry Harrison —Harrison W HTan Haoqiang 一 Tan HQ❸(5)代码途径(序号途径)是通过已知信息的专用代码(序号)查找信息的途径,如:国际标准书号 (ISBN)、国际标准刊号(ISSN)、专利号、合同号、标准号等,是一些信息类 型的特有标识,使用这种途径多见于查找专利信息、科技报告、标准等。
❸(6)其他途径如:引文途径,还可对语种(LA)、文献类型(PT)、出版社、出版日期(PD)、 仅要含全文的记录(full text only )等等进行限定4、 选择检索方法❸1.追溯法是指不利用一般的检索工具,而是利用已经掌握的文献末尾所列的参考文 献,进行逐一地追溯查找引文的一种方法❸2.工具法(常规法)是指直接利用检索工具(系统)检索文献信息的方法,这是文献检索中 最常用的一种方法它又分为顺查法、倒查法和抽查法❸(1)顺查法是指按照时间的顺序,由远及近地利用检索系统进行文献信息检索的方 法这种方法能收集到某一课题的系统文献,它适用于较大课题的文献检 索例如,已知某课题的起始年代,现在需要了解其发展的全过程,就可 以用顺查法从最初的年代开始,逐渐向近期查找❸(2)倒查法是由近及远,从新到旧,逆着时间的顺序利用检索工具进行文献检索的 方法此法的重点是放在近期文献上使用这种方法可以最快地获得最新 资料❸(3)抽查法是指针对项目的特点,选择有关该项目的文献信息最可能出现或最多出 现的时间段,利用检索工具进行重点检索的方法❸3.交替法是把上述两种方法加以交替使用的方法既要利用检索工具进行常规 检索,又要利用文献后所附参考文献进行追溯检索,分期分段地交替使用 这两种方法。
即先利用检索工具(系统)检到一批文献,再以这些文献末 尾的参考目录为线索进行查找,如此循环进行,直到满足要求时为止2.6检索效果评估 -P53检索效果(retrieval effectiveness)是指检索系统检索的有效程度,它反映检索系 统的能力技术效果主要指系统的性能和服务质量,它是由检索系统实现其功能的能力所确 定的;经济效果主要指检索系统服务所花费的成本和时间,它是由检索系统完成其检索 服务的代价所确定的克兰弗登(Cranfield)提出了 6项评价检索效果的指标:收录范围、查全率、查准率、响应时间、用户负担、输出形式查全率 R (Recall ratio)查准率 P ( Precision ratio)检索结果涉及四个方面:相关文献、非相关文献、被检出的文献和未被检出的文 献思考:如某数据库中共有探讨物流信息系统的相关文章1000篇,而你在这个 数据库中只检索出600篇,而且其检索出的结果中还有100篇是不相关的,那么 你这次检索的查全率和查准率各是多少?查全率50%查准率 88.3%提高检索质量的措施提高检索系统的质量:对用户而言,。












