信息检索:理论与方法.docx
14页信息检索:理论与方法第一部分 信息检索理论一.掌握和熟悉1. 信.息.检.索.的.基.本.原.理.:即对信息集合与需求集合的匹配与选择2. 信.息.检.索.常.用.技.术.:*•布尔检索:逻辑与:如,A*B,表明一篇文献中A和B必须同时存在 例:郭沫若*语言学 (同时满足两个条件)逻辑或:女口,A+B ,表明文献中A或B必须存在,包含同时存在 逻辑非:如,A- B,表明一篇文献中包含A但不包含B例:郭沫若;除去语言学 (对某一个检索要求进行限 制)逻辑“或”提高查全率,逻辑“与”和“非”提高查准率• 截词检索:后截断:computer*,可检索出:computeracy, computerise, computers前截断:*computer,可检索出: microcomputer, minicomputer 中截断:organi ? ation,可检索出:organisation,organization 前后截断: *computer*• 限制检索:为缩小命中文献的数量,将检索范围限定在某个字段或范围中•全文位置检索:可以反映出两个检索词在文献中的邻近关系常用在全文检索中, 弥补布尔检索的不足。
• 加权检索:•多媒体检索:基于内容的检索是指根据媒体对象的内容及上下文联系,在大规模 多媒体数据库中进行检索它的目标是提供在没有人类参与的情况 下能自动识别或理解声音、图象、视频重要特征的算法• 超文本检索:超文本是一种信息的组织方法3.信.息.检.索.当.代.技.术.: *• 并行检索:两个或两个以上的程序或任务并行处理• 分布式检索:允许检索请求在不同地点、不同结构的系统平台上运作 Z39.50 协议是一种信息检索标准,常用于分布在各地的图书馆书目数据库系统的检索遵循了 Z39.50协议,只要进入一个界面,不需要重新退出再进入近年来推出了基于OAI协议的分布式检索作为开放式数字资源库,OAI必 须遵守如下规定:作为数据库提供者应能用通用公共元数据描述所存储的对象• 基于知识的智能检索:如检索“华人”,可把包含“中华人民共和国”的内容 不检索出来;检索“电脑”,可以把包含“计算机”的内容检索出来现阶段智 能型检索系统应该有以下功能:a.具有大规模实例描述的汉语分词排歧知识库;b.具有主题词典、广义同义词检索、拼音检索、同音检索等功能;c.具有基于内 容的相似性检索功能,具有自动分类和自动摘要功能,具有知识压缩和去重功能; d.具有文本挖掘功能等。
• 知识挖掘:主要指文本挖掘技术的发展,目的是帮助人们更好地发现、组织、 表示信息,提取知识,满足信息检索的高层次需要包括摘要、分类等)• 异构信息整合检索:能够检索和整合不同来源和结构的信息• 全息检索:就是支持一切格式和方式的检索• 自然语言检索:应是信息检索的发展趋势自然语言与人工语言相结合,才能 更好地发挥自然语言检索的优势• 跨语言信息检索:可以用一种语言去检索其他语言的资源• 问答系统:输入的查询是问题,要求从给定语料库中返回文本• 概念空间:通过对目标文档进行概念选取、概念类聚而形成,是一个概念网络 概念空间是一个智能化索引,每个索引项(概念)通过一层或多层的概念与原 文档建立联系• 信息融合技术:是一种综合利用多种信息资源,以获得对某一事物更客观、更 本质认识的信息处理技术可以合理地组织查询结果,减少不必要的信息冗余, 使用户获得完整、准确、及时、有效的而且是简洁、明了的实用信息4. 检索效果评价:判定一个检索系统的优劣,主要应从质量、费时和时间三方面来衡 量 *5. 査全率二检出的相关信息数/信息库中相关信息总数*100 %= a / a + c *100 %*6. 査准率=检出的相关信息数/检出的信息总数*100% = a / a + b * 100%* 査全率和査准率必须结合使用,单独使用两者中的任何一个都不能全面说明检索效 果的好坏。
若检出一篇相关信息,必能达到100%的査准率,但査全率却会非常低; 同样,若检出信息数等于库中信息的总量,则必能100%的査全率,但査准率一定很 低 *7. 误检率=检出的非相关信息数/检出的信息总数*100%=b / a+b * 100% *8•漏检率=未检出的相关信息数/信息库中相关信息总数*100% =c / a+ c 100% *査全率和漏检率是互补的;査准率和误检率也是互补的它们相加等于一9 .其他评价指标:均衡查全和相对查全指标还有错检率和相关率10.不同的用户对查全率和查准率的要求不同如一个正在从事某项研究的用户,可 能需要高査全率,允许较低的査准率,以保证不遗漏任何重要的信息而对于査新 人员来说,为了找到与查新项目内容一致的信息,他可以要求高查准率 *二.了解1. 信息检索经历了从手工到机械再到计算机化检索的发展过程:・手工检索(1876-1954)・脱机批处理检索(1954-1965)• 联机检索(1965-1991 )联机检索是计算机技术、信息处理技术和现代通信技术 三者的有机结合・网络化联机检索(1991-)2. 息检索技术发展:一是传统信息检索向全文本、多媒体、多载体、多原理等新型信 息检索的发展,二是信息资源的网络化和分布化。
3. 信息检索的模型,就是运用数学的语言和工具,对信息检索系统中的信息及其处理 过程加以翻译和抽象,表述为某种数学公式,在经过演绎、推断、解释和实际检验, 反过来指导信息检索实践4. 布尔逻辑检索模型、向量空间模型、概率检索模型、模糊集合检索模型、扩展布尔 逻辑检索模型、相关反馈模型:经过了十多年的理论研究与实验比较,发现所有这些新的理论都无法取代布尔检索这不仅因为现有的操作系统大都是布尔检索系 统,更重要的是布尔检索的简单易懂、提问式的方便构造是向量等模型无法比拟的 5.信息检索系统:一个完整的信息检索系统,通常由以下几个功能模块组成• 信息选择子系统:信息源是检索系统的信息或数据来源功能:根据系统的目 标和服务对象的需要,确定数据收集范围,采集各种信息资源,为系统提供充 足、适用的数据• 标引子系统:标引,就是对文献内容进行分析,然后给每篇文献以一定数量的 内容标识(如分类号、主题词、关键词等),作为存储与检索的依据• 建库子系统:功能是建立和维护可直接用于检索的数据库,包括系统所用的索 引文档• 词表管理子系统:主题词表是控制标引用词和检索用词,使两者尽可能取得一 致的有效工具• 用户接口子系统:全称是“系统 -用户接口”,由用户模型、信息显示、命令语 言和反馈机制等部分构成(界面)。
• 提问处理子系统:专门处理用户输入的提问式,将提问式中的检索元和算符区 分,并转换成系统可接受的命令方式与数据库中存储的数据进行比较运算后, 把结果输出给用户6.索引与书目不同的是它能更深入地揭示文献内容,与书目相同的是都是指引性工具 7•检索系统评价:•信息源评价:数据规模、收录范围、信息源质量控制指标可反映信息源的质量 量大、面广、信息全、信息质量高、提供一站式服务,是理想的信息源•信息组织管理:主要指标引的方法、组织方式及更新周期•系统功能评价:取决于系统所能提供的检索途径、检索方式和检索方法一般系 统都提供布尔组配、截词检索等,也有一些系统提供二次检索、超文本检索 •输出结果评价:包括系统对用户的响应时间、命中记录的排序功能输出显示形式 •用户接口:影响到用户是否喜欢使用和该系统用户友好、方便使用是建设宗旨 •系统技术支持:指软、硬件平台的通用性、兼容性、先进性、可靠性和稳定性8•检索效益评价:要考虑社会效益和经济效益第二部分 社科信息检索一. 熟悉和掌握1・ 社科信息检索工具体系:检索工具是根据特定需求,对原始文献进行筛选、浓缩、有序组织、提供文献线索和知识的一种特殊的文献类型,是信息检索的 主要工具。
检索工具按载体形态可分为书本式、卡片式、期刊式、附录式、缩 微型、机读型等按检索方式可分为手工检索系统和计算机检索系统 *2. 按不同的功能和编制特点,社科信息检索工具可分为:P96*•指引型检索工具:指引型检索工具的特点是揭示文献形式和内容特征,提供原始 文献线索,让读者作进一步查检主要有三类: 书目:书目是揭示与记录一批相关文献,并按一定次序编排而成的检索工具 又称目录书目的主要功用:从题名、著者、主题等特定角度查找相关文献;查考某 一学科或某一专题文献的出版和收藏情况;指导阅读,指引学术门径•索引:索引是将书、刊或其他文献中重要的或有意义的信息,如词语、主题、篇目或人名、地名等事项摘录下来,按一定方式顺次编排,并注明出 处的检索工具它是对文献集合中包含的文献事项或单元知识进行的 记录和指引,能比书目更微观、更深入地揭示文献内容索引的功用有:提供文献线索;指引篇名、文句、语词与专题论述的出处; 增加检索途径•文摘:文摘是将文献的主要内容简要确切地加以描述,并注明出处,以一定的方法编排的检索工具文摘不仅提供文献的基本书目信息,还提供 文献的内容梗概(与书目不同处)文摘是对原文的浓缩,忠实于原 文,不允许加入个人评价。
文摘按摘要方式分为指示性文摘(简介) 和报道性文摘文摘的功用有:帮助用户迅速鉴别选择文献,减少利用资料和查阅资料的 盲目性;有的文摘在一定程度上可替代原文,节省阅读全文的时间;多语 种文摘被摘录成一种语种的文摘时,可帮助用户克服语言障碍;提供学术 动态和学科研究进展以上三类检索工具若以一定格式存储在计算机存储介质中形成书目数据 库,则可进行计算机检索•参考型检索工具:是能直接提供事实、知识、数据和观点等的检索工具它能直接提供问题的答案,要与指引型工具区分) P 98*• 辞典(字典、词典):是解释字或词的概念、意义和用法,并按一定顺序 编排的检索工具东汉许慎的《说文解字》是第一部部首法字典,以字典为书名,通常认为始 于《康熙字典》/综合性语文辞典:对词语的音形义用法等加以全面解释,语文辞典特种语文辞典:同义辞典、成语辞典、方言辞典等辞典〈\ 夬科辞典:用于查考一种或几种学科或专门领域的术语、冷识性辞典 专名、概念等、 百科辞典:是汇集各学科专业词汇,对术语、概念和事物加以概括解释的综合性工具书辞海既是百科 辞典,又兼有语文辞典的功能)•百科全书:是会萃人类一切门类或某一门完整的知识,概要地加以叙述并有序编排的工具书。
百科全书具有系统性、完备性、权威性、检索性、可读性 等特点百科全书的功用有:寻检查阅特点知识;系统学习有关知识系 统地学习知识要找百科全书)•年鉴:是汇集一年内的重要时事文献、学科进展,各种统计资料和重要信息, 并按年度出版的连续性出版物年鉴的功用有:提供新颖适时的资料;提供简明事实和统计数据;逐年编排;累积性强,具有可比性和预测性;具有非正式的索引作用•手册:是汇集某一领域或某一学科的基本知识、事实性资料与统计数据,将其 浓缩整理,加以系统性编排,以便解答各种事实性问题的参考工具手 册信息密集,资料详实、具体,实用性强,具有很大的参考价值,可供 随时翻检手册还叫指南、必备、大全、宝鉴等提供的是“既成的 知识”如公式、数据、图表条例制度等)•类书:类书是摘录、汇集多种文献中的原文,按类目或按韵部编排而成的工具书 类书的功用:(查考事物起源,查检史实典故渊源,查找诗词文句出处,检索参 考资料,辑录散佚残缺古书佚文,校勘考证古籍等 )•政书:(是记述历代或 某一朝代的典章。

卡西欧5800p使用说明书资料.ppt
锂金属电池界面稳定化-全面剖析.docx
SG3525斩控式单相交流调压电路设计要点.doc
话剧《枕头人》剧本.docx
重视家风建设全面从严治党治家应成为领导干部必修课PPT模板.pptx
黄渤海区拖网渔具综合调查分析.docx
2024年一级造价工程师考试《建设工程技术与计量(交通运输工程)-公路篇》真题及答案.docx
【课件】Unit+3+Reading+and+Thinking公开课课件人教版(2019)必修第一册.pptx
嵌入式软件开发流程566841551.doc
生命密码PPT课件.ppt
爱与责任-师德之魂.ppt
制冷空调装置自动控制技术讲义.ppt


