好文档就是一把金锄头!
欢迎来到金锄头文库![会员中心]
电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

《信息检索基础》课件.ppt

63页
  • 卖家[上传人]:鲁**
  • 文档编号:585789886
  • 上传时间:2024-09-03
  • 文档格式:PPT
  • 文档大小:2.42MB
  • / 63 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • §第二章第二章    信息检索基础信息检索基础 2.12.1信息检索概述信息检索概述2.1.1信息检索(Information Retrieval)定义 将信息按一定方式将信息按一定方式 组织和存贮组织和存贮 起来起来, ,并并针对用户的需求针对用户的需求找出所需要的信息找出所需要的信息的过程21 信息源信息源信息分析、著录、标引信息分析、著录、标引信息的表示检索语言检索语言用户需求分析用户需求分析 用户用户检索提问匹配过程输出检索结果输出检索结果数据库数据库 2.1.1 信息检索原理信息检索原理 信息检索基本原理的核心信息检索基本原理的核心是用户信息需是用户信息需求与文献信息集合的比较和选择,信息检索求与文献信息集合的比较和选择,信息检索实实质上质上是两者是两者匹配匹配的过程 2.1.2 2.1.2 信息检索类型信息检索类型事实信息检索事实信息检索依检索内容划分依检索内容划分文献信息检索文献信息检索数据信息检索数据信息检索信信息息检检索索类类型型 2.1.2 2.1.2 信息检索的类型信息检索的类型数据检索数据检索::检索的结果是检索的结果是数据数据或数值或数值。

      如某种材料的电阻;某变压器如某种材料的电阻;某变压器的参数;化学分子式、数据图表等的参数;化学分子式、数据图表等< <手手册册> >    事实检索:检索的结果是事实检索:检索的结果是事实结论事实结论         查询某一事物(事件)的性质、定义、查询某一事物(事件)的性质、定义、原理以及发生的时间、地点过程等如某产原理以及发生的时间、地点过程等如某产品是哪个厂家生产,哪个牌子的最好;第一品是哪个厂家生产,哪个牌子的最好;第一颗人造卫星是什么时候升空的颗人造卫星是什么时候升空的<<年鉴年鉴>>   文献检索:检索的结果是文献检索:检索的结果是文献资料文献资料        查找相关文献的内容、出处、收藏单位查找相关文献的内容、出处、收藏单位等等如系统地查找如系统地查找数控机床相关方面的文数控机床相关方面的文献<<论文论文 >> 文献检索是信息检索的核心部分文献检索是信息检索的核心部分 从性质上说:从性质上说:文献检索是一种相关性检索,检索的结果文献检索是一种相关性检索,检索的结果是与课题相关的文献或文献线索,而不直是与课题相关的文献或文献线索,而不直接解答用户所提出的技术问题本身;接解答用户所提出的技术问题本身;事实检索与数据检索则是确定性检索,检事实检索与数据检索则是确定性检索,检索的结果是用户所需的确切的数据或事实。

      索的结果是用户所需的确切的数据或事实 2.1.3  信息检索的发展简要历程信息检索的发展简要历程Ø手工检索阶段手工检索阶段  世界四大检索工具(世界四大检索工具(SCI\EI\ISTP\ISR),1665年年《《学者周刊学者周刊》》Ø计算机联机检索阶段计算机联机检索阶段1965年年ORBIT—DIALOG检索系统检索系统Ø网络检索方式网络检索方式检索软件的开发检索软件的开发Ø信息检索的未来阶段:智能化、高效化、人性化信息检索的未来阶段:智能化、高效化、人性化 2.1.4信息检索的意义 知识有两种,一种是我们自己知道的某主题的知识 ,而另一种则是我们知道什么地方能够找到知识的知识 --赫伯特 信息检索与利用能力的培养,是培养和提高大学信息检索与利用能力的培养,是培养和提高大学生创新能力的前提生创新能力的前提 2.2 2.2 信息检索途径信息检索途径 检索途径就是检索文献的出发点及路线,也称检索途径就是检索文献的出发点及路线,也称““检索点检索点”” 信息检索与信息存储是互逆的过程,存储在检信息检索与信息存储是互逆的过程,存储在检索工具和系统中的有些著录项或标引字段是可以索工具和系统中的有些著录项或标引字段是可以提供检索的,这些著录或标引字段就是检索入口。

      提供检索的,这些著录或标引字段就是检索入口信息检索途径一般包括文献信息的内容特征途信息检索途径一般包括文献信息的内容特征途径和外部特征途径径和外部特征途径 §根据信息根据信息外部特征外部特征和和内容特征内容特征的不同标识,的不同标识,检索途径可作如下划分:检索途径可作如下划分:检索途径检索途径信息外部特征信息外部特征信息内部特征信息内部特征分类途径分类途径主题途径主题途径关键词途径关键词途径题名途径题名途径著者途径著者途径机构途径机构途径代码代码/ /序号途径序号途径其他途径其他途径 分类途径分类途径      以学科性质和内容的相应类目、类号为以学科性质和内容的相应类目、类号为特征标识的检索方法分类途经检索与分特征标识的检索方法分类途经检索与分类法是相对应的类法是相对应的 目前,我国通用的分类法主要有三种:目前,我国通用的分类法主要有三种:A A《《中国图书馆图书分类法中国图书馆图书分类法》》(简称(简称《《中图中图法法》》))B B《《中国科学院图书馆图书分类法中国科学院图书馆图书分类法》》(简称(简称《《科图法科图法》》))C C《《中国人民大学图书馆图书分类法中国人民大学图书馆图书分类法》》(简(简称称《《人大法人大法》》)) 《《中图法中图法》》简介简介§《《中图法中图法》》有有2222个大类,分类号采用字母个大类,分类号采用字母与阿拉伯数字相结合的号码;其中与阿拉伯数字相结合的号码;其中字母代字母代表大类表大类,数字代表大类下的细分数字代表大类下的细分。

        A  马克思主义、列宁主义、毛泽东思想、马克思主义、列宁主义、毛泽东思想、            N  自然科学总论自然科学总论       邓小平理论邓小平理论                                                       O  数理科学和化学数理科学和化学  B  哲学哲学                                                                    P  天文学、地球科学天文学、地球科学  C  社会科学总论社会科学总论                                                    Q   生物科学生物科学  D  政治、法律政治、法律                                                        R  医药、卫生医药、卫生  E  军事军事                                                                    S  农业科学农业科学  F  经济经济                                                                    T  工业技术工业技术  G  文化、科学、教育、体育文化、科学、教育、体育                                  U  交通运输交通运输  H  语言、文字语言、文字                                                        V  航空、航天航空、航天  I   文学文学                                                                    X  环境科学、劳动保护科学环境科学、劳动保护科学  J  艺术艺术                                                                    Z  综合性图书综合性图书  K  历史、地理历史、地理 《《中图法中图法》》分类实例分类实例分解为:分解为:I 文学I2 中国文学I24 小说I247 当代作品(1949年~)I247.5 新体长篇、中篇小说 主题途径主题途径 指用户根据所确定的主题词,利用指用户根据所确定的主题词,利用主主题词表和主题索引题词表和主题索引实施检索的途径。

      实施检索的途径特点特点 通过主题途径获取的信息专指性强,通过主题途径获取的信息专指性强,但查全率较低,对用户的检索知识要求很但查全率较低,对用户的检索知识要求很高 查看徐静蕾在新浪的博客查看徐静蕾在新浪的博客主题途径实例主题途径实例 关键词途径关键词途径      指用表达信息主题内容起指用表达信息主题内容起关键作用的词关键作用的词组或单词组或单词实施检索的途径实施检索的途径特点特点 关键词是一种很灵活的词组或单词,关键词是一种很灵活的词组或单词,它不需规范化词表,使用比较方便它不需规范化词表,使用比较方便 关键词途径实例关键词途径实例§小新想学习英语,希望在网上找些与他同小新想学习英语,希望在网上找些与他同样需求的人一起学习、交流样需求的人一起学习、交流提取关键词提取关键词:: 英语、论坛/群/讨论组/博客圈… 注意:注意:    各种检索途径都有自身的优点和缺点,各种检索途径都有自身的优点和缺点,综合利用多种检索途径,能够提高文献查综合利用多种检索途径,能够提高文献查全率,仅用一种途径去查找,难免产生漏全率,仅用一种途径去查找,难免产生漏检。

      检 2.3 检索语言§ 检索语言是用于描述信息系统中信息特征和表达用户信息提问的一种专门语言,是信息存储与检索共同遵循的规则 主题语言主题语言分类语言分类语言标题词语言标题词语言关键词语言关键词语言叙词语言叙词语言检检索索语语言言 2.3.1检索词的提取§检索词提取原则Ø选用各学科的专业术语,不能用通俗用语Ø选用意义明确的词汇,不用一般的、通用性的词汇Ø充分利用规范词(叙词或主题词) 提取检索词的方法§提取检索词的方法,通常有:Ø切分Ø删除Ø补充 切分§切分到词¡对课题语句进行切分,即以词为单位划分句子,切分一定要彻底,必须到词为止,同时也要适度,不能因切分而改变语义¡例:基于DSP芯片TMS320DM642开发的虹膜识别系统基于| DSP |芯片| TMS320DM642 |开发|的|虹膜|识别|系统 删除§删除虚词§删除过分宽泛和过分具体的限定词§删除存在蕴涵关系的可合并词例:基于DSP芯片TMS320DM642开发的虹膜识别系统 DSP |芯片| 虹膜|识别| 补充§补充同义词或相关词§补充原词或缩略语¡例:基于DSP芯片的虹膜识别系统 补充DSP的全称:数字信号处理(digital signal processing)¡毫米波,补充MMW 补充§补充同一词的不同拼写Ø例1:虹膜识别:iris recognition 或 iris identificationØ例2:3维、3D§补充同类词Ø例:第四代飞机(第4代飞机):补充典型型号,如F-22、F-35等等。

      §补充限定词Ø一词多义是一个普遍现象,为避免一词多义而导致的误检,应增加限义词,其方法有两种:用逻辑与增加限定词;用逻辑非排除异义词Ø电子科技大学电子科技大学*成都Ø电子科技大学电子科技大学-(西安+杭州) 2.4 计算机信息检索技术计算机信息检索技术§计算机信息检索技术是用户信息需求和文献计算机信息检索技术是用户信息需求和文献信息集合之间的信息集合之间的匹配比较技术匹配比较技术§由于由于信息检索表达式信息检索表达式是用户需求与信息集合是用户需求与信息集合之间匹配的依据,之间匹配的依据,所以信息检索技术的实质所以信息检索技术的实质是信息检索表达式的构造技术是信息检索表达式的构造技术§检索表达式是运用各种检索表达式是运用各种逻辑运算符号逻辑运算符号、、位置位置逻辑算符逻辑算符、、截词符截词符、及其他限制符号等,把、及其他限制符号等,把检索词连接组配起来,确定检索词之间的关检索词连接组配起来,确定检索词之间的关系,准确表达检索课题的内容的算式系,准确表达检索课题的内容的算式 2.4.1 布尔逻辑检索布尔逻辑检索§布尔逻辑检索是用布尔逻辑算符将检索词、短语或代码进布尔逻辑检索是用布尔逻辑算符将检索词、短语或代码进行逻辑组配指定文献的命中条件和组配次序用以检索出符行逻辑组配指定文献的命中条件和组配次序用以检索出符合逻辑组配所规定条件的记录。

      是计算机检索系统中最常合逻辑组配所规定条件的记录是计算机检索系统中最常用的一种检索方法用的一种检索方法§布尔逻辑组配是现行计算机检索的基本技术,主要通布尔逻辑组配是现行计算机检索的基本技术,主要通过过“与与(and,*)”、、“或或(or,+)”、、 “非非(not,-)”将检索词联络起来 将检索词联络起来  AND[*][&][AND[*][&][空格空格空格空格] ]    A and B 逻辑与A和和B都为真都为真时,结果才为真时,结果才为真 ,即:,即:A*B,逻辑含义用图表示是:,逻辑含义用图表示是: §OR [+][|]   A or B 逻辑或A或或B中只要有一中只要有一个为真时,结果就为真,即:个为真时,结果就为真,即:A+B     NOT[-][^][!]      A not B 逻辑非A为真、为真、B为假时,结果才为真,即:为假时,结果才为真,即:A-B 布尔逻辑运算符的运算次序布尔逻辑运算符的运算次序§括号优先括号优先[与计算机编程中一样与计算机编程中一样](A OR B) AND C NOT D§不同的系统次序有差别不同的系统次序有差别,但总的来说一般次序,但总的来说一般次序为:为:NOT   AND   OR§例例A:查找有关信息检索的非英文文献查找有关信息检索的非英文文献信息信息[information]  检索检索[retrieval] 英文英文[english](信息信息 and 检索检索 ) not 英文英文(information and retrieval) not english 分析实例:分析实例:上海零售业的现状与发展趋势上海零售业的现状与发展趋势上海上海 零售业零售业 现状现状 发展趋势发展趋势上海上海 and 零售业零售业 and (现状现状 or 发展趋势发展趋势) 2.4.2 截词检索截词检索§截词包括后截、中截、前截等。

      用?作为截词截词包括后截、中截、前截等用?作为截词符符(有些系统用有些系统用*),主要包括下列情形:        ,主要包括下列情形:        §截词符截词符?  中截一字符,后截断 中截一字符,后截断n个字符个字符   §如如  wom?n 可以检索出:可以检索出: woman, women §如如 coumput?可以检索出可以检索出Compute,  Computer, Computing,  computable §??  后、中截二字符后、中截二字符   如:如:transplant??可以检索出:可以检索出:transplant、、transplanted、、transplanter§???后、中截三字符后、中截三字符   如:如: comput??? 可以检索出:可以检索出:compute;;computer;;computing  [%] [?][*]§后方一致(前截断)后方一致(前截断):“%国庆国庆” 将检索出所有字段为将检索出所有字段为张国庆张国庆、、欧欧阳国庆阳国庆、、国庆国庆等的记录等的记录     §前方一致(后截断)前方一致(后截断) :如:如:“热电材料热电材料% ”将检索出将检索出热电材料梯度热电材料梯度化化、、热电材料及其梯度化热电材料及其梯度化等的记录。

      等的记录 2.4.3 词位置检索词位置检索§ 位置算符位置算符(W) — with,,(nW)—n with   表示检索算符两侧的词表示检索算符两侧的词不可以不可以颠倒顺序,颠倒顺序,n表示两个词中间可以插入表示两个词中间可以插入<=n个的词个的词如:如:control(1w)system可以检索出可以检索出“control system” “control in system”等的信息等的信息 §位置算符位置算符(N) — near ,,(nN)—n near   表示检索算符两侧的词表示检索算符两侧的词可以可以颠倒顺序,颠倒顺序,n表表示两个词中间可以插入示两个词中间可以插入<=n个的词个的词                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                           如:如:control (N) system可以检索出可以检索出“control system” “system control”等等的信息。

      的信息 §字段算符字段算符(F)(F)--- in the same field    表示检索算符两侧的词必须同时出现在记表示检索算符两侧的词必须同时出现在记录的录的同一字段同一字段内如:如:air  (F) pollution表示表示air与与pollution必必须在同一个字段中出现须在同一个字段中出现 §自然段算符自然段算符(P)(P)--- in the same paragraph    检索表达式为检索表达式为A (P) B,表示它关联的两个,表示它关联的两个概念概念A、、B必须同时在必须同时在同一自然段同一自然段中出现 §句子位置算符句子位置算符(S)(S)---in the same sentence检索表达式为检索表达式为A (S) B,表示它关联的,表示它关联的两个概念两个概念A、、B必须同时在必须同时在同一自然句同一自然句中中出现 2.4.4 字段检索字段检索§针对特定年代、特定类别、特定检索点等作针对特定年代、特定类别、特定检索点等作限制,包括前缀限制符和后缀限制符限制,包括前缀限制符和后缀限制符后缀限制符例如:后缀限制符例如:    /TI 限在题目中查限在题目中查    /AB 限在文摘中查限在文摘中查    /DE 限在叙词标引中查限在叙词标引中查前缀限制符例如:前缀限制符例如:  AU= 限查特定作者限查特定作者  JN= 限查特定刊名限查特定刊名   LA= 限查特定语种限查特定语种  PN= 限查特定专利号限查特定专利号  PY= 限查特定年代限查特定年代 §如在谷歌和百度搜索引擎中的如在谷歌和百度搜索引擎中的检索特定的文献类型检索特定的文献类型: “报告报告  filetype:pdf ”检索指定网址内的信息检索指定网址内的信息: “报告报告site:”        以后会看到一些数据库通常都有年代以后会看到一些数据库通常都有年代/类型等的选择类型等的选择 2.4.5 其它检索的表述其它检索的表述§二次检索二次检索/在结果内检索在结果内检索§精确检索精确检索§模糊检索模糊检索§跨库检索跨库检索/一站式检索一站式检索§扩展检索扩展检索(类似搜索引擎的概念检索类似搜索引擎的概念检索)§一般检索一般检索/高级检索高级检索/专家检索专家检索/命令检索命令检索§还有什么检索还有什么检索? 小结小结§计算机信息检索技术是用户信息需求和文献信息计算机信息检索技术是用户信息需求和文献信息集合之间的匹配比较技术。

      集合之间的匹配比较技术§布尔逻辑检索布尔逻辑检索布尔逻辑检索布尔逻辑检索、、截词检索截词检索截词检索截词检索、、邻近检索邻近检索邻近检索邻近检索、、短语检索短语检索短语检索短语检索、、字段检索字段检索字段检索字段检索§网络信息检索网络信息检索网络信息检索网络信息检索§几乎所有的检索系统都有布尔逻辑检索、截词检几乎所有的检索系统都有布尔逻辑检索、截词检索索(模糊检索模糊检索)和限制检索和限制检索,而不同的检索系统又而不同的检索系统又会有一些特殊的检索技术和功能会有一些特殊的检索技术和功能 2.5 2.5 信息检索流程信息检索流程 信息检索是从确立检索需求到用信息检索是从确立检索需求到用户最终找到所需信息的全过程户最终找到所需信息的全过程 信息检索流程§分析课题§选择数据库§选择检索方式§制定检索策略§评估检索结果,优化检索策略§获取原文 一、分析研究课题Ø明确课题的主题概念Ø课题涉及的学科范围(交叉学科的侧重面等)Ø所需信息的文献类型、语种、年代范围等 二、选择检索工具根据课题内容和数据库的范围和特色确定工具§学科属性学科属性Ø学科一致性Ø权威性§收录范围和特色§检索方法和系统功能§数据库的易获取性 三、确定检索策略Ø提取检索词Ø利用检索算符组配检索词Ø构造检索式§检索式是检索策略的具体表达,由基于检索概念产生的检索词和各种检索算符构成,检索式的好坏决定着检索质量。

      四、评估检索结果,优化检索策略§评估检索结果——Ø记录是否提供你对所研究的课题全面的认识和了解Ø记录是否涵盖部分或某些部分的研究课题Ø记录是否涵盖研究课题所包括的国家或地方的情况Ø记录是否涵盖其它国家或地方的情况 Ø当检索结果显现太多和研究课题不相关的记录、显现太少和研究课题相关的记录或没有和课题相关记录时,必须重新思考并建立检索命题,对检索策略进行优化,进行缩检或扩检 分析相关性 四、优化检索策略§检索细化:缩小检索范围Ø通过浏览结果选择更专指的词Ø运用逻辑与、逻辑非、位置算符进行限定Ø指定检索字段Ø从年代、地理、语言及文献类型上限制 四、优化检索结果§检索扩展Ø对已确定的检索词进行其同义词、相关词、缩写、全称检索Ø利用规范词,进行上、下位词扩检Ø使用截词符Ø利用论文所引参考文献 五、五、 信息检索效果评价信息检索效果评价§检索效果(检索效果(retrieval effectiveness)是指)是指检索系统检索的有效程度,主要从质量、检索系统检索的有效程度,主要从质量、费用和时间三方面衡量费用和时间三方面衡量Ø主要包括主要包括6个方面:收录范围、个方面:收录范围、查全率查全率、、查准查准率率、、响应时间响应时间、用户负担及输出形式。

      其中两、用户负担及输出形式其中两个主要的衡量指标是查全率(个主要的衡量指标是查全率(Recall ratio))和查准率(和查准率(precision ratio),分别用),分别用 R  和和 P 大写字母表示大写字母表示  相关文献 非相关文献 总计 检出文献 a(hit) b(noise) a+b 未检出文献 c(mission) d(rejected) c+d 总计 a+c b+d a+b+d+c查全率查全率(Recall Ratio):         R= a/(a+c) * 100 %查准率查准率(Precision Ratio):    P= a/(a+b) * 100 %查全率查全率=被检出的相关文献篇数被检出的相关文献篇数/数据库中的相关文献篇数数据库中的相关文献篇数%查准率查准率=被检出的相关文献篇数被检出的相关文献篇数/被检出的文献的总篇数被检出的文献的总篇数% 六、获取原文§利用全文数据库直接获取。

      §利用文摘数据库的原文服务§利用馆际互借和文献传递 信息检索流程小结:信息检索流程小结:用户用户信息需求信息需求信息分析信息分析选择检索工具选择检索工具确定检索策略确定检索策略检索匹配检索匹配输出检索结果输出检索结果用户评价用户评价检索结束检索结束满意满意Ø 分析课题与确定检索要求分析课题与确定检索要求Ø 选择检索方式与检索工具选择检索方式与检索工具Ø 确定检索途径和方法确定检索途径和方法Ø 优化检索提问与策略优化检索提问与策略Ø 检索结果的评价检索结果的评价Ø 获取原文获取原文 。

      点击阅读更多内容
      关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
      手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
      ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.