好文档就是一把金锄头!
欢迎来到金锄头文库![会员中心]
电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

情报检索的原理与技术完整.ppt

51页
  • 卖家[上传人]:W****
  • 文档编号:252200752
  • 上传时间:2022-02-10
  • 文档格式:PPT
  • 文档大小:374.50KB
  • / 51 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 第二章 情报检索的原理与技术日本经济发展的启示日本人均国民生产总值: 1945年只有20美元, 1955年为200美元, 1965年为1000美元, 1980年为10000美元, 1982年为12000美元, 1989年为16100美元, 1991年为27326美元(当年美国是22550美元)且仅次于瑞士(35100美元), 1994年为34630美元,居世界银行评出的十大富国的第三位(十大富国:卢森堡、瑞士、日本、丹麦、挪威、美国、德国、奥地利、冰岛、瑞典) 数据来源:远东经济评论(Economic Review of Far East) 日本是第二次世界大战战败国,而且地处孤岛,资源缺乏,但它只花了20年的时间就令全国经济获得飞速发展,原因何在? 最重要的一条就是每个国民及整个国家都竭尽全力地追求信息,走一条“引进、消化、综合、创新、返销、赚钱”的富国之路 资料显示,1952年日本出口总额只有8亿美元,由于它在战后花了20年时间和57亿美元购买外国的情报和专利,大大促进了经济的发展,到1990年,日本的出口总额竟达到2860亿美元,1995年则达到4400亿美元,出口总额仅次于德国、美国,居世界第三位。

      日本人收集情报信息的手段多种多样,而且具有独创性每年在近千种科技文献、政府报告和报刊上获得美国有价值的论文约7万篇,内容几乎涉及所有的科技领域日本企业在美国的大学情报站有上千个,这些情报站多是高薪聘用美国的专家为日本服务的 国际情报公司(International Information Company, IIC)一位人士说,日本人收集情报、信息像梭子鱼一样,极其厉害,什么都不放过 第一节 情报检索原理第二节 情报检索技术第一节 情报检索原理一情报检索概念二. 情报检索类型三情报检索语言四情报检索工具 1.情报检索 “检索”一词源自英文“Retrieval”,其含义是“查找” 将大量相关情报按一定的方式和规律组织和存储起来,形成某种情报集合,并能根据用户特定需求快速高效地查找出所需情报的过程称情报检索一情报检索概念总结: 从大量的信息情报集合中查找出所需情报的活动、过程与方法狭义) 将情报信息按照一定方式组织、存贮起来,并针对用户需求的需要查找出所需情报的过程广义) 2.情报检索原理 存贮过程:搜集情报、筛选加工、形成检索工具、组成检索系统 检索过程:明确需求、分析课题、利用检索工具、得出检索结果主题分析文献情报内容用户情报需求主题概念主题概念情报检索语言标识标识情报检索系统结果主题分析 输入检索 1. 根据检索内容分类 文献检索(Document Retrieval) 数据检索(Data Retrieval) 事实检索(Fact Retrieval)二. 情报检索类型 2.根据检索手段分类 手工检索 特点是方便、灵活、判别直观,可随时修改检索策略,查准率较高。

      不足的是检索速度较慢,漏检现象比较严重,不便于进行复杂概念课题的检索 计算机检索 特点是速度快、效率高、查全率较高不足之处是成本高、费用大,查准率通常不尽如人意 1. 检索语言的概念 情报检索语言是根据检索需要而创制的人工语言,也称检索标识系统它专门用于各种手工和计算机情报检索系统,其实质是表达一系列概括文献内容的概念及其相互关系的概念标识系统三情报检索语言 2. 检索语言的类型 检索语言的种类很多,按其构成原理一般可分为分类语言(又称分类法)、主题语言和代码语言三种 其中分类语言又有体系分类法和组配分类法的区别,主题语言又有标题词语言、叙词语言和关键词语言的区别 检索语言 表达文献情报主题概念 表达文献情报外部特征分类语言 主题语言 标题词语言单元词语言 叙词语言关键词语言书名、刊名、篇名等 著者(作者)名称号码(如报告号、专利号、文献序号)文献类型 1. 检索工具的概念 检索工具是用以报道、存储和查找文献信息的一切工具与设备 它以各种类型的原始文献为素材,在广泛收集、筛选、分析的基础上,用选定的检索语言进行描述和标引,并按特定规则组织编排而成的二次文献四情报检索工具(1)按检索手段划分 手工检索工具 机械检索工具 计算机检索工具2. 检索工具的类型 (2)按载体形态划分 书本式检索工具、 卡片式检索工具、 缩微式检索工具、 磁性材料检索工具(磁盘、光盘等)(4)按著录对象和方式划分 目录型检索工具 题录型检索工具 文摘型检索工具 参考型检索工具 搜索引擎 (3)按收录范围划分 综合性检索工具 专业性检索工具 专题性检索工具 单一性检索工具第二节 情报检索技术一. 传统检索技术二. 现代检索技术三. 检索策略 传统意义上的检索技术包括布尔逻辑检索、位置检索、截词检索、限制检索等,不同的数据库使用该技术的情况各不相同,具体使用时应结合实际情况选用。

      一传统检索技术1. 布尔逻辑检索(Boolean Logic Retrieval) 通过对一些简单概念检索词的组配,表达一个复杂概念表达概念间的并列关系、相交关系和排斥关系,分别是逻辑或(or)、逻辑与(and)、逻辑非(not) (1)逻辑“或” “or”或“+” “或”用于组配具有同义或同组概念的词,如同义词或近义词用于并列关系,可以扩大检索范围,防止漏检,增加查全率 检索式写作 A or B 或 A + B 表达意义 数据库中凡有检索词A或者B,或同时有A和B的记录均为命中记录 (2)逻辑“与” “and”、“*”或“” “与”用于概念交叉和限定关系的组配可以缩小检索范围,减少命中文献量,提高查准率 检索式写作 A and B 、 A * B 或A B 表达意义 数据库中同时有检索词A和B的记录才为命中记录 (3)逻辑“非” “not”或“” 表示排除某些不需要的和影响检索结果的概念,基本作用是缩小检索范围,提高查准率 检索式写作 A not B 或 A - B 表达意义 数据库中凡有检索词A而不含检索词B的记录才为命中记录注意: 布尔逻辑检索算式优先执行顺序通常是NOT、AND、OR,在有括号的情况下,先执行括号内的运算,在多层括号时,先执行最内层括号的运算。

      布尔逻辑检索比较容易掌握,但使用不当会造成大量误检和漏检,尤其是非运算符的运用应特别小心 2. 位置算符检索 位置检索也叫邻近检索,是用一些特定的算符(位置算符)来表达检索词与检索词之间的邻近关系,并且可以不依赖主题词表而直接使用自由词进行检索的技术方法 位置关系包括词距(单词间的间隔)和词序(单词的先后顺序)两个方面 (1)(W)或() (W)算符是With或word 的缩写, 表示两侧的词必须紧密相连,次序不得颠倒,中间不得有其他词或者字母(两个词之间可以有一个空格、或一个标点符号、或一个连接号) 例如:CD()ROM (nW)n Word n为一个数字,表示算符两侧的检索词间允许插入n个实词或虚词,顺序不能颠倒 例如:price (2w) inflation (2)(N) (N)算符是Near的缩写,表示算符两侧的词必须紧密相连,中间不得有其他字符,但词序可以颠倒 (nN) nNear n是一数字,表示在两个检索词之间最多可以插入n个单词,且词序可以颠倒 (3)(F)Field同字段检索,检索词必须同时出现在同一字段中 (4)(S)Subfield或sentence ,同子字段或同句检索,参加检索的两个词必须出现在同一个自然句中。

      3. 截词检索 由于西文的构词特性,在检索中经常会遇到名词的单复数形式不一致;同一意义的词,英、美拼法不一致;词干加上不同性质的前缀和后缀就可以派生出许多意义相近的词等 截词是在检索词的某个局部截断,采用截词符构成模糊检索,防止漏检 截词符(通配符) ? ? ? * 意义 截词检索具有逻辑or 的运算特性 (1)按照截词的位置 后截断:将截词符号放在一个字符串的右方,满足截词符左方所有字符的记录均为命中记录 性质上讲,是一种前方一致的检索 例如 market* (market or marketable or marketing or ) 199? (1990-1999) 前截断:将截词符号放在一个字符串的左方,是一种后方一致检索 中截断:又称中间屏蔽法,用截词符屏蔽词中不同字符的方法,中间一致检索 (2)按照截取字符的数量 有限截断:是在检索词后截去有限的字符 例如 computer? (computer or computers) computer? 三个字符 无限截断:在检索词后跟任意个字符均为命中文献 例如 comput* (computer or computing or computered )4. 字段限制检索 字段限制检索是限定检索词在数据库记录中的一个或几个字段范围内查找的一种检索。

      在检索系统中,数据库设置的可供检索的字段通常有两种:表达文献主题内容特征的基本索引字段和表达文献外部特征的辅助索引字段基本索引字段包括篇名、文摘、叙词、自由标引词四个字段;辅助索引字段包括除基本索引字段外的所有字段,如著者字段、著者机构字段、文献类型字段、语种字段等 基本索引字段一般用后缀表示,如 medicine/TI,或medicine In TI ;辅助索引字段一般用前缀表示,如AU=Smith D. ,再如PY=2005 AB Abstract文摘 TI Title 题名 AD Address of Author著者地址 AU Author著者 CP Country of Publication出版国 LA Language of Article文献语种 PT Publication Type出版物类型 PY Publication Year出版年 检索式 business information /TI or business information in TI 表示检索在题名中出现business information 的所有文献 分析 review in TI AU=Gordon and PY=2005 表示检索Gordon所写的2005年发表的所有文献。

      分析 PT=patent and LA=Chinese 5词组检索 词组检索是将一个词组(通常用双引号“ ”括起)当作一个独立运算单元,进行严格匹配,以提高检索的精度和准确度,它也是一般数据库检索中常用的方法 词组检索实际上体现了邻近位置运算(Near运算)的功能,即它不仅规定了检索式中各个具体的检索词及其相互间的逻辑关系,而且规定了检索词之间的临近位置关系 1. 全文检索 全文检索系统是为人们获取文献原文而不仅仅是文献线索而产生的一种现代检索技术近年来,全文检索的应用范围不断拓展,它与出版技术的结合,使各种科技期刊、专利文献、新闻报纸等全文数据库应运而生一些年鉴、手册、百科全书、参考书等也成为全文系统处理的对象,有些著名的文学作品也可以转换成全文数据库二. 现代检索技术2. 多媒体检索 多媒体检索技术是把文字、声音、图像(形)等多种信息的传播载体通过计算机进行数字化加工处理而形成的一种综合技术 视频检索这种检索要在大量的视频数据中查找所需要的视频片断如关于卫星云图的变化、人体内器官的运作等 声音检索包括:用序号查找一段声音;以匹配方式检索给定样值的声音;对声音文本的检索等 图像检索。

      它通过分析图像的内容,如颜色、纹理等建立特征索引,并存储在特征库中用户查询时,只要把自己对图像的模糊印象描述出来即可在大容量图像信息库中找到所要的图像 3. 超媒体超文本检索 传统文本都是线性的,用户必须顺序阅读超媒体与此不同,它是一种非线性的网状结构用户要沿着交叉链选择阅读自己感兴趣的部分早期的超文本以文字为主,随着多媒体的发展,开始容纳包括图像(形)、视频、声频等各种动、静态信息,统称为超媒体系统或超级文本系统 从信息组织角度看,超媒体系统是一个由节点和表达节点之间关系的链构成的网状数据库 所谓检索策略就是在分析检索提问。

      点击阅读更多内容
      关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
      手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
      ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.