好文档就是一把金锄头!
欢迎来到金锄头文库![会员中心]
电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

西华师范大学信息检索的方法.胡晓.第二章.ppt

112页
  • 卖家[上传人]:wm****3
  • 文档编号:54266058
  • 上传时间:2018-09-10
  • 文档格式:PPT
  • 文档大小:2.83MB
  • / 112 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 二、主题语言构成,在信息检索过程中,查询信息是用各种检索语言的语词(标识)来表达的它们存在这样三种关系: 1.等同关系 2.从属关系 3.相关关系,1.等同关系,指两个或两个以上的词所表达的概念完全相同或基本相同同义关系:所表达的概念完全相同 同义词的形式:规范词和俗称、全称与简称、新词与旧词、正式译名与其它译名等准同义关系:所表达的概念基本相同或相近 形式主要有: 近似词之间(实验、试验) 泛指词与专指词之间(法律制度、司法制度),2.从属关系(上下位关系),在两个概念中,一个概念被包括在另一个概念的外延里,是另一个概念外延的一部分 外延较大的称为上位概念 一系列从属关系的概念,总称为一个概念系例:经济→贸易关系→商品学→食物商品学,就是一个概念系3.相关关系,概念间关系密切,又不同于等同关系和属分关系的一种关系有三种类型: 交叉关系(部分重合关系):一部分外延相重合的概念间的关系 两个交叉概念外延的重合部分往往形成一个新概念这个新概念对原来两个概念中的任何一个来说,都是下位概念 例:“技术”与“经济”外延的重合部分是技术经济学矛盾关系:外延上互相排斥,而外延之和等于其上位概念总和的概念间的关系。

      例:“黑”与“白”其外延之和表示“围棋子颜色”并列关系:也称同位关系是指同一个上位概念之下的几个下位概念间的关系 例:“外国语言”概念下的有“英语、日语、法语”等选取最专指的主题词 在使用关键词检索信息时,除了使用常用的关键词外,还应当使用同义词、近义词作为检索入口,这样才能保证查全率 避免使用“研究”、“探讨”、“论述”、“中国”、“世界”等词作为主题词 尽量使用名词、物体、人名、地名、机构名等作为主题词三、使用主题语言规范,四﹑ 检索途径和检索字段,信息检索系统和检索工具所提供的检索入口常用的包括: 分类途径 主题词/关键词途径 题名途径 著者途径 代码途径 出处途径 时间途径 任意词途径,常用检索途径,1.题名途径:根据文献篇名检索文献的途径 2.著者途径:根据著者姓名检索文献的途径 3.关键词途径:利用关键词索引,根据关键词字顺检索文献的途径 4.主题途径:通过文献的内容主题检索文献的途径主题词是规范化的名词术语,其规范工具是主题词表 5. 分类途径:依照规定的分类表,按文献学科属性查找文献的途径检索字段,不同类型的数据库,检索字段不尽相同不论电子图书、电子期刊及学位论文数据库、还是书目数据库、题录数据库及全文数据库,还是中文数据库、外文数据库。

      其检索字段都各有特点 下面列出的检索字段是它们共同的检索字段由ISBN号可知该书的语种区、出版社、流水号等 如:ISBN 7①-5383②-0276③-X④➀地域号(国家、地区、语言区)其中7代表中国,0和1表示英语区、2是法语区、3是德语区、4是日语区、5是俄语区等 ➁是出版社编号 ➂是该出版社出版的图书种数的流水号 ➃计算机检验位 作用:具有可识别可检验的功能用加权因数10-2分别与ISBN的1-9行数对应相乘,将乘积与校验数值相加,再以模数“11”相除,如被整除就是正确的编号,否则为错误编号 如:ISBN 7 5 3 8 3 0 2 7 6 X 加权 10 9 8 7 6 5 4 3 2 乘积 70+ 45+ 24+ 56+18+ 0+ 8+ 21+ 12 总和 264/11=24(被整除),五、检索效果,1.主题词(关键词)检索及其效果 用主题词(关键词)检索是最常见的做法,简单易行由于用户和检索员想出的主题词极其有限,难以企及众多作者使用的丰富多样的主题词因此使用主题检索很难取得高的查全率和查准率。

      可以借助主题词表等工具例:计算机信息检索的理论与实践,主题词 计算机 信息检索 检索 以“检索”为前缀 检索策略 检索决策 检索方法 检索方式 检索途径 检索技巧 检索效率 检索效果 检索费用 检索法 检索词 检索式 检索工具 检索系统 检索语言 检索技能 以“检索”为后缀 光盘检索 计算机检索 微机检索 机器检索 联机检索 联机目录 国际联机 信息检索 文献检索 数据检索 事实检索 逻辑检索,,含“检”的主题词 机检 缩检 漏检 误检 含“查”的主题词 查全 查准 查新 查找 含“词”的主题词 主题词 关键词 规范词 原文词 入口词,,表达检索途径和检索字段的主题词 分类法 分类检索 主题法 主题检索 主题查找 主题索引 著者索引 与逻辑组配有关的主题词 组配 位置组配 逻辑算符 由此可见用主题词检索很难取得很高和查全率和查准率2.分类检索及其效果 从检中文献的绝对数量、查全率、查准率来看,切题文献特别集中于核心分类号可以说,无论从相对效率还是从绝对数量来说,从分类号途径进行检索的效果较好3.字段检索效果 作者检索及其效果 从作者姓名可以估计误检率的大小 作者的研究兴趣与特定用户的情报需求很难完全吻合 作者队伍宏大,多产作者少 题名检索及其效果 如果用刊名检索,希望从专业刊物上找有用的文章,即使往前追溯好几年,找到几篇有用的文章就很不错了。

      思考:何种检索途径效果更好,在较多的情况下,无论从相对效率还是绝对数量来说,用分类号检索效果较好对一个数据库来说,它采用一个统一的分类法对收录文献进行分类,内容相同或相近的文章被赋予一个统一的分类号第二节 信息检索方法及步骤,1.直接检索法不依靠检索工具,通过浏览或查询原始文献直接获取信息 优点:能明确判断文献所包含的信息是否需要 缺点:内容较少,难以获取全面的文献,费时费力 适用于:课题单一,文献相对集中的信息检索不适合多个主题,文献离散度大的),一、信息检索方法,3.工具法利用检索工具查找信息的一种方法,目前是查找信息中最常用的亦称常用法 顺查法:按年代由远及近地普查一定时间全部文献、查全率高,但费时 例:查检“汶川地震”这一课题 弄清起始时间,即“地震”的产生具体时间 查起,一直查到当前的相关信息为止倒查法:按年代由近及远的查找方法这种方法省时,但不易把握全程,易漏检抽查法:这是一种针对学科发展特点,抓住该学科发展迅速、信息发表最多的年代(信息高峰期),抽出一段时间(几年或几十年),再进行逐年检索的方法例:现当代武侠小说的研究,工具法小结工具法主要依赖检索工具,而未收入检索工具的信息就不能获取。

      运用此法的关键是选好检索工具,否则影响检索效果4.交替法:上述各种检索方法的相互交替使用过程二、信息检索的步骤,分析研究课题,①明确检索目的 ②分析信息检索的特点重点分析信息的内容包含几个主要概念,哪些是次要的概念 ③选择信息检索范围 明确学科或专业的范围 时间范围 地域范围 语言范围 信息类型,选择合适搜索引擎或数据库,每种搜索引擎在查询范围、检索功能等方面各具特色 搜索引擎基本上可以分为网页检索(实际上是网页的完全索引)和分类检索(即目录式搜索引擎)两种 一般来说,如果查找非常具体或者特殊的问题,用网页检索比较合适;如果只浏览某方面的信息、专题或者查找某个具体的网站,分类目录检索会更合适选择搜索引擎时应注意,1.注意数据类型和时间 综合性数据或专题数据 分类检索还是关键词(网页)查找 数据保存的最长时间,,2.二次检索 又称进阶检索是在第一次检索的范围内增加限定词的检索 对于再次检索,可以重新开始,在整个索引中检索,也可限定在检索结果内,优化检索确定检索词,(1)使用同义词、近义词 目前,搜索引擎的智能化程度较低,意义上与关键词相近或一致的内容容易被漏检,因而需要使用同义词、近义词以尽可能全面覆盖检索范围。

      2)使用限定词:通过对关键词的年代、语种、数量、学科等的设定,使检索结果逼近用户需求3)检索力求特殊化、具体化 尽可能使用仅在所需的内容中存在的较特殊的词语,明确查询范围初步检索结果(调整检索策略),检索过程是一个动态的随机过程,在初检时,会不可避免地产生一些和检索目标相差甚远的现象如检索范围过宽、偏窄或误检时,有必要修正检索策略,调整检索手段,进行新一轮的循环检索,从而实现检索目标的完善获取原始文献,这是检索过程的终结,也是进行信息检索的最终目的要进行一次成功的信息检索活动,除了要掌握一般的检索知识和方法外,重要的是要培养综合性的检索能力这与广泛的知识积累,加强语言文字的阅读理解能力,注重调查研究是分不开的注意早期的知识积累 注意尽量利用各种有利条件,从最简捷途径入手 要善于交叉补充 查阅信息需做好记录 培养“快速”阅读的习惯和能力,第三节 网络信息检索的基本方法,一、信息检索常用技术,(一)布尔逻辑检索 (Boolean Logic) 逻辑检索是一种比较成熟,较为流行的技术,现代的情报检索系统多采用这种技术 布尔逻辑运算符 逻辑与 AND (*) 逻辑或 OR (+)(┃) 逻辑非 NOT, AND NOT(-),,1.逻辑与 用AND或(*).检索词A,B用逻辑"与"连,即A AND B(A*B),则表示同时含有这两个检索词才能被命中。

      例:检索“儿童教育”文献 检索式为:child AND education,2.逻辑或 用OR或 (+)(|)表示只要含有其中一种检索词或同时含有这两个检索词的文献都将被命中例:检索“计算机”或“机器人”方面的文献检索逻辑式为:computer OR robot,3.逻辑非 用NOT, (AND NOT,BUT NOT)(或-)表示表示被检索文献在含有检索词A而不含有检索词B时才能被命中例:检索“能源”方面的文献,但涉及“核能”方面的文章不要检索逻辑式可表示为energy NOT nuclearenergy –nuclear NOT可以缩小检索范围,只有绝对确信要从检索结果中排除一个术语或短语时才用它否则,会将有用的资料排除在外布尔逻辑运算符的运算顺序:NOT-AND-OR,可用括号改变若有括号,则括号在先,这同算术运算中的四则运算相似 大多数网络搜索引擎都支持布尔逻辑运算,但表现形式不尽相同,有的用AND,OR,NOT(有的工具要求大写,有的要求用小写,有的则大小写均可有的用符号(+ 、-、*)代替,还有的直接把布尔逻辑运算符隐含在菜单中 例: 查找美国信息资源管理政策有关的文献 information resources management AND policy AND american,用布尔逻辑符AND 连接2个以上词,青少年 adolescents OR adolescence OR teens OR teenagers OR young adults OR college students,用布尔逻辑符OR连接2个以上的词,含有草莓、香草口味,但不含巧克力口味的任何一种的冰淇淋。

      ((strawberry OR vanilla ) NOT chocolate) AND icecream,用布尔逻辑符NOT 连接2个以上词,文献记录中词语的相对次序或位置不同,所表达的意思可能不同,而同样一个检索表达式中的词语相对次序不同,其表达的检索意图也不一样布尔逻辑运算符有时难以表达某些检索课题确切的提问要求位置算符检索是用些特定的算符(位置算符)来表达检索词与检索词之间的关系二)邻近检索(Proximity Search) 又称位置算符检索,,位置算符 WITH(W) 前后词的顺序不能颠倒,也不能插入词,但允许有空格或标点符号例:information W retrieval可检索出information retrievalinformation-retrieval,,(Wn)-Wordsn,(Wn)表示在此算符两侧的检索词之间允许插入n个(最大数量)实词或虚词,两个检索词的词序不能颠倒例:electronic W1 resources 可检索出electronic resources(电子资源)electronic information resource。

      点击阅读更多内容
      关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
      手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
      ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.