好文档就是一把金锄头!
欢迎来到金锄头文库![会员中心]
电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

第2讲检索语言与检索技术-课件PPT.ppt

80页
  • 卖家[上传人]:工****
  • 文档编号:589659397
  • 上传时间:2024-09-11
  • 文档格式:PPT
  • 文档大小:4.53MB
  • / 80 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 第二讲第二讲 检索语言与检索技术检索语言与检索技术 信息环境改变了,我们痛并快乐着22021/8/26 •德国柏林图书馆门前有这样一段话:“这里是知识的宝库,你若掌握了它的钥匙,这里的全部知识都是属于你的这里所说的“钥匙”即是指信息检索的方法,包括信息检索语言和信息检索技巧 32021/8/26 主要内容主要内容•信息检索语言信息检索语言•信息检索途径信息检索途径•信息检索技术信息检索技术•信息检索一般步骤信息检索一般步骤 •我们在社会生活中必须学习运用自然语言,学程序设计必须掌握各种程序设计语言,同理,学检索就必须对“检索语言”有较为深入的了解52021/8/26 信息检索语言•检索语言是根据信息检索的需要而创造的专供信息存储和信息检索使用的规范化的一种人工语言,是沟通信息存储和信息检索的一种约定语言62021/8/26 信息检索语言•基本功能–对文献信息内容(及某些外表特征)加以标引;–对内容相同及相关的信息加以集中或揭示其相关性;–对大量信息加以系统化或组织化;–便于将标引用语和检索用语进行相符性比较72021/8/26 信息检索语言•整个信息检索过程刻画为三个方面:即信息的存储与组织、信息的检索实施、信息的展示。

      其中的关系如下图所示:82021/8/26 信息检索对象•数据库编排结构:文档-记录-字段o文档(file):数据库中一部分记录的有序集合o记录(record):数据库的信息单元,每条记录描述了一个原始信息的外部特征和内部特征o字段(field):比记录更小的单位,是组成记录的数据项目92021/8/26 存取号存取号基本索引字段基本索引字段辅助索引字段辅助索引字段102021/8/26 基本索引字段基本索引字段表达文献内容特征表达文献内容特征辅助索引字段辅助索引字段表达文献外部特征表达文献外部特征112021/8/26 –检索语言有多种分类方式,其中就其描述文献的有关特征而言,可分为描述文献外部特征的“外部特征语言”和描述文献内容特征的“内容特征语言”,这两大范畴的语言又可细分为若干具体的语言检检索索语语言言的的类类型型表述文献外表表述文献外表特征的语言特征的语言表述文献内容表述文献内容特征的语言特征的语言题名题名责任者责任者号码号码… …分类语言分类语言主题语言主题语言关键词关键词标题词标题词单元词单元词叙词叙词122021/8/26 •分类语言–是一种用“分类号”来表达各种概念,将各种概念按学科性质进行系统排列。

      它集中体现学科的系统性,反映事物的从属、派生关系,由上至下,从总体到局部层层展开,是一种等级体系由类目(语言文字)及其相对应的类号(字母、数字或其组合)来表达各种概念,构成一个完整的分类类目表–如《中国图书馆分类法》、《国际专利分类表》等都属于分类检索语言132021/8/26 中图法 所谓图书分类图书分类是按照图书内容的学科性质或其他特征将馆藏图书予以揭示并分门别类组织排列的一种手段图书分类法则是将许多类目根据一定原则组织起来,通过标记符号代表各级类目和固定先后次序的分类体系它是图书馆收藏并揭示馆藏文献的依据我馆文献采用《《中国图书馆图书分类法中国图书馆图书分类法》》进行分类排架 中图法简表 •《中国图书馆分类法》子类目隶属与派生关系为例: T 工业技术 TP 自动化技术、计算机技术 TP3 计算技术、计算机技术 TP31 计算机软件 TP311 软件工程 TP311.1 程序设计 TP311.11 程序设计方法 TP311.12 数据结构 TP311.13 数据库理论与系统 TP311.132 数据库系统:按类型分 TP311.132.1 层次数据库 TP311.132.2 网状数据库 TP311.132.3 关系数据库 TP311.132.4 面向对象数据库… … 级级级级派派生生层层层层隶隶属属信息存储过程:信息存储过程: 信息主题信息主题分分类号类号信息检索过程:信息检索过程: 分类号分类号信息信息主题主题172021/8/26 •《《中图法中图法》》从大类到小类,层层展开,不断细分,形成完整的从大类到小类,层层展开,不断细分,形成完整的知识体系。

      知识体系•举例:举例: 要查找要查找““研究研究《《红楼梦红楼梦》》””方面的文献,我们应该遵循以下步方面的文献,我们应该遵循以下步骤:骤: 第第1 1步:步:““研究研究《《红楼梦红楼梦》》””所属类别应该是社会科学中的所属类别应该是社会科学中的““文学文学””((I I大类);大类); 第第2 2步:通过见表进一步查找所需文献的二级分类号和类目名步:通过见表进一步查找所需文献的二级分类号和类目名称,即称,即 I2 I2 中国文学中国文学182021/8/26 第第3 3步:通过主题逐级详细查阅便可找到其准确的类号和类名:步:通过主题逐级详细查阅便可找到其准确的类号和类名: I207 I207 文学评论和研究文学评论和研究 I207.4 I207.4 小说研究小说研究 I207.41 I207.41 古代小说研究古代小说研究 I207.411 I207.411 《《红楼梦红楼梦》》研究与评论研究与评论 所以所以““研究研究《《红楼梦红楼梦》》””方面的文献的分类号即为方面的文献的分类号即为I207.411 I207.411 第第4 4步:利用标引的结果(分类号步:利用标引的结果(分类号I207.411 I207.411 )就去查找馆藏,图)就去查找馆藏,图书馆书库里的书都是按分类号进行排架,同学们在检索到这本书书馆书库里的书都是按分类号进行排架,同学们在检索到这本书的信息后,根据分类号在书库中找到它的位置。

      的信息后,根据分类号在书库中找到它的位置 192021/8/26 索书号是图书馆赋予每一种馆藏图书的号码这种号码具有一定结构并带有特定的意义在馆藏系统中,每种图书的索书号是唯一的,可借以准确地确定馆藏图书在书架上的排列位置,是读者查找图书非常必要的代码信息在通常情况下,索书号由两部分组成 :分类号+流水号分类号流水号V2-49/1030-4 2、图书在书架上的排序:由左至右,由上至下 如何通过索书号找到图书?1、索书号的排序:以单个字母或数字为单位,先左后右,先横后点,先上后下 222021/8/26 OPAC使用——简单检索 书目信息: 题名作者出版社出版年代索书号 我的图书馆 30读者荐购读者荐购 •主题语言–主题语言不像“分类语言”那样需要借助于分类号来标识信息,而是直接以代表信息内容特征和科学概念的主题词来表达各种概念,并将这些概念词按字顺方式组织起来的一种检索语言–特点:•按主题(信息所论述涉及的事物)集中•以自然语言作为标识符号 ,概念与标识合二为一,不存在转换工序–主题语言又可进一步细分为关键词语言、标题词语言、单元词语言、叙词语言以及。

      312021/8/26 ①关键词语言是直接选用文献中的自然语言作基本词汇,并将那些能够揭示文献题名或主要意旨的关键性自然语词作为关键词进行标引的一种检索语言 例如:“国际联机检索概论”中的“国际联机检索”、“国际联机”、“联机”、“检索”都是能描述这篇文献主题的关键词,都可以作为检索词322021/8/26 ② ②标题词语言标题词语言是最早使用的一种主题语言,它以规范化的自然语义作为标识,来表达信息涉及的主题概念,并将全部标识按字母顺序排列 例如:一篇文章用“微型计算机”这个术语来叙述它的研究对象,另一篇文章用“微型电脑” 来叙述,第三篇文章用“微机” 来叙述,虽然都表示同一概念,这时就不能直接用“微型电脑”或“微机”来作标题词,这三篇文章都必须用用““微型计算机微型计算机””作标题词作标题词(实际上是“主标题词”,根据主题词表决定)332021/8/26 ③ ③单元词语言单元词语言是在标题词语言基础上发展起来的一种规范化检索语言单元词单元词(uniterm)是一种最基本的、不能再分的词汇单位,亦称元元词词它也是从文献内容中抽出,并经过规范化处理,代表一个独立的概念。

      例如:““计算机计算机””、、““软件软件””、、““固相固相””、、““相相”” 342021/8/26 ④ ④叙词语言叙词语言是以自然语言为基础,以概念组配为基本原理,并经过规范化处理,表达主题的最小概念单元,作为信息存储和检索依据的一种检索语言只有经过规范化处理,满足一词一义一型要求的词才能称为叙词(descriptor) 例如:在叙词语言的检索系统中用““计算机计算机”这个词进行检索,即使题名字段没有“计算机”这个词(如有同义词“电脑”)的文章,也可以被检索出来,不必进行同义词替换同义词替换即可查全352021/8/26 •主题语言(标题词、单元词、叙词)的规范化处理:主题语言(标题词、单元词、叙词)的规范化处理: ①①词义规范:词义规范:对同义词(如计算机与电脑)、近义词(如实验与试验)、学名和俗名(如发动机与马达)、不同译名(激光与莱塞)、简称与全称(如中国与中华人民共和国)、不同写法(如X射线与爱克斯射线)等进行选择;对多义词、同形异义词进行限定说明,如杜鹃既表示一种鸟,也表示一种花,就须限定说明为,杜鹃(动物)、杜鹃(植物)362021/8/26 ②②词类规范:词类规范:即确定词类的范围。

      能用作叙词的词类一般要求控制在具有实质意义的名词或动名词的范围之内③③词形规范:词形规范:即对词的繁简体、词序、字母符号等的规定372021/8/26 著录者需要使用该词表、规范进行著录,用户检索时可以使用词表著录者需要使用该词表、规范进行著录,用户检索时可以使用词表提供的规范词提供的规范词举例: 《汉语主题词表》是我国第一部大型综合性主题词表全表共分3卷10分册,由主表、词族索引、范畴索引、英汉对照索引等组成是我国应用最广的一部主题标引和检索的工具其款目(条目)格式如下: Xian XiangGuan(款目主题词的汉语拼音) 显象管(款目主题词) [56CE] Picture tube(款目主题词的英文译名)同义 D 电视显象管 监视管下位 F 彩色显象管 固体显象管 黑白显象管 上位 S 电子束管词族的族首词 Z 电子管相关的其他叙词 C 显示管 指示管382021/8/26 其他检索语言•自然语言自然语言是直接从原始信息中抽取出来的未经规范化处理,用以揭示信息主题概念的检索语言。

      抽取出来的词包括自由词、关键词、事物名称、科学术语、俗名、商品型号和缩写等,及时跟上事物发展,准确表达事物新概念,选词灵活方便,专指性强,标引和检索速度快等优点392021/8/26 •主题语言和分类语言的区别–①①揭示对象不同揭示对象不同•主题法揭示文献论述的具体事物或主题概念主题法揭示文献论述的具体事物或主题概念(“(“是什么是什么””) );;•分类法揭示的是文献内容的学科属性分类法揭示的是文献内容的学科属性(“(“属什么属什么””) )–②②使用标识使用标识•主题法直接用词语表示主题法直接用词语表示文献主题文献主题;;•分类法则以抽象化的分类法则以抽象化的类目代号类目代号——“——“分类号分类号””作为文献内作为文献内容标识和检索标识容标识和检索标识 •前者直观易懂,后者较简洁,但也较费解前者直观易懂,后者较简洁,但也较费解402021/8/26 •主题语言和分类语言的区别主题语言和分类语言的区别–③③排列方式排列方式•主题法按词语主题法按词语字顺排列字顺排列,如同词典,易学易查;,如同词典,易学易查;•分类法按分类法按分类号分类号( (学科或专业门类的代号学科或专业门类的代号) )排列,系统性较排列,系统性较强,但不熟悉有关分类表则难以有效地利用强,但不熟悉有关分类表则难以有效地利用. .–④④用途用途•主题法较适合于对单篇文献的组织和检索,且更适于主题法较适合于对单篇文献的组织和检索,且更适于计算计算机机组织和检索组织和检索; ;•分类法则比较适合于分类法则比较适合于图书或文集图书或文集的组织和检索的组织和检索. .412021/8/26 •检索途径:又称检索点或检索入口,包括信息源外表特征与内容特征–外表特征:从构成文献信息源的载体、符号系统和记录方式三要素中提取出的特征构成。

      –内容特征:由分析构成文献信息源的信息内容要素的特征与学科属性形成信息检索途径422021/8/26 内容特征途径内容特征途径主题途径主题途径代码途径代码途径分类途径分类途径 外表特征途径外表特征途径题名途径题名途径责任者途径责任者途径机构名称途径机构名称途径编号途径编号途径其他途径其他途径432021/8/26 文献外部特征的检索途径 :题名途径 即直接利用图书的书名、期刊的刊名、标准文献的标准名来查找所需信息的方法途径著者途径 即从个人著者名或者团体著者名出发,查找他们所发表或者主持的文献代码途径如专利号、标准书号(ISBN)、标准刊号(ISSN)、馆藏号等在已知文献特定代码的前提下,利用代码途径检索文献是最为快捷的方法之一442021/8/26 文献外部特征的检索途径 :机构名称途径主要包括作者所在的单位,以及图书期刊的出版发行单位等信息源类型途径即直接利用信息资源的类型作为检索入口的方法其他途径根据某些信息的特殊标识进行检索的方法,如化学分子式,地域名称等452021/8/26 内容特征检索途径 分类途径 指按照文献所属的类别来检索文献的途径。

      优点:能够从学科或专业角度广泛地获得较系统的文献,能够达到较高的查全率 主题途径指通过能表达文献内容的主题词来检索文献的一种途径主题检索的实施,需要用到各种主题词索引,如主题索引、关键词索引、叙词索引等优点:主题途径表达概念直接、准确、灵活,适合于检索复杂、专深或较为具体的文献资料462021/8/26 内容特征检索途径关键词途径 把对信息主题内容起关键作用的词抽取出来,并利用它来检索文献的一种途径优点:由于关键词是一种很灵活的单词或词组,它不需规范词表,使用比较方便在计算机检索系统中应用比较广泛472021/8/26 信息检索技术信息检索技术482021/8/26 检索题目的词语切分检索技术492021/8/26 常用的检索技术502021/8/26 布尔逻辑检索 通过布尔逻辑运算符来表达 检索词与检索词间逻辑关系512021/8/26 布尔逻辑运算符检索包含所有关键字的数据TOPIC: “stem cell*” AND lymphoma返回含有词语“stem cell”及“lymphoma”的文档,等效于检索“stem cell*” lymphoma检索的数据中必须至少含有一个所给关键字。

      可用来检索变体及同义词TOPIC: aspartame OR saccharine OR sweetener* 返回至少含有一个关键字的文档排除含有某一特定关键字的数据TOPIC: aids NOT hearing返回含有“aids”的文档,排除含有“hearing”的部分522021/8/26 用截词符号表示检索词的某一部分允许有词形的变化,广泛用于西文检索 截词检索截词检索532021/8/26 截词符/通配符符号符号意义意义*零个或多个字符gene*-->gene, genetics, generation$零个或一个字符colo$r -->color, colour?只代表一个字符en?oblast -->entoblast, endoblast542021/8/26 ◆有限截断“?”◆无限截断“*”organi?tion:organization;orgnasation…econom*:economic;economics;economism;economize…552021/8/26 右截词中间截词左截词physic*:physic physical physician…Defen?e:defence defense…*magnetic:Magnetic;electro-magnetic…562021/8/26 通常用双引号“ ”将一个词组括起,作为一个不可分的检索整体来进行检索 短语检索短语检索572021/8/26 近似运算符关键字检索关键字检索希望精确地检索某个短语,将其放置在引号内。

      范例:““stem cell”stem cell”SameSame不同关键字必须在同一句话内文句”通常是一个有限长度的字串,关键字前后顺序不限在检索时,“SAME”运算符将检索含有所有关键字且这些关键字均出现在同一句话中的文档范例: stem SAME cellstem SAME cell582021/8/26 592021/8/26 •运用位置算符表示两个检索词间的位置邻近关运用位置算符表示两个检索词间的位置邻近关系,又叫邻接检索这种检索技术通常只出现系,又叫邻接检索这种检索技术通常只出现在西文数据库中,在全文检索中应用较多在西文数据库中,在全文检索中应用较多•如果说布尔逻辑算符是表示两个概念之间的逻如果说布尔逻辑算符是表示两个概念之间的逻辑关系的话,位置算符表示的是两个概念在信辑关系的话,位置算符表示的是两个概念在信息中的息中的实际物理位置关系实际物理位置关系 位置算符检索位置算符检索602021/8/26 算符算符 功能功能 表达式表达式 检索结果检索结果 W, with两两词词相相邻邻,,按按输输入入时时顺序排列顺序排列(也有数据库允许顺(也有数据库允许顺序颠倒)序颠倒) Education(W)school, 或或Education with school Education schoolEducation schools((school of educationschools of education)) nW 同同上上,,两两词词中中间间允允许许插入插入n个词个词Education (1W) school Education schoolEducation schoolsEducation and music schoolSchool of continued education Pre 两词相邻,按输入顺两词相邻,按输入顺序排列序排列 Education Pre school Education schoolEducation schools N, near两两词词紧紧密密相相邻邻,,中中间间不不能能插插入入其其他他词词,,顺顺序可以颠倒序可以颠倒 Education (N) school, 或或Education near school Education schoolEducation schoolsSchool of education nN 同同上上,,两两词词中中间间可可以以插入插入n个词个词 Education (1N) school Education schoolSchool of educationEducation and music school F 两个词同在一个字段两个词同在一个字段中中Education (F) school例如同时出现在题名或文摘字段中例如同时出现在题名或文摘字段中Same 两个词同在一个段落两个词同在一个段落中中 Education Same school 同时出现在一个段落中同时出现在一个段落中612021/8/26 限域检索限域检索 如:如:rice in ti (只在题目字段中查找文献)(只在题目字段中查找文献) rice in de(只在主题词字段中查找)(只在主题词字段中查找) rice in ab(只在文摘字段中查找)(只在文摘字段中查找) 利用利用字段代码字段代码来限制检索词出现的来限制检索词出现的字段,以提高检索速度和命中率。

      字段,以提高检索速度和命中率622021/8/26 信息检索一般步骤632021/8/26 选择信息来源五步走五步走确定检索题目分析检索题目实施检索调整检索642021/8/26 检索结果太少检索结果太多652021/8/26 检索结果太少扩扩展展检检索索词词同义词上位词和下位词相关词参考文献662021/8/26 检索结果太少扩扩展展检检索索词词同义词意义相近、相同;缩写与全称、学名与俗名、名称的更迭、数字与日期的不同表达方式;英文关键词词形变化(人称、数、时态、语态),英美的不同拼写等等672021/8/26 检索结果太少扩扩展展检检索索词词同义词组织与公司、社团、联盟、合伙、机构(同义词)《飘》与《乱世佳人》(不同译名)乙酰水杨酸与阿司匹林(学名与俗名)1930s与nineteen thirties(年代的不同表达)Harbin Engineering University与HEU(全称与缩写)color与colour(英美不同拼写)682021/8/26 检索结果太少扩扩展展检检索索词词上位词与下位词植物—花—鲜花音乐—流行音乐—爵士乐法律—民法—婚姻法,继承法692021/8/26 检索结果太少扩扩展展检检索索词词相关词与检索词有联系的、但不是同义词、上位词和下位词。

      702021/8/26 检索结果太少扩扩展展检检索索词词相关词glass-ceiling(玻璃天花板,意指在公司企业和机关团体中,限制女性晋升到某一职位以上的障碍)相关词有:promotion(升迁) discrimination(性别歧视)personnel management(个人管理)712021/8/26 检索结果太少扩扩展展检检索索词词参考文献722021/8/26 检索结果太多细细化化检检索索词词专业词汇短语和词组限定年代、语言和文献类型选择检索途径乙酰水杨酸与阿司匹林732021/8/26 检索结果太多细细化化检检索索词词限定年代、语言和文献类型742021/8/26 谭浩强 程序设计752021/8/26 谭浩强 程序设计762021/8/26 检索结果太多细细化化检检索索词词选择检索途径检索结果太多: 主题词 书名检索结果太少: 书名 主题词772021/8/26 选择信息资源信息检索过信息检索过程的循环程的循环确定检索题目分析检索题目实施检索调整检索782021/8/26 刚才的发言,如刚才的发言,如有不当之处请多指有不当之处请多指正。

      谢谢大家!  正谢谢大家!  792021/8/26 部分资料从网络收集整理而来,供大家参考,感谢您的关注! 。

      点击阅读更多内容
      关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
      手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
      ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.