好文档就是一把金锄头!
欢迎来到金锄头文库![会员中心]
电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

信息检索原理与技术.ppt

90页
  • 卖家[上传人]:cl****1
  • 文档编号:587463285
  • 上传时间:2024-09-06
  • 文档格式:PPT
  • 文档大小:1.83MB
  • / 90 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 第三章第三章 信息检索原理与技术信息检索原理与技术信息检索基本原理计算机检索数据库计算机信息检索技术计算机信息检索流程 1 2参考文献 的著录n②同一文献在论著中被引用多次,在第一次出现时编号,并在正文标注处以上角标的形式标注引文页码一般来说,一篇文献如果只被引用一次,页码在文末的参考文献表中著录;如果被引用多次,页码分别标注在文中引用的对应之处n示例:……运用相似的方法[2]194……由此产生的结果[2]236……n⑵著者-出版年制n各篇文献的标注内容由著者姓氏与出版年构成,并置于“(￿)”内n①如果只标注著者姓氏无法识别该人名时,可标注著者姓名集体著者著述的文献标注机关团体名称如果正文中已提及著者姓名,则其后的圆括号内只须著录出版年2 3参考文献 的著录n②引用多著者文献时,对欧美著者只需标注第一个著者的姓,其后附“et￿al”;对中国著者应标注第一著者的姓名,其后留适当空隙附“等”字n③在参考文献表中著录同一著者在同一年出版的多篇文献时,出版年后用小写字母a,b,c,…区别,并反映在文中的标注中n④同一文献在论著中被引用多次,引文页码放在“(￿)”外的上角标处n示例:……(张××￿等,￿2005a)15-17;……张××(2006)认为……;……(张××￿等,2005a)101-105。

      3 4n著录(Description)─各种出版类型的文献条目有其固定的书写格式,有正确的描述即著录(description),才能有正确的识别─著录格式有多种,一般应选择一种认定的标准在总体上都有提名项、出处项等著录项目─以下若干样例以中文期刊论文参考文献著录格式为参照参考文献 的著录4 5n图书专著的著录─主要责任者. 题名[M]. 其他责任者(如编者、译者,供选择). 版本(第1版不写). 出版地:出版者,出版年:页码.[1]蒋有绪,郭泉水,马娟,等.中国森林群落分类及其群落学特征[M].北京:科学出版史,1998:12,67-69.[2]昂温 G,昂温 P S.外国出版史[M].陈生铮,译.北京:中国书籍出版社,1988: 96-98.[3]王夫之.宋论[M].刻本.金陵:曾氏,1845(清同治四年).参考文献 的著录5 6n期刊的著录─主要责任者.题名[J].刊名,年,卷(期):起止页码.[1]廖昕.高能低易损性发射药实验研[J].火炸药学报,2001,24(4):8-11.[2]Des Marais D J, Strauss H, Summons R E, et al.Carbon isotope evidence for the stepwise oxidation of the Proterozoic environment[J].Nature,1992,359:605-609.参考文献 的著录6 7n会议论文集(或汇编)的著录─主要责任者.题名[A].来源文献主要责任者.来源文献题名[C或G].出版地:出版者,出版年:起止页码.[1]钟文发.非线性规划在可燃毒物配置中的应用[A].赵玮.运筹学的理论与应用:中国运筹学会第五届大会论文集[C].西安:西安电子科技大学出版社,1996:468-471.[2]韩吉人.论职工教育的特点[A].中国职工教育研究会.职工教育研究论文集[G].北京:人民教育出版社,1985:90-99.参考文献 的著录7 8n学位论文的著录─责任者.题名[D].学位授予地:学位授予单位,学位授予年:页码.[1]张志祥.间断动力系统的随机扰动及其在守恒律方程中的应用[D].北京: 北京大学数学系,1998:21-23.[2]Calms R B.Infrared spectroscopic studies on solid oxygen[D].Berkeley: Univ. of California, 1965.参考文献 的著录8 9n专利的著录─专利所有者.专利题名[P].专利国别:专利号,公告日期或公开日期.[1]姜锡洲.一种温热外敷药制备方案[P].中国:881056073,1989-07-26.[2]Tachibana R, Shimizu S, Kobayshi S, et al.Electronic watermarking method and system[P].US: 6915001, 2002-04-25.参考文献 的著录9 10n报纸的著录─主要责任者.题名[N].报纸名,出版日期(版次).[1]张田勤.罪犯DNA库与生命伦理学计划[N].大众科技报,2000-11-12(7).参考文献 的著录10 11n科技报告的著录─主要责任者.题名[R].出版地:出版者,出版年:页码.[1]World Health Organization.Factors regulating the immune response: report of WHO Scientific Group[R].Geneva:WHO,1970.n标准的著录─标准编号,标准名称[S].[1] 中华人民共和国国家标准. 织物透湿量测试方法[S]. GB/T 12704 - 91.[2] GB/T16159-1996,汉语拼音正词法基本规则[S].参考文献 的著录11 12n电子文献的著录对于数据库(database)、计算机程序(computer program)及电子公告 (electronic bulletin board)等电子文献类型的参考文献,以双字母作为标识:数据库——DB,计算机程序——CP,电子公告——EB。

      非纸张型载体的电子文献作为参考文献时,需要在参考文献类型标识中同时标明其载体类型载体类型也以双字母表示:磁带(magnetic tape)——MT,磁盘(disk)——DK,光盘(CD-ROM)——CD,联机网络(online)——OL下列格式表示包括了文献载体类型的参考文献类型标识:参考文献 的著录12 13n电子文献的著录参考文献 的著录13 14n电子文献的著录─主要责任者.题名[文献类型标志/文献载体标志].电子文献的出处或可获得地址,发表或更新日期/引用日期.[1]王明亮.关于中国学术期刊标准化数据库系统工程的进展[EB/OL].. 1998-08-16/1998-10-04. [2]万锦坤.中国大学学报论文文摘(1983-1993)[DB/CD].北京:中国大百科全书出版社,1996.参考文献 的著录14 15思考题自学:─随书光盘资料的获得─学习使用图书馆主页上的多媒体资源的下载服务作业:─最近一个月丁家桥校区到馆的医药卫生类图书有哪些?─做成ppt或word或现场演示,交代清楚步骤15 第一节第一节 信息检索基本原理信息检索基本原理什么是信息检索?16 Ø 广义:广义: 信息检索指将信息按一定的方式信息检索指将信息按一定的方式组织和存储组织和存储起来,并根据起来,并根据 信息用户的需要信息用户的需要查找查找出有关信息的过程和技术。

      出有关信息的过程和技术 Information Storage and RetrievalØ 狭义狭义: 信息检索是指从信息集合中信息检索是指从信息集合中查找查找出所需要的信息的过程出所需要的信息的过程 Information Search1.1 1.1 信息检索的定义信息检索的定义第一节第一节 信息检索基本原理信息检索基本原理17 信息检索基本原理的核心是用户信息需求与文献信息集合的比较和选择, 是两者匹配(match)的过程 一方面是用户的信息需求, 一方面是组织有序的文献信息集合,检索就是从用户特定的信息需求出发,对特定的信息集合采用一定的方法、技术手段,根据一定的线索与规则从中找出(search, locate, hit) 相关的信息  信息信息集合集合需求需求集合集合相关信息相关信息第一节第一节 信息检索基本原理信息检索基本原理18 信息检索的过程往往需要一个评价反馈途径,多次比较匹配,以获得最终的检索结果其图示如下:Information NeedInformation Need信息需求信息需求Document ObjectsDocument Objects文献对象文献对象RepresentationRepresentation表述表述RepresentationRepresentation标引标引QueryQuery信息提问信息提问Indexed ObjectsIndexed Objects标引对象标引对象ComparisonComparison比较匹配比较匹配Evaluation/FeedbackEvaluation/Feedback评价评价/ /反馈反馈Retrieved ObjectsRetrieved Objects检出对象检出对象19 检索点(access point)是检索的出发点,常被称为“检索途径”(approach )。

      常用的检索途径有: 1)分类检索 2)主题检索 3)作者检索 4)名称检索 5)号码检索 反映文献的外部特征 反映文献内部(信息内容)特征第一节第一节 信息检索基本原理信息检索基本原理20 1)分类检索(classification) 分类检索是从文献内容所属的学科类别出发来检索文献,它依据的分类检索是从文献内容所属的学科类别出发来检索文献,它依据的是一个可参照的分类体系(是一个可参照的分类体系(classification systemclassification system)   分类体系按文献内容特征的相互关系加以组织,并以一定的标记分类体系按文献内容特征的相互关系加以组织,并以一定的标记( (类号类号) )作排序工具,它能反映类目之间的内在联系,包括从属、并列、作排序工具,它能反映类目之间的内在联系,包括从属、并列、交替、相关等交替、相关等较权威的图书分类法有较权威的图书分类法有: :Ø 国内国内:中国图书馆图书分类法(中图法)、中国科学院图书馆图书 分类法(科图法)、中国人民大学图书馆分类法(人大法)Ø 国外国外:杜威十进分类法(Dewey Decimal Classification,,DDC) 国际十进分类法(Universal Decimal Classification,,UDC)) 美国国会图书馆分类法(Library of Congress Classification,,LC)21 2)主题检索 主题(主题(subjectsubject)检索是从反映文献内容的有关主题)检索是从反映文献内容的有关主题词出发来检索文献,主题是检索点,它对应文献主题概念。

      词出发来检索文献,主题是检索点,它对应文献主题概念检索按主题词的音或形的字顺进行,其方式如查字典、词检索按主题词的音或形的字顺进行,其方式如查字典、词典主题词的合理选择与使用对检索结果的优劣直接相关主题词的合理选择与使用对检索结果的优劣直接相关Ø 通用词表通用词表:汉语主题词表 Ø 专业词表专业词表:美国医学主题词表MeSH、中国中医药主题词表、建筑工业叙词表、数学汉语主题词表、耐火材料专业主题词表等22 3)作者检索 作者(author)检索是从文献的作者姓名出发来检索其文献 “作者”广义上还应包括:汇编者(compiler)、编者(editor)、主办者(sponsoring body)、译者(translator)等 此外,还有代表机构、单位的团体作者(corporate author),包括作者所在单位(author's affiliation)23 4)名称检索 名称(title)检索点是从各种事物的名称出发来检索文献信息 这些名称包括:书名、刊名、资料名、出版物名、出版社名、会议名、物质名称等等,也包括人名和机构名检索的对象既包括对应的文献,也包括有关的信息、事项等。

      比如个人簿(white pages)或公司簿(yellow pages),查找的是号码信息24 5)号码检索 号码包括文献的编号(number)、代码(code)等,它们是文献信息的一些特有的外部标识,号码检索点以号码特征来检索文献信息号码多种多样,通常用数字、字母或用它们结合的形式或以分段的方式来表示其各部分的含义比如科技报告有报告号,还有其合同号、拨款号等,比如专利文献有专利号、入藏号、公司代码等;比如分类号也是号码(特殊的号码检索),等等国际标准书号ISBN,国际标准刊号ISSN它们各自按号码顺序,或以数序、或以字序、或以混合序列检索25 其他检索点 由于文献加工的细化,计算机标引的介入,新型电子文献出现等情况,形成了更多的可检索点 比如:作者单位、基金项目、文献类型、参考文献、语种、出版年份、出版单位等检索点,它们提供了更多的检索途径 26 EI的检索实例27 1.5 信息检索的类型 手工检索(手检) 计算机检索(机检) 手工检索(manual retrieval)使用的多为印刷型或书本型检索(paper-based retrieval)工具,早些有检索卡片,现在使用最多的是检索刊物,它们定期地将最新收集到的信息、文献加以汇总、组织和报道。

      手检的技术要求不高,以人的劳动为本,由人来翻阅,由人来进行比较、选择,完成匹配手检工具能提供的检索点十分有限,检索结果往往不尽人意 技术手段:28 29 30 31 32 信息检索的类型 计算机检索(computer-based retrieval),它通过数据库系统来实现的  检索系统包括:计算机主机设备、外部存贮器、输入输出设备、终端设备、通信设备等硬件设施;需要控制、提供检索的软件系统,包括:通信软件、操作系统、应用程序等,以实现对数据库的信息存取  检索过程是在人与机器的合作、协同下完成的,它们经常用实时的(real time)、交互的(interactive)的方式从计算机存贮的大量数据中自动分拣出用户所需要的信息计算、比较、选择的匹配任务是由机器来执行的,而人则是整个检索方案的设计者和操纵者33 计算机检索的优势计算机检索明显优于手工检索,主要表现:u 检索的信息量大u 数据更新快u 检索功能强u 检索结果输出的多样性34 信息检索的类型o当前许多经典的印刷型工具都有其对应的电子数据格式、数据库,印刷工具则成了电子数据加工输出的"副产品",许多新生的数据库不再与印刷型工具有缘,仅有其电子版本。

      计算机检索手工检索取代35 第二节第二节 信息检索数据库(工具)信息检索数据库(工具)o检索工具(数据库)的功能 o检索工具(数据库)的分类o检索工具(数据库)的构成36 1、检索工具(数据库)的功能事实检索、目录检索、文摘索引检索,其关联关系如下图:事实检索、目录检索、文摘索引检索,其关联关系如下图: 事实检索目录检索文摘索引检索信息用户目录馆藏信息文献来源信息收藏点事实数值原(全)文holdingsource37 1)事实检索事实检索是对包括事实(fact)、数值(numeric data)与全文(full-text)的检索,提供原始信息,给出直接、确定性的答案它回答的问题诸如: “我国最近一年在《SCI》上被收录的文献量是多少?”  “有哪些海外华人得过诺贝尔奖?” 工具: 字典、词典(dictionary) 百科全书(encyclopedia) 年鉴(annual, yearbook, almanac) 手册(handbook, manual) 名录(biography)和书目指南(directory)38 2)目录检索:)目录检索: 目录检索是间接的、相关性检索,给出来源文献线索,目录检索是间接的、相关性检索,给出来源文献线索,指引原始文献。

      指引原始文献 按性质:登记书目(出版、馆藏情况)、科学通报书目等;按性质:登记书目(出版、馆藏情况)、科学通报书目等; 按所涉的学科范围:综合书目、专科书目、专题书目等;按所涉的学科范围:综合书目、专科书目、专题书目等; 按所涉的时间范围:回溯书目、在版书目、新书书目等;按所涉的时间范围:回溯书目、在版书目、新书书目等; 按收录的文献类型:图书目录、报刊目录、来源目录等;按收录的文献类型:图书目录、报刊目录、来源目录等; 按所涉的地域:国家书目、联合目录和馆藏目录等;按所涉的地域:国家书目、联合目录和馆藏目录等; 按其媒体:卡片目录、书本目录、磁带目录和机读目录等按其媒体:卡片目录、书本目录、磁带目录和机读目录等39 3)文摘索引检索 文摘索引检索是一种参考型、相关性的检索,提供相关参考文献的线索,包括文献来源出处(source),也常带有文献的内容摘要,但不是文献原文EI、SCI、INSPEC等 文摘索引检索是能揭示到文章、论文级(article-level)的检索,这些文章大量的是来自期刊及会议论文集。

        按其报道的学科范围:综合性和专业性检索工具;按其报道的学科范围:综合性和专业性检索工具;   按其取材范围:多种出版物类型和单一出版物类型工具;按其取材范围:多种出版物类型和单一出版物类型工具;   按其著录方式:题录型和文摘型检索工具;按其著录方式:题录型和文摘型检索工具;   按其媒体:书本型、电子型检索工具等按其媒体:书本型、电子型检索工具等40 2、检索工具(数据库)的分类o国际上通常根据数据库内容将数据库划分为三大类:n(1)参考数据库(Reference Database)n(2)源数据库(Source Database, 在欧洲也称数据银行:Data Bank)n(3)混合数据库(Mixed Database)o另一种划分数据库的实用方法是分为文献数据库与非文献数据库两大类,前者以书目数据库和全文数据库为主,后者以数值数据库和术语数据库为多41 n(1)参考数据库(Reference Database) 此类数据库信息一般不自足,用户从中获取信息源信息后还需进一步去查找原文 书目数据库索引数据库文摘数据库图书馆目录数据库名录数据库产品数据库指南数据库… …… …Next42 n(2)源数据库(Source Database, 在欧洲也称数据银行:Data Bank) 此类数据库数据自足,用户一般不必再查其他信息源,即可满足需求。

      源数据库数值数据库图像数据库文本-数值数据库术语数据库全文数据库… …Next43 n(3)混合数据库(Mixed Database):此类数据库兼具上两类数据库特点,如多媒体数据库(Multimedia Database)等混合数据库多媒体数据库… …44 3、检索工具(数据库)的构成o数据库n文档o若干个记录构成的信息集合称为文档大型的数据库分割成若干文档n记录o记录是构成数据库的完整的信息单元,每条记录描述了原始信息的外部特征和内部特征n字段o组成记录的数据项目45 数据库与检索系统o数据库与检索系统是两个不同的概念o数据库是信息的集体体,是一种信息管理的方式o检索系统是个软件检索系统主要用于检索数据库o一个检索系统可以容纳上百个数据库,可同时对上百个数据库进行检索o一个数据库可依存于不同的检索系统46 第三节 计算机信息检索技术n计算机信息检索的定义 信息资源的计算机检索实质是利用计算机与远程通信技术来实现信息的采集、处理、存储、检索和传递等过程这些信息包括声音、图像、文字和数据等一切内容47 第三节 计算机信息检索技术n计算机检索的历史和现状     起源于20世纪50年代的美国,主要经历了以下四个阶段: 1)脱机(单机)检索 2)联机检索 3)网络检索  4)智能信息检索(未来)48 计算机检索的历史和现状n脱机检索是用户与机器脱钩,不直接参与检索,不介入与机器的对话,检索以批处理(batch processing)的方式进行,如定题检索服务(SDI)。

      oSDISDI检索服务检索服务:把一批事先制定好的检索式存放在机器中,在收到最新文献后执行检索,并将检索结果定期送到用户手中,可长期跟踪某专题的研究n联机检索指用户利用计算机终端设备,通过通讯线路,从信息中心的计算机(主机)数据库中检索出所需要的信息的过程,它是一种实时的检索,知名检索系统如Dialog、STN系统等该检索检索范围广、检索速度快、检索功能强,但检索费用昂贵,检索命令和方法较复杂49 计算机检索的历史和现状n网络检索可同时使用网上多个主机,甚至所有主机的某种资源而并不需要用户预先知道它们的具体地址这就极大扩宽了其检索的空间和信息量,包括世界各地的各种文献信息资源及其指向的网络页面但互联网信息庞杂,正式与非正式信息及其交流渠道共存,信息缺乏有效的组织管理,因此检索效果很难用一般意义上的查全、查准这些概念来衡量n在前三个发展阶段的基础上,随着自然语言处理和信息组织技术的不断发展,计算机信息检索系统跨入一个新的阶段——智能信息检索自动分词、自动标引、自动分类、自动文摘、自动索引、自动翻译………分类表主题词表Mark记录元数据Ontology(本体)……..50 51 52 第三节 计算机信息检索技术o初级检索技术nA. 逻辑运算逻辑运算nB. 截词检索截词检索nC. 位置检索位置检索nD. 检索字段控制检索字段控制53 A. 逻辑运算逻辑运算(布尔算符)o用来表示两个检索词之间的逻辑关系o常用的有三种;逻辑与(and) 、逻辑或(or)和逻辑非(not)o这里用A和B分别代表两个检索词,它们的逻辑关系由下表和图说明。

      54 A. 逻辑运算逻辑运算(布尔算符)o逻辑运算符的优先等级ØNOT >AND >ORo改变优先等级Ø()Ø将检索表达式的某一部分用括号括起来,表示命令计算机首先运算()中的提问式,而不是按照计算机系统默认的运算符优先级别进行运算55 56 查询:2010 AND 世界杯 AND NOT 小组赛2010世界杯世界杯小组赛小组赛2010 AND 世界杯 AND NOT 小组赛布尔模型匹配的集合表示57 课堂练习nq = 病毒 AND (计算机 OR 电脑)AND NOT医 nd1: …据报道,计算机病毒近日猖獗…nd2: …小王虽然是学医的,但对研究电脑病毒也很感兴趣,最近发明了一种…nd3: …计算机程序发现了爱滋病病毒的传播途径… 哪些文档会被检索出来?√√58 布尔检索的注意事项n不严格的话结果过多,而且很多不相关;n非常严格的话结果会很少,漏掉很多结果59 B. 截词检索o也称通配符, 用来对检索词(干)进行扩展o作用是减少检索词的输入而保证相关检索概念的涵盖,同时方便解决语言文字拼写方面的差异(如美式英语和英式英语),避免漏检60 61 62 o截词符截词符 后截断,将截词符号放在一个字符串的右方,以表示后截断,将截词符号放在一个字符串的右方,以表示其右的有限或无限个字符不影响该字符串的检索。

      例其右的有限或无限个字符不影响该字符串的检索例如:如: hyperthyr*可查到可查到hyperthyre、hyperthyreosis、hyperthyroid、hyperthyroidosis、hyperthyroidism等等 hypertensi??可查到可查到hypertension、hypertensive 涉及到词的单复数、作者、年代、同根词等方面的检涉及到词的单复数、作者、年代、同根词等方面的检索时,选用后截断技术索时,选用后截断技术B. 截词检索63 前截断,将截词符号放在一个字符串的左方,前截断,将截词符号放在一个字符串的左方,以表示其左的有限或无限个字符不影响该字以表示其左的有限或无限个字符不影响该字符串的检索例如:符串的检索例如: *sighted,,可查到可查到farsighted 与与nearsighted 前截断只检索后缀相同的一类词,常用于检前截断只检索后缀相同的一类词,常用于检索化学化工文献与复合词较多的文献索化学化工文献与复合词较多的文献B. 截词检索64 中截断,将截词符号放在一个检索词的中间中截断,将截词符号放在一个检索词的中间的一种截词方式。

      只允许有限截断,用于检的一种截词方式只允许有限截断,用于检索词的单复数或英美式不同拚法例如:索词的单复数或英美式不同拚法例如: wom?n,,可查到可查到Woman,,Women defen?e ,,可查到可查到defense,,defenceB. 截词检索65 C. 位置检索p位置算符(proximation operator),表示其连接的两个检索词之间的位置关系,常用的有(W), (nW), (N), (nN), (L), (S), (F)等p目的是表达各个检索词之间的顺序和相对位置,以精确检索,并减少检索误差p不同的系统采用的位置算符不同,用法也不同pDIALOG系统常用的位置算符共有四种:Ø(W)--With Ø表示算符两侧的检索词(或检索项)之间不得有其它字词,而且顺序不能颠倒66 C. 位置检索Ø(nW)--nWith(位置顺序隔词)Ø 表示算符两侧的检索词(或检索项)之间允许插入n个实词或者虚词,但顺序不能颠倒ØN(Near)(词位置紧连)Ø表示算符两侧的检索词必须紧密相连,中间不插入其他字符但两词次序可以颠倒Ø(nN)--nNear(隔词运算)Ø 表示算符两侧的检索词(或检索项)之间允许插入n个单词,且两侧词序可变。

      67 C. 位置检索Ø引号“ ”Ø当需要将两个或两个以上的单词作一个词组执行检索时,用引号将几个词引起来Ø检索结果与用户输入形式完全相同的词组的检索方式Ø降低误检率,提高查准率Ø引号一般为半角英文形式68 D.检索字段控制o检索字段符是对检索词出现的字段范围进行限定,执行时,机器只对指定的字段进行检索,经常应用于检索结果的调整o不同的系统使用的字段符不同,常用的检索字段符有:AU=作者 JN=刊名 TI=题目 AB=文摘PY=年代 CS=机构名称DE=叙词 LA=语种 ID=自由词 CT=受控词 PN=专利号 PA=专利 69 D.检索字段控制p有的数据库限制符为“in”和“=”,例如:ØHypertension in TI 表示高血压一词在题名字段Title中出现ØPY<2000 表示检索2000年前发表的文献记录p有的数据库限制符为“/”和“=”,例如:Ø(minicomputer/DE OR personal computer/ID)AND PY=2002 表示查找2002年出版的关于微电脑或者个人电脑的文献,并要求“微电脑”一词在命中文献的叙词字段出现,“个人电脑”一词在命中文献的自由词字段出现。

      70 菜单式菜单式71 作者=钱伟长 and 单位=清华大学 and (题名=物理 or 摘要= 物理)命令式命令式72 检索方式o检索系统一般提供了三种检索方式三种:n超文本、超媒体检索n菜单式检索n命令式信息检索 o为什么要提供三种给我们,都需要我们掌握吗?73 超文本式、超媒体检索o在分类的基础上,通过文字或多媒体与相关知识产生链接,从而达到检索目的的检索方式o操作非常简单,人们只需学会使用鼠标和认识汉字即可使用o主要用于浏览某类文献o但是检索结果不够精确查精率不高o一般检索系统都提供了这种检索74 菜单式检索o是一种操作方便,界面友好操作简便的检索方式o用户只需输入检索词,根据菜单的指引,通过确定适当的选项和功能鍵便能完成检索o菜单式检索是现阶段最受欢迎的检索方式75 命令式检索--专业检索方式o需要输入检索式来进行检索o甚至还需要输入一些系统不提供功能按钮的操作命令o命令式检索的优势:n检索式更能清晰地表达复杂的检索内容和要求n检索过程明了,便与检索者判断检索是否满意有利于掌握检索过程o检索课题较复杂,对检准率要求较高时,需要使用命令式检索方式o一些大型的检索系统都使用命令检索方式。

      76 第三节 计算机信息检索技术o高级检索技术n加权检索加权检索n自然语言检索自然语言检索n相关信息反馈检索相关信息反馈检索n模糊检索模糊检索n概念检索概念检索77 3-1 加权检索o加权检索,即在检索时,给某个检索词一定的权值,以表示其重要程度o计算机检索时,首先在数据库中找到满足提问词的文献,然后对提问词加权,文献按匹配的检索词权数之和从大到小排列设定检索阈值,当文献的权值大于阈值时,输出命中文献78 o 例如:W=计算机(1)情报检索(4)自动化(2)79 3-1 加权检索o加权检索的优点是可明确各检索词在检索中的重要程度,检索结果按照切题顺序排列,表达式简捷o它的缺点是,加权法提问式含义不如逻辑式那么明显直观,而且在盲目地给出权数的情况下容易出现误检80 3-2 自然语言检索o自然语言检索,指用户在检索时可输入自然语言表达的检索要求 例如,用户输入检索提问:“please find for me some thing about automobile sale in New York state”,检索工具会按照提问检索出关于在纽约州(New York state)汽车销售(automobile sale)的信息。

      这种检索的基本处理过程是:检索工具在收到用户提问后,首先利用一个禁用词表禁用词表从提问中剔除那些没有实质主题意义的词汇,然后将余下的词汇作为关键词关键词进行检索例如,各种副词、介词、代词、常用请求词(please、help、would、may等)、检索提问词(find、search、locate、check、information、materials等)例如,纽约州(New York state)、汽车销售(automobile sale)81 3-2 自然语言检索o自然语言检索的效果取决于检索工具选择关键词的效率,而这方面仍然面临一些问题,如禁用词表的构成o中文分词的难题o切分歧义o新词识别ExampleExample82 p切分歧义o“和服”? “化妆和服装”可以分成“化妆 和 服装”或者“化妆 和服 装”o“中将” ? 在句子“将军任命了一名中将”中,“中将”是个词,但在句子“产量三年中将增长两倍”中,“中将”就不再是词o“拍卖” ? “乒乓球拍卖完了”,可以切分成“乒乓 球拍 卖 完 了”、也可切分成“乒乓球 拍卖 完 了” ,Next83 p新词识别 新词,专业术语称为未登录词。

      也就是那些在字典中都没有收录过,但又确实能称为词的那些词最典型的是人名,机构名、地名、产品名、商标名、简称、省略语等 Example: “王军虎去广州了”中,“王军虎”是个词,在句子“王军虎头虎脑的”中,“王军虎”还能不能算词? 84 3-3 相关信息反馈检索o在检索过程中人们会发现某个结果非常符合自己需要,因此希望能进一步检索到与该结果类似的结果,这称之为相关信息反馈检索o网络环境中,相关信息反馈检索由检索工具自动进行 例如, Excite的“Search for more documents like this one”检索 Lycos的“More Like This”检索 google的“类似网页”检索,以及百度的“相关搜索”等85 3-3 相关信息反馈检索o基本原理:是检索工具将用户所选定的结果网页中包含的关键词找出,通过它们在这个网页中出现的频率和位置等来计算各自的相关度,然后选出相关度较高的词汇作为下一步检索的检索词o但由于词汇选择只考虑了词汇出现的频率和位置,而没有考虑用户对各个词汇重要性的主观判断,所以其结果并不一定非常合适86 3-4 模糊检索o模糊检索,指允许检索词和检索提问之间存在一定的差异,这种差异即“模糊”在检索中的含义。

      o模糊检索中所指的差异往往来自于用户在输入检索提问时的输入错误,如少键入一个字,打错一个字母等等另一类差异来自某些词汇不同的拼写形式,例如,单复数,“catalog”和“catalogue”这时检索工具应该能够检索到用正确词汇或其它变形形式标引的结果,而不是简单地告诉“输入错误”或“没有结果”87 3-5 概念检索 o概念检索,是指当用户输入一个检索词后,检索工具不仅能检索出包含这个具体词汇的结果,还能检索出包含那些与该词汇同属一类概念的词汇的结果 例如,检索“automobile”时能找出包含“automobile”、“car”、“truck”、“van”、“bus”等任一词汇的结果 又如,在查找“公共交通”这一概念时,有关“公共汽车”或“地铁”的信息也能随之检得 在此意义上,概念检索实现了受控检索语言的一部分功用,即考虑到了同义词、广义词和狭义词的使用88 89 90 。

      点击阅读更多内容
      相关文档
      2025国开山东开大《土质学与土力学》形成性考核123答案+终结性考核答案.docx 中学综合素质知识点梳理【中学教师资格证】.docx 2025国开山东开大《特许经营概论》形成性考核123答案+终结性考核答案.doc 2025年高考英语全国一卷真题(含答案).docx 2025国开山东《农民专业合作社创建与管理》形成性考核123答案+终结性考核答案.docx 2025国开山东开大《自然现象探秘》形成性考核123答案+终结性考核答案.docx 2025国开山东《消费心理学》形成性考核123答案+终结性考核答案.doc 2025国开山东《小微企业管理》形成性考核123答案+终结性考核答案.doc 2025国开山东开大《资本经营》形成性考核123答案+终结性考试答案.docx 2025国开山东《小学生心理健康教育》形考123答案+终结性考试答案.docx 2025国开《视频策划与制作》形考任务1-4答案.docx 2025国开《亲子关系与亲子沟通》形考任务234答案+期末大作业答案.docx 2025国开电大《煤矿地质》形成性考核123答案.docx 2025国开电大《冶金原理》形考任务1234答案.docx 2025国开《在线学习项目运营与管理》形考任务1234答案.doc 2025国开电大《在线教育的理论与实践》阶段测验1-4答案.docx 2024 年注册环保工程师《专业基础考试》真题及答案解析【完整版】.docx 环保工程师---2023 年注册环保工程师《专业基础考试》真题及答案解析【完整版】.docx 2025国开《液压与气压传动》形考任务一参考答案.docx 2025年春江苏开放大学教育研究方法060616计分:形成性作业2、3答案.docx
      关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
      手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
      ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.