好文档就是一把金锄头!
欢迎来到金锄头文库![会员中心]
电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

信息检索课07(8).ppt

26页
  • 卖家[上传人]:aa****6
  • 文档编号:55398857
  • 上传时间:2018-09-28
  • 文档格式:PPT
  • 文档大小:512.50KB
  • / 26 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 第七章 联机检索策略与检索步骤,一、用户需求及其表达 二、信息检索途径 三、检索策略及其类型 四、检索式构造及其反馈调整(重点),第七章 联机检索策略与检索步骤 7.1 用户需求及其表达,一、用户需求的层次与类型满足用户信息需求——信息检索系统的出发点和落脚点信息检索的重点——“数据为中心” → “用户为中心”1. 用户信息需求的层次意大利学者米扎罗(1998)在论述信息检索的相关性问题时认为,用户信息需求可分为4个层次:(1)潜在真实的信息需求(RIN)最原始状态,往往不能确定获取信息的途径2)意识或感知到的信息需求(PIN)对问题的认识有所深化第七章 联机检索策略与检索步骤 7.1 用户需求及其表达,1. 用户信息需求的层次(3)用户表达出的信息需求(Request)以口头或书面语言的形式明确表达出来4) 符合检索系统语法要求的提问式(Query)用户进入系统进行查询图7-1示出用户信息需求的不同层次及状态转化实际上,检索系统处理的主要是信息提问,但可能仅仅是用户真实需求的一小部分可见,在信息检索领域中,人机交互十分重要第七章 联机检索策略与检索步骤 7.1 用户需求及其表达,一、用户需求的层次与类型2.用户信息需求的类型用户的需求类型一般有三种:第一类——对最新信息的需求。

      特点:新颖性要求:快速、及时时效性强)如新闻、正在举办的体育大赛、大选结果、科技创新项目等第二类——了解某一理论、方法、设备、过程的片断性信息特点:准查准率)用途:有针对性,解决具体研究或设计问题第七章 联机检索策略与检索步骤 7.1 用户需求及其表达,一、用户需求的层次与类型2.用户信息需求的类型第三类——对某一课题进行系统、详尽的了解特点:全查全率)用途:综述、评价、鉴定等如某研究领域综述、编写教材等往往需要追溯较长时间跨度的大量文献资料另外一类需求——原文需求已知作者或文献资料的名称,希获得该文献的原件、复印件第七章 联机检索策略与检索步骤 7.1 用户需求及其表达,二、用户需求的分析与表达模糊的情报需求 → 明确的情报提问例:要检索“智能信息处理领域2002—2004年间出版的外文资料”如何分析与表达?要求:①内容准确、全面正确揭示和描述用户情报需求②形式简单便于书写,且易于计算机处理第六章 联机检索策略与检索步骤 7.2 信息检索途径,2.主题途径以课题的主题内容为出发点,利用主题检索语言(如主题词、关键词、叙词、标题词等)来查找文献各学科领域的有关课题的信息按字顺集中于同一主题。

      使用时像查字典一样找到主题词优点:直接、准确,采用的概念易于理解,查寻时便于选取3.题名途径按已知的书刊名称、论文篇名等来检索文献信息利用题名检索工具,如书名目录、篇名索引、期刊名称文档等第六章 联机检索策略与检索步骤 7.2 信息检索途径,4.著者途径按照已知的文献作者名来检索文献信息著者包括个人著者、团体著者、专利权人等国外对著者途径非常重视,许多系统作为最基本的检索功能著者检索的特点:检索者或科研人员通常熟知自己从事的领域中的知名学者、专家、同行,以及竞争对手企业的名称通过该途径检索,可系统地发现这些作者或机构的研究成果或进展的最新信息,达到多快好省的检索效果第六章 联机检索策略与检索步骤 7.2 信息检索途径,5.代码检索通过已知文献或信息的专用代码查找信息的途径其前提是已掌握欲查信息的代码如,ISBN、ISSN、专利号、合同号、产品代码等利用具有全球唯一性的ISBN或ISSN,可迅速从数据库中查询图书或期刊;利用SIC(美国标准工业代码),可快捷地检索出美国企业商场的产品6.其它途径如出版日期、出版国别、语种等第六章 联机检索策略与检索步骤 7.3 检索策略及其类型,一、检索策略的概念检索策略:在分析情报提问实质的基础上,确定检索途径与检索用词,并明确各词间的逻辑关系与查找步骤的科学安排。

      检索策略的实质是对整个检索过程的谋划,以反映用户检索意图,实现检索目标检索策略涉及:检索课题的目标、范围,选择的检索系统,检索途径,检索标识和组配,检索反馈调整措施等要构造一个良好的检索策略,需要多方面的知识和技能由于检索分为手工和计算机两种,相应地检索策略有两种:手工检索——检索策略以隐性的方式存在于人脑中(眼看、手翻、脑子判断)机器检索——检索策略需要事先制定,相对固定化和形式化(计算机自动实现),第六章 联机检索策略与检索步骤 7.3 检索策略及其类型,二、常用联机检索策略美国人鲍纳(C.Bourne)提出5种联机检索用的检索策略1. 积木型策略含义:用户检索请求或检索课题剖析成若干不同的概念面,先分别对几个概念面检索,并用“OR”连接成子检索式,然后再用“AND”把所有子检索式连接起来,构成一个总检索式类似与拼积木)例如,检索课题“未成年人的毒品滥用”可分解成两个概念组面:未成年人、毒品滥用上述两个概念组面涉及到的各种词汇可构造为两个子检索式S1和S2,总检索式S=S1 AND S2.特点:适合复杂的多概念检索课题,但缺乏交互性第六章 联机检索策略与检索步骤 7.3 检索策略及其类型,二、常用联机检索策略2. 引文珠形增长型策略含义:从少数几个专指词开始检索,以便至少检索出一篇命中文献,然后审阅检出的文献,从中选出一些新的相关词,补充到检索式中去。

      从而查出其它新的命中文献不断重复上述过程,直至找不到相关附加词,或已获得了满意的检索结果 (类似“滚雪球”)例如,查找“中国学者对哥德巴赫猜想的研究贡献”的资料从数学家“陈景润”入手→找到陈景润的相关论文,查阅内容和参考文献→其他中国学者如潘承洞、王元的工作和成果.特点:直接、灵活,交互性好,可提高查全率和查准率但要求用户有较丰富的领域知识第六章 联机检索策略与检索步骤 7.3 检索策略及其类型,二、常用联机检索策略3. 逐次分馏型策略含义:先确定一个相当大、范围较广的检索初始对象集合,然后再提高检索的专指度,得到一个较小的命中结果集合;继续提高检索的专指度,一步一步缩小命中结果集合,直至得到数量适宜、用户满意的结果类似于“剥竹笋”,逐步逼近核心部分)特点:该策略有利于确保检索的全面性第六章 联机检索策略与检索步骤 7.3 检索策略及其类型,二、常用联机检索策略4.最专指面优先型策略含义:检索时先从课题中最专指的概念面入手,浏览检索结果后如果发现检索出的文献已经比较专指,则停止检索;如果检出的结果不够专指,再将课题中其它概念面加入检索式中并进行逻辑组配例如,检索课题“高等教育中学分制的由来与发展”。

      可选择“学分制”这个概念面,它比“高等教育”较专指特点:该策略简洁、查准率高,节省时间第六章 联机检索策略与检索步骤 7.3 检索策略及其类型,二、常用联机检索策略5. 最低登录量面优先(lowest postings facet first)策略登录量: 一个索引词在倒排文档中的出现次数该策略的含义:首先查找数据库的倒排文档,确定检索词的登录量值,然后以登录量最少的概念面为检索入口开始检索如果命中文献数量相当少且符合检索要求,就不必再继续检索其它的概念面这一策略与“最专指面优先”策略相似说明:以上5种检索策略并非彼此独立的,可以结合使用,尤其对大型检索课题,常常将多种检索策略融合在一起第六章 联机检索策略与检索步骤 7.4 检索式构造及其反馈调整,一、检索式的概念 检索式:检索策略的逻辑表达式,指计算机检索过程中用来表达用户检索提问的逻辑表达式,由检索词和各种逻辑算符及其它组配连接符号组成检索式举例: (国防 AND 科技) NOT 贸易.意义:检索式是检索策略的逻辑表达和具体体现,其质量高低直接影响到检索的成败检索式的基本类型:布尔逻辑检索式、位置算符检索式,第六章 联机检索策略与检索步骤 7.4 检索式构造及其反馈调整,二、检索式的构造构造检索式主要涉及2个问题:选词、组配。

      1.检索词(或检索项)的选择常用的检索词可分为两类:受控词,非受控词1)受控词(control term)受控词:一种事先规范化的语言,取自主题词表、叙词表等标引文献时使用词表对自然语言中词汇的同义性进行规范和控制;联机检索时受控词作为基本词汇特点:针对性强(专门领域);词表反映词与词间的相互关系(同义词、近义词、相关词、代用词等)主要优点:易于选择宽度适当的概念;便于用户检索时选取缺点:受控词表的收词个数有限,有时不适应用户需求第六章 联机检索策略与检索步骤 7.4 检索式构造及其反馈调整,1.检索词(或检索项)的选择(2)非受控词(uncontrol term)取自文献篇名、文摘、和某些索引字段(作者、机构等)也称为自由词主要优点:可任意选词,弹性较大;可选专指性较强的词;可及时使用新词汇来检索新文献主要缺点:缺乏词汇控制,不能解决词间关系问题;有时用户感到检索难度大选择检索词需要注意的问题:注意所选检索词的全面性、专指性、一致性;因选词不当造成检索结果不满意时,要分析选词失误原因,根据具体情况来决定换词、增词、删词第六章 联机检索策略与检索步骤 7.4 检索式构造及其反馈调整,二、检索式的构造2.组配把选好的检索词用系统规定或允许使用的符号连接组配起来,就构成了一个检索式。

      如检索美国专利方面的文献,可构成如下检索式:America AND patent常用连接组配符号:(1)布尔算符如AND,OR 、NOT等(2)截词符对单元词加工修饰,如检索词的单复数,同一词根派生出的名词、动词形容词等如 brows* 后截断organi?*ation 中间截断,第六章 联机检索策略与检索步骤 7.4 检索式构造及其反馈调整,2.组配常用连接组配符号:(3)位置算符表示所连接的各个单元词间的位置关系,如限制两个检索词在文中出现的先后顺序、相隔距离,算符有W、N、X等表7-1)如检索式 digital(W)libraryeconomic(2N)recovery(4)括号构造检索式还常常用到括号,用来规定运算的优先次序5)其它连接符注:不同检索系统有不同的规定用户需了解和熟悉具体使用系统的规则思考题:用户欲检索2005年以来发表的智能检索技术方面的英文文献试编制一个检索式 第六章 联机检索策略与检索步骤 7.4 检索式构造及其反馈调整,三、检索式的反馈调整信息检索通常是一个不断调整、逐步求精的过程为此,检索式的构造就是一个不断修改和完善的过程。

      当用户对检索结果不满意时,可采用各种调节方法和反馈途经对检索式进行修改和完善闭环)一般方法是通过查全率和查准率两个评价指标进行分析具体方法是调整检索式中泛指词、专指词和相关词的数量,及其逻辑组配关系,以达到来改善检索效果的目的第六章 联机检索策略与检索步骤 7.4 检索式构造及其反馈调整,三、检索式的反馈调整对于需要较高查全率的检索课题,主要从扩检入手;而对需要较高查准率的检索课题,一般是进行缩检 (1)扩检——提高查全率采用的调整方法: 降低检索式的专指度 调整检索式的网罗度 进行截词检索 进行族性检索(“OR”连接) 增加检索途径 取消某些限制,第六章 联机检索策略与检索步骤 7.4 检索式构造及其反馈调整,三、检索式的反馈调整(2)缩检——提高查准率采用的调整方法: 提高检索式的专指度 通过AND连接加强相互制约 利用某些算符进行限制检索 利用位置算符加以控制 利用NOT排除无关文献 进行二次检索说明:①检索式往往需要不断地试检、反馈、分析比较,才能成功;②编制检索式需要有一定的专业技能和检索经验 □,。

      点击阅读更多内容
      关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
      手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
      ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.