好文档就是一把金锄头!
欢迎来到金锄头文库![会员中心]
电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

研究生信息检索论文模板(信息检索中的相关性问题研究).doc

10页
  • 卖家[上传人]:ji****72
  • 文档编号:27067867
  • 上传时间:2018-01-06
  • 文档格式:DOC
  • 文档大小:89.27KB
  • / 10 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 信息检索中的相关性模型摘要:鉴于相关性模型研究是相关性研究中的核心内容,首先阐释直觉与哲学视角的相关性研究对信息检索领域相关性研究的借鉴意义,在此基础上,论述信息检索中相关性研究的四维模型(信息源、用户信息需求、时间构件 )以及交互模型其中对交互模型的阐述,主要集中于认知模型、片段模型及层次模型关键词:信息检索;相关性;模型Models of Relevance in Information RetrievalAbstract: Relevance is the main research issue in information retrieval and information science ,and so are relevance models in relevance research .This paper explores the theoretical work about relevance from philosophy as well as intuitive understanding . A four-dimension model(information resource,representation of user’s problem time and components) and an interactive model are critically illuminated. A better understanding of the cognitive model,the episode model and the stratifend model is of great importance to the active model.Keywods:information retrieval;relevance;model1.引言自从上个世纪50年代Mooers 、 Taube、Perry 等将计算机技术应用于信息检索之后,相关性(relevance)就成了该领域的核心研究内容。

      在过去的 50多年里,相关性研究已经形成了面向系统与面向用户两个学派,其中代表性的观点有系统观、信息观与情境 [1]系统观的代表人物除了前面提到的3位之外,还包括Salton等,其研究主要围绕检索系统的分析、设计以及评估展开,其核心研究内容是检索模型以及查询表达式与文档或其替代品间的匹配算法信息观的代表人物有Cooper、Ingwersen、Lancaster等,主要研究查询请求与文档间的概念关联性情境观的代表人物有Wilson、Harter 以及 Schamber等,主要研究信息与用户信息需求情境间的关系,其基本观点认为只有用户才能完成有效的相关性判断三者相较,系统观主要从客观的视角进行相关性研究;情境观主要基于主观的角度; 信息观则介于两者之间,主观与客观兼具以上观点对该领域研究的意义是显然的,不过有必要对其加以反与梳理,以免陷人具体的细节中Saracevic、Mizzaro、Cosjin以及Borlund 等构建的多种相关性模型完成了该方向的研究,使相关性研究实现了系统化,达到了既见树木,又见森林目的下面分别从其他学科以及信息科学的视角讨论相关性模型2.相关性模型--其他科学的视角除信息检索外,相关性也是哲学、逻辑学、心理学以及通讯科学的主要研究内容。

      由于哲学等学科的发展历史较信息检索要久远得多,其开展相关性研究的历史也明显早于信息检索领域,因而对信息检索领域相关性研究的探讨无法绕开这些领域所提供的良好背景除学术圈之外,相关性也是日常生活中广泛应用的概念,不过人们在使用时似乎并没有遵循什么严格的定义与框架,而完全基于直觉2.1 相关性的直觉理解《美国传统词典》相关性词条的解释是“pertinence to the matte at hand”( 与手头的事务有关);《汉语大字典》以及《现代汉语词典》对相关的解释是“彼此关联”,这些权威词典的解释实际上就是对相关性的直觉理解几乎每天,甚至每时每刻,相关性都会出现在人们的日常生活、学习以及工作中,例如人际交流、信息检索以及信息咨询等交互式活动,人们都会根据直觉的理解将其应用于过滤、评价、推理、排序、接受、拒绝、联系、分类等任务,几乎没有人质疑过其定义问题相关性是一个基础的认知概念,正如自然科学中的公理是相应学科开展研究的基础一样,相关性也已经成为信息检索领域开展研究与应用的基础川相关性在日常各个领域的广泛应用,使得以相关性为基础的信息检索系统能够获得广泛的成功,其内在的原因就是人们依据相关性的直觉能够非常容易地理解所检索的一切。

      相关性的直觉理解认为相关性的基本属性是动态的,是随着用户意图、认知水平以及手头事务的不同而变化的虽然相关性的直觉理解在日常应用中没有遇到什么障碍,但不足之处在于缺乏对其本质的认识与思考2.2 哲学视角的相关性哲学领域中,专门以相关性为主题展开研究的主要是Schutz [2],他认为相关性是决定“生命世界”(life world) 中复杂联系的基本属性,并将其分为相互独立的3种类型,即:主题相关性(topical relevance) 、解释相关性(interpretation relevance)以及动机相关性(motivational relevance),三者之间的关系见图1其中,主题相关性是指从情境(horizon ,指社会背景、个人经验等)中分离出来的主题 (theme);解释相关性是指基于情境、知识积累以及过去的经验等对主题的解释;动机相关性主要指的是选择,即在多个解释中选择其一Schutz认为这3类相关性之间存在动态交互以及相互依赖的关系,并将其称为“相关性统”(system of relevancies)Schutz研究的优势在于首次从理论上解释了多种不同类型相关性的存在及其交互性与依存性,从哲学角度为该领域存在的多种不同类型的相关性提供了坚实的理论基础,对信息检索领域的相关性研究具有重要的指导意义。

      3.相关性模型--信息科学的视角在信息科学领域,Mizzaro与Saracevic 分别构建了各自的相关性模型,而Cosjin 与Borlund的研究则在Saracevic的基础上又前进了一步3.1 四维模型Mizzaro在文献[3]中对信息检索领域的相关性研究进行了全面的综述,在此基础上提出了相关性的思维模型 [4]3.1.1 第一维:信息源Lancaster提出了“相关性是两个集合中元素间的关系”的观点 [5],该观点已经成为学界的共识Mizzaro 的四维模型中也包括这样的两个集合,其中第一个集合主要包括文献、文献的替代品和信息3个元素,第二个集合是下文即将介绍的用户信息需求表示 文献,指用户从检索系统中检索出的物理实体(physical entity)  文献的替代品(surrogate),指文献的表示,包括下列部分项目或全部:题名、关键词表、作者以及文摘等书目数据 信息,指用户在阅读检索出的文献时所获得的非实体性内容Mizzaro,认为三者的关系是: 替代品< 文献<信息,但这种关系不是一成不变的,在某图 1 相关性系统些条件下可以修正。

      3.1.2 第二维:用户信息需求表示该维的思想主要来自于Belkin 的ASK 研究 [6-7]Belkin 认为用户与检索系统的交互过程包括以下几个阶段 最初,用户处于有问题需要信息的辅助予以解决的状态,即他有真实的信息需求(RIN, real information need) 然后,RIN被用户感知(perceive)并构建感知到的信息需求 (PIN,perceived information need)PIN是RIN的心理表示,由于有时用户可能并不能以正确的方式或方法感知RIN,因而PIN有别于RIN 其后,用户通过查询请求(request)表达(expression)PIN,即用自然语言描述PIN 最后,用户(可能在检索中介的帮助下 )借助于检索语言将查询请求形式化(formalisation)为查询表达式 (query)4个元素(RIN , PIN,查询请求,检索表达式)与3项操作( 感知、表达、形式化)间的关系见图2:3项操作实际上并不像看起来那么简单,其中有许多重要问题有待解决首先,当用户处于RIN状态时,从RIN到PIN的感知过程是非常困难的,用户必须了解一些他还不熟悉的内容,Belkin引入了ASK以强调用户可能不知道他到底想要了解什么。

      其次,表达可能受到下列诸问题的影响而产生偏差:①标签效应,实验证实用户信息需求的表达是通过“标签”或者关键词等实现的,而不是完整的陈述②词表问题,源于文献中词汇与查询请求中词汇的不匹配,也源于词表词汇的无二义性以及自然语言中的同义现象③形式化的难度,主要是用户难以掌握检索系统的检索语言 图 2 信息需求的转化由于这些问题的存在,用户不一定意识(PIN)到自己实际上想查询什么信息(RIN) ,他所表达出来的需求也可能与RIN 甚至PIN存在一段距离;由于查询表达式(query)只是需求的形式化表示,与前三者也可能存在差异基于以上认识,Mizzaro认为相关性反映了两个集合(信息源与用户信息需求表示)中元素之间的两两关系(见图3),比如替代品与查询表达式的相关性、信息与用户 RIN之间的相关性等;认为相关性是二维平面上的交点,图中的箭头表示偏序关系通过图3可以解释许多已经得到广泛认同的相关性类别比如,Vickery的“主题相关性”以及“用户相关性”分别对应图中的点1与3,而Cranfield 实验以及TREC所依赖的相关性则为点1或点23.1.3 第三维:时间早先多数学者只考虑了上述二维的情况,实践证明这是远远不够的。

      文献、替代品或者信息对于某一特定的查询而言,可能在某一时刻是相关的,在其他时刻又是不相关的这种变化常发生于用户已经学习了新知识或者RIN 发生改变的时候因此,图3的二维平面必须修正以适应用户与信息检索系统的动态交互过程(见图4) 时间维典型地体现了相关判断的动态性,由于用户具备的知识及其RIN都会随着时间的推移而变化,因此其对文献相关性的判断也必然是动态变化的目前,时间因素对相关性的影响已经得到学界的认同,但也随之产生了另一个难以解决的问题,即相关性判别标准的制订更为棘手图 3 二维空间的相关性模型3.1.4 第四维:构件Mizzaro认为图3与图4中的每一点可以分解为主题(topic) 、任务(task)背景(context)3 个构件其中主题是用户的兴趣域; 任务是用户信息查询后在所获文献的基础上开展的活动; 背景则包含了主题与任务之外的所有内容总之,Mizzaro认为相关性集合可以定义为前面四维各自所形成集合的笛卡儿积,即信息源x用户信息问题表示x时间x构件四维模型虽然将相关性的各个层面分析得淋漓尽致,但也已经将相关性置于无法准确测度的境地3.2 交互模型上个世纪50以及60年代的信息检索系统是静态的批处理系统,从70年代开始,由于计算机网络技术的进步,信息检索系统逐渐发展成为动态的交互系统。

      实践中,交互已经成为信息检索系统一个非常重要的特征Ingwersen、Bel-kin以及Saracevic分别提出了信息检索交互的认知模型、片段模型以及层次模型3.2.1 认知模型Ingwersen的认知模型集中于发掘所有信息检索过程所涉及的认知元素,包括信息对象、信息检索系统与设施、界面、用户的认知空间以及社会/组织环境等该模型的主要观点包括:①信息检索交互是一组认知过程的集合,并隐含在信息检索的所有过程中② 用户在与系统的交互过程中完成大量的认知建模除了系统之外,用户还与信息对象进行交互③用户的认知空间是一组结。

      点击阅读更多内容
      关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
      手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
      ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.