电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本
换一换
首页 金锄头文库 > 资源分类 > PPT文档下载
分享到微信 分享到微博 分享到QQ空间

信息存储与检索 教学课件 ppt 作者 王知津 第9章

  • 资源ID:89503428       资源大小:815.50KB        全文页数:65页
  • 资源格式: PPT        下载积分:10金贝
快捷下载 游客一键下载
账号登录下载
微信登录下载
三方登录下载: 微信开放平台登录   支付宝登录   QQ登录  
二维码
微信扫一扫登录
下载资源需要10金贝
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
如填写123,账号就是123,密码也是123。
支付方式: 支付宝    微信支付   
验证码:   换一换

 
账号:
密码:
验证码:   换一换
  忘记密码?
    
1、金锄头文库是“C2C”交易模式,即卖家上传的文档直接由买家下载,本站只是中间服务平台,本站所有文档下载所得的收益全部归上传人(卖家)所有,作为网络服务商,若您的权利被侵害请及时联系右侧客服;
2、如你看到网页展示的文档有jinchutou.com水印,是因预览和防盗链等技术需要对部份页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有jinchutou.com水印标识,下载后原文更清晰;
3、所有的PPT和DOC文档都被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;下载前须认真查看,确认无误后再购买;
4、文档大部份都是可以预览的,金锄头文库作为内容存储提供商,无法对各卖家所售文档的真实性、完整性、准确性以及专业性等问题提供审核和保证,请慎重购买;
5、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据;
6、如果您还有什么不清楚的或需要我们协助,可以点击右侧栏的客服。
下载须知 | 常见问题汇总

信息存储与检索 教学课件 ppt 作者 王知津 第9章

第九章 信息检索评价与实验,www.1ppt.com,信息存储与检索,本章目录,9.1 引言 9.2 信息检索相关性理论 9.3 信息检索评价指标体系 9.4 信息检索评价的过程与方法 9.5 经典的信息检索评价实验 9.6 信息检索评价实验平台:TREC,www.1ppt.com,信息存储与检索,第一节 引言,信息检索系统评价的内容包括:资源的收录状况、数据的质量、检索的功能与效率、系统的功能以及检索结果的反馈形式等。,数据的评价主要从两个方面考察: 一是数据的录入质量,如数据的错误率,数据的结构是否合理,数据的完整性如何,数据的著录是否完备等; 二是数据的加工质量,如数据的加工深度,数据的标引质量,数据的分类是否合理等。,www.1ppt.com,信息存储与检索,第一节 引言,检索的功能与效率的评价主要考察检索入口能否满足用户的需求,检索的组配是否丰富,查准率和查全率是否得当,检索的响应速度如何等。 检索功能和效率与检索算法有密切的关系,由于检索算法难以分辨出优劣,因此,可以通过检索界面、查全率和查准率以及检索响应时间等来判断检索的效率。,www.1ppt.com,信息存储与检索,第一节 引言,近年来,信息检索评价研究已从系统的输入方面的特性逐渐向检索者输入方面的特性转移,开始注重研究检索专家的特性(如教育背景、经验、个性等)与检索成功率之间的关系。有些评价者还考察了采用不同检索键所引起的变化,例如,分别用题名关键词、文摘关键词、叙词、原文中的词,或者分别用主题词与引文对相同的课题进行检索时,检索结果之间的差异。,www.1ppt.com,信息存储与检索,第一节 引言,整体而言,信息检索评价活动范围扩大了,评价水平在不断提高,积累了大量有价值的试验或调查数据,初步揭示了检索系统及其各组成部分的运行机制及对系统性能的影响。不过需要指出的是,就目前状况而言,我们对用户需求相关性判断和系统行为的本质方面的探索还显得不足,有些评价方法还需要进一步完善,评价结果的解析和验证也有待进一步深入和加强。,www.1ppt.com,信息存储与检索,第二节 信息检索相关性理论,9.2.3 面向系统的相关性,3,3,9.2.4 面向用户的相关性,4,www.1ppt.com,信息存储与检索,9.2.1 相关性概念及其特征,(一)相关性的概念 相关性问题的出现:1958年,著名学者B.C.Vickery在 ICSI(the International Conference for Scientific Information)上的两篇会议论文引发对“相关性”概念的最初讨论,“相关性”问题由此得到明确提出。 所谓“相关性判断”,是指信息检索中判断者在某一时刻对某种相关性的一种赋值操作。这个定义中包含了相关性判断的四个基本组成要素,分别是:相关性类型、判断者类型、判断时间和判断结果表达方式。,www.1ppt.com,信息存储与检索,9.2.1 相关性概念及其特征,相关性类型,指基于何种相关性进行判断; 判断者类型,指实施判断的主体,通常分为用户(user)与非用户(non-user)两大类,其中,用户指检索系统的真实用户,非用户则包括检索系统设计者、检索中介等在内的各类人员; 判断时间,很明显在不同的时间点,相关性判断的结果可能是不同的,所以判断时间也是相关性判断的基本组成要素; 判断结果的表达方式,指对相关性的赋值方法。,www.1ppt.com,信息存储与检索,9.2.1 相关性概念及其特征,(一)相关性的特征 1 关系 2 直觉 3 多维 4 动态,www.1ppt.com,信息存储与检索,9.2.2 影响相关性判断的变量,(一)文献与文献表示 文献与文献表示是检索的对象,对人的相关性判断有直接影响。人们比较了题名、题录、文摘和全文对相关性判断的不同影响,分析了文献的风格和内容专指性与相关性判断的联系,发现:文献的主题内容是影响判断的最重要因素。文献内容愈具体,愈有利于相关性判断。文献的风格也可能影响判断。对同一文献,分别根据其题名、题录、文摘、全文来判断与特定提问的相关性,判断结果有差异。,www.1ppt.com,信息存储与检索,9.2.2 影响相关性判断的变量,(二)提问 提问促使文献作为答案输出、提问的专指性,判断者在不同研究阶段的知识状态以及提问的措辞等方面对判断均有影响。判断者对提问本身了解越多,对提问与答案的推断越深入,判断的一致性就越高。提问文本与相关文献文本之间似乎存在着较高的相似性和关联性,而在提问与非相关文献文本之间却未发现这种相似性。此外,判断者对提问本身知道得愈少,判断文献为相关的倾向性就愈大。,www.1ppt.com,信息存储与检索,9.2.2 影响相关性判断的变量,(三)判断环境与条件 这里主要指判断时间、人们对相关性的解释及其它环境因素。一些实验发现:实验条件的变化可能导致判断的变化;判断环境中的压力(如时间紧迫感)越大,会导致相关率越高;对相关性的不同解释并不一定导致不同的相关率。,www.1ppt.com,信息存储与检索,9.2.2 影响相关性判断的变量,(四)判断表达模式 这个变量是指供判断者用来表达判断的方式或手段,如文献相关性的等级划分、分支设置方法等。一些实验发现:不同的相关性分级方法对判断差异影响很小:分级越多,判断越方便;问卷方式对表达判断较有利;对一组相关度较高的文献,及时判断者的背景不同,也可望使判断达到显著的一致性。,www.1ppt.com,信息存储与检索,9.2.2 影响相关性判断的变量,(五)判断者的特性 这里主要指判断者的教育程度,特别是专业教育水平和身份。一些试验发现:判断者的专业知识越高深,相关性判断的一致性就越好;高级专业人员的判断一致度为0.55-0.75,情报服务人员为0.45-0.60;专业知识越少,相关性判断就越宽大;非专业人员(如图书情报人员)倾向于赋予较高的相关性比例;文献利用目的不同,可能会产生判断差异;判断相关不同于判断非相关,前者的一致率低于后者。,www.1ppt.com,信息存储与检索,9.2.3 面向系统的相关性,面向系统的相关性(system-oriented relevance)是把信息检索定位于一种单方向的信息处理过程,系统根据用户的提问输出检索结果,用户是信息的接受者。这种理解把相关性看做是系统方面的属性,用户提出的查询请求只是被拿来与已经确定的文档相比较,二者之间匹配、比较的主要标准就是文档内容与提问的“主属性”(topicality)。因此,系统角度的相关性也被称为“主题相关”或“算法相关”。,www.1ppt.com,信息存储与检索,9.2.4 面向用户的相关性,面向用户的相关性(user-oriented relevance)主要观察并考虑用户对检索结果的反应,是系统检索结果向用户需求的再投射。随着检索系统日益广泛的应用及专家检索模式向最终用户检索模式的转变,检索评价研究开始更多地思考相关性判断中人的因素和影响。事实上,信息检索不应是一个单向的处理过程,而是一个不断迭代、交互的人机对话过程。在检索性能评价过程中,脱离用户谈相关是不现实的,也是不可能的。一篇检出文档是否具有相关性,很大程度上取决于用户的主观判断,往往涉及用户的知识状态(state of knowledge),待处理和解决的问题、任务及所处的情境或者用户的目标、动机等众多因素。,www.1ppt.com,信息存储与检索,第三节 信息检索评价指标体系,9.3.3 费用效果指标,3,3,9.3.4 费用效益指标,4,9.3.5 Web检索系统性能评价存在的问题,5,www.1ppt.com,信息存储与检索,9.3.1系统性能指标,传统的信息检索效果评价,通常以查全率、查准率和响应时间3个指标为主,www.1ppt.com,信息存储与检索,9.3.1系统性能指标,(一)查全率 当进行检索时,检索系统把文献分成两部分,部分是与检索策略相匹配的文献,并被检索出来,用户根据自己的判断将其分成相关的文献(命中)a和不相关的文献(噪音)b;另一部分是未能与检索策略相匹配的文献,根据判断也可将其分成相关文献(遗漏)c和不相关文献(正确地拒绝)d。一般情况下,检索出来的文献数量为(a+b),相对整个系统规模来说,是很小的,而未被检出的文献(c+d)数量则非常大。此时,查全率为:,www.1ppt.com,信息存储与检索,9.3.1系统性能指标,查全率是指从检索系统检出的与某课题相关的文献信息数量与检索系统中实际与该课题相关的文献信息总量之比率。对于数据库检索系统,查全率为检索出的款目数与数据库中满足用户检索式需求的款目数之比;而对因特网信息检索来说,文献总量是很难计算的,甚至连估算都困难。要按传统的方式计算查全率,就要检验检索工具反馈的所有检索结果,而检索结果的数量有时是极大的。为此,相对查全率是一种可以实际操作的指标,但从其定义可以看出,人为因素的影响较大。,www.1ppt.com,信息存储与检索,9.3.1系统性能指标,(二)查准率 查准率(relevance ratio)可定义如下:当进行检索时,检索系统把文献分成两部分,一部分是与检索策略相匹配的文献,并被检索出来,用户根据自已的判断将其分成相关的文献(命中)a和不相关的文献(噪音)b。,www.1ppt.com,信息存储与检索,9.3.1系统性能指标,同样,对因特网信息检索来说,真实查准率也是很难计算的。因为,对于命中结果数量太大的检索课题来说,相关性判断工作量极大,很难操作。为此可以定义一个相对查准率如下:,www.1ppt.com,信息存储与检索,9.3.1系统性能指标,(三)查全率与查准率的发展 (1) R查准率 R查准率就是在返回的结果排序结果的第R个位置计算查准率,产生排序结果的单值度量。文档集合中,假设与查询相关的文档总数为R,在按与查询相关程度输出检索结果的系统中,输出从高相关位到R相关位的检索结果称为R查准率(R-precision)。R查准率是一种评价按相关顺序输出检索结果有效性的度量。R查准率方法对于观察一种算法在试验中每个查询的有效性是非常有用的。,www.1ppt.com,信息存储与检索,9.3.1系统性能指标,(2) F调和均值 排序结果中第j个文档的查全率与查准率的调和均值称为调和均值(F-measure)。 调和均值取值范围在0,1范围内,当查全率和查准率双方的值都大时,取的值大。取值越大表示性能越好。,www.1ppt.com,信息存储与检索,9.3.1系统性能指标,(3)E均值 均值(measure)允许用户指定是对查全率更感兴趣还是对查准率更感兴趣。E均值定义如下: B是表示重视查全率还是查准率的参数。b=1表明查全率和查准率是同等重要。b1表示与查全率相比,更看重查准率。b1表示与查准率相比更重视查全率。E的取值范围是0,1,E取值越小表示性能越好。当比b=1时,E的值中用1减去的部分就是F的值。,www.1ppt.com,信息存储与检索,9.3.1系统性能指标,Ranking指标,www.1ppt.com,信息存储与检索,9.3.1系统性能指标,(四)响应时间 响应时间(response time)指在一次检索过程中,用户从开始向信息检索系统提问到系统输出检索结果的全部时间。 一般来说,响应时间越短,查全率和查准率越高,那么信息检索效果就越好。,www.1ppt.com,信息存储与检索,9.3.1系统性能指标,(五)常用的其它性能指标 收录范围(coverage)又称数据覆盖率,数据库收录范围指标被作为衡量查全率的一项辅助指标,用以揭示数据库的涵盖范围。它的计算公式为“给定时间内系统收录的文献总量”与“同期相关领域中的实际文献量”之比。一个信息检索系统收录范围直接影响到用户信息需求的满足程度。 新颖率(novel

注意事项

本文(信息存储与检索 教学课件 ppt 作者 王知津 第9章)为本站会员(E****)主动上传,金锄头文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即阅读金锄头文库的“版权提示”【网址:https://www.jinchutou.com/h-59.html】,按提示上传提交保证函及证明材料,经审查核实后我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.