信息存储与检索 教学课件 ppt 作者 王知津 第2章
106页1、第二章 信息检索模型,信息存储与检索,本章目录,第一节 引言 第二节 经典模型 第三节 集合理论模型 第四节 代数模型 第五节 结构化模型,信息存储与检索,第一节 引言,任何检索策略都包含3个部分:文档表示、查询表示和匹配函数。文档表示反映文档在系统中的存储形式描述,可用一组关键词或标引词表示;查询表示反映对用户信息需求的描述;匹配函数用于将经过处理的文档表示和查询表示放入系统中进行匹配,以过滤输出结果。 信息检索系统的实现首先要对文档集进行索引和归档,以支持信息检索。检索式代表用户的信息需求。检索系统分析查询与文档表示,进行相似性匹配,排序返回查询结果。因此文档信息检索过程实际上涉及文档集的逻辑表示、用户查询表示、相似性匹配及其排序三个重要的处理。,信息存储与检索,第一节 引言,信息检索模型主要从两个方面抽象地研究信息检索方法:一是确定在检索模型中如何表示构成检索系统的两个要素,即文档和检索式;二是确定在模型中如何定义和计算文档和检索式之间的关系。 检索模型的重要作用主要体现在以下几个方面:更精确地描述出文档与文档、文档与查询间的相关关系,使之能比较和计算;安排更合理、更便于检索的文
2、档存储形式;在此基础上设计出合理的检索方式;除信息检索外,进行一些信息辅助分析工作。 传统的信息检索模型(又称经典信息检索模型)包括布尔模型、向量空间模型和概率模型。,信息存储与检索,第一节 引言,信息检索模型到底是什么?其描述如下: 信息检索模型是一个四元组/D,Q,F,R(qi, dj)/: (1)D是文档集中的一组文档逻辑视图(表示),称为文档的表示; (2)Q是一组用户信息需求的逻辑视图(表示),这种视图(表示)称之为查询; (3)F是一种机制,用于构建文档表示,查询及它们之间关系的模型; (4)R(qi, dj)是排序函数,该函数输出一个与查询qi Q和文档表示dj D有关的实数,这样就在文档之间根据查询qi定义了一个顺序。,信息存储与检索,第一节 引言,基于经典布尔模型的信息检索模型中,文档和查询用标引词集合来表示,都是建立在集合理论的基础之上,因此,我们称该类模型为集合理论模型,包括模糊集合论模型、扩展布尔模型和粗糙集模型等。 基于经典向量模型的信息检索模型中,文档和查询用t维空间的向量来表示,都是建立在代数理论的基础之上,则称该类模型为代数模型,包括广义向量模型、潜语义
3、标引模型和神经网络模型等。 基于经典概率模型的信息检索模型中,用于构建文档和查询模型的机制是基于概率论的,则称该类模型为概率模型,包括推理网络模型和信任度网络模型等。,信息存储与检索,第一节 引言,除经典模型及其改进模式外,较重要的信息检索模型还有结构化模型,主要包括:非重叠链表模型、邻近结点模型、扁平浏览模型、结构导向模型和超文本模型等。 在本章中,我们将讨论以上所述的除推理网络模型和信任度网络模型外的各种信息检索模型,推理网络模型和信任度网络模型的知识结构相对较为复杂,有兴趣的同学可利用相关资料进行学习。,信息存储与检索,第二节 经典模型,2.2.3 概率模型,3,信息存储与检索,第二节 经典模型,信息检索的经典模型认为,每篇文档可以用一组有代表性的关键词即标引词集合来描述,标引词(index term)是文档中的词,其语义可以帮助理解文档的主题;因此,标引词常用于编制索引和概括文档的内容。对于文档中的标引词集合来说,在描述文档内容时它们的作用是不尽相同的,因而应当明确标引词与文档内容的密切程度。,信息存储与检索,第二节 经典模型,用ki表示标引词,dj表示文档,wi,j 0为二元
4、组(ki, dj)的权值(weight),该权值可以用来衡量描述文档语义内容的标引词的重要性。用t表示系统中标引词的数目,K=k1, k2, . , kt是所有标引词的集合,wi,j 0是文档dj中的标引词ki的权值,对于没有出现在文档文本中的标引词,其权值wi,j =0。文档dj可以用标引词向量dj来表示:dj= (w1,j, w2,j, , wt,j)。此外,函数gi用以返回任何t维向量中标引词ki的权值,即gi (dj) = wi,j。其中,标引词的权重通常被认为是互相独立的。,信息存储与检索,2.2.1 布尔模型,布尔模型(Boolen Model)是基于集合理论和布尔代数的一种简单的检索模型,它假定标引词在文档中要么出现,要么不出现。因此,标引词的权值全部被设为二值数据,wi,j0, 1,查询q由连接词not、and、or连接起来的多个标引词所组成,如“奥运会”、“奥运会”and“中国”、“奥运会”and(“中国”or(not“体操”)等,通过对标引词与用户给出的检索式进行逻辑比较来检索文本。,信息存储与检索,2.2.1 布尔模型,设文本集D中某一文本i, 该文本可表示为:D
《信息存储与检索 教学课件 ppt 作者 王知津 第2章》由会员E****分享,可在线阅读,更多相关《信息存储与检索 教学课件 ppt 作者 王知津 第2章》请在金锄头文库上搜索。
逍遥游复习 知识点整理
近现代法德关系史 高三展示课3稿
当代大学生人生信仰及追求的调查研究
长相思 纳兰性德-ppt课件
课件:危机意识 一
英语ppt演讲关于阿甘正传
发达国家基础教育改革的动向与趋势 修改版
中国民间美术 课件.ppt
生物质发电技术与系统 课程ppt 第1章 生物质发电技术现状及发展趋势 2学时 -----2016
现代信号处理思考题 含答案
执业药师继续教育 抑郁症的药物治疗 100分
小学生的成长档案模板不用修改 万能型
增订六版 现代汉语 上册 第二章文字 思考与练习答案
国家财政ppt课件
加拿大英语介绍
六年级统计图的选择课件
中学生成长档案ppt
中国现代文学史期末复习整理
lohi和hihilo训练对女子赛艇运动员运动能力影响的比较研究
风雨贾平凹阅读答案
2024-04-11 25页
2024-04-11 37页
2024-04-11 28页
2024-04-11 31页
2024-04-11 36页
2024-04-11 29页
2024-04-11 22页
2024-04-11 27页
2024-04-11 34页
2024-04-11 32页