信息检索理论模型
59页1、2018/10/17,1,第2章 信息检索理论模型,2018/10/17,2,信息检索过程,信息检索过程实际上涉及到三个重要的处理: 文档集的逻辑表示 查询的表示 相似匹配及其排序 对上述因素和检索过程建模(抽象描述),产生各种不同的信息检索模型,2018/10/17,3,信息检索模型分类,2018/10/17,4,本章主要内容,2.1 布尔检索模型 2.2 向量空间模型 2.3 概率检索模型 2.4 信息检索逻辑模型,2018/10/17,5,2.1 布尔检索模型,布尔检索模型的理论基础是布尔逻辑和集合理论,2018/10/17,6,2.1 布尔检索模型,布尔逻辑主要内容:命题逻辑与谓词逻辑 布尔逻辑是数理逻辑的基础部分 利用符号来表示逻辑中的各种概念 建立了一系列的运算法则,利用代数的方法研究逻辑问题,2018/10/17,7,布尔运算,布尔逻辑运算符: “与(AND)”、“或(OR)”、“非(NOT)”运算的定义,2018/10/17,8,传统布尔检索模型,文献表示 将文档表示成一个集合,集合中的每个元素都为一个二元变量,取值非“0”即“1”,表示该元素所代表的主题词是否包含在该
2、篇文档之内。若包括在文档中,则元素取值为1,反之则取0。 给定一个文献集合D,包含m篇文献,分别用d1,d2,d3dm表示。再给出一个标引词集合T,包含n个标引词t1,t2,tn。假定对文献集D的描述完全是基于该标引词集合的,则文献集D中任意一篇文献di就可以表示为(di1,di2,din),2018/10/17,9,传统布尔检索模型,查询表示 在布尔检索系统中,根据用户提出的检索需求,选取适当的检索标识,与布尔运算符“与”、“或”、“非”共同构成与查询相符的检索提问式,也即相应的布尔表达式 例如,布尔提问式q = t1 and(t2 or not t3) q的主析取范式 (t1 and t2 and t3)or(t1 and t2 and not t3)or(t1 and not t2 and not t3) q的简化形式qdnf (1,1,1) or (1,1,0) or (1,0,0),其中,(1,1,1)、(1,1,0)和(1,0,0)是qdnf的3个合取子项(合取子项可用符号qcc表示),2018/10/17,10,传统布尔检索模型,匹配函数,2018/10/17,11,传统
3、布尔检索模型,文献D1=(t1 ,t2 ,not t3) 查询Q=t1 and t2 and not t3,2018/10/17,12,传统布尔查询的评价,该模型结构简单、容易实现和快速检索。,2018/10/17,13,传统布尔查询的评价,布尔模型在检索系统的开发与应用中表现出的主要问题有: (1)准确匹配(exact matching)策略问题。布尔模型采用准确匹配策略,对检索过程中客观存在的一些不确定性情形绝对排斥,认为一篇文献对于某一提问要么是“相关的”,要么是“不相关的”。这种“非此即彼”的二值判断标准严重影响到检索系统的性能改善,并带来其他一些相关问题。 (2)布尔逻辑表达用户需求的能力问题。把用户的一个信息需求转换成一个恰当的布尔表达式,在很多情况下并不容易实现。,2018/10/17,14,传统布尔查询的评价,为了弥补这些缺陷,发展了一些别的检索模型,如向量空间、扩展布尔、概率检索和聚类模型。,2018/10/17,15,2.2 向量空间模型,2.2.1 传统向量空间检索 2.2.2 项的权重模式 2.2.3 相似度的计算 2.2.4 潜在语义标引,2018/10/17
4、,16,2.2.1 传统向量空间检索,向量空间模型(Vector space model)介绍 向量空间模型(VSM)的评价,2018/10/17,17,向量空间模型介绍,1. 文献空间 (1)文献空间的概念 文献集合中的任一文献都可以表示为这个多维空间中的一个向量,这个空间就称为“文献空间” 在一个文献空间内,用向量D1来代表某一文献,则该向量在这个文献空间各个轴上的分量就是相应的表述该文献的各个项的权重 文献与空间点 (2)标引词空间,2018/10/17,18,向量空间模型介绍,2018/10/17,19,向量空间模型介绍,2. 项权重 (1)词频 越重要的项分配越高的权值 可以用词频来作为该项的权重(用tf表示) (2)文献频率 假设存在一个文献集合,其中大部分的文献都包含了某一项,则说明该项对某一主题的专指度较差,可能就不太重要 在设计项权重时,要考虑逆文献频率 (用idf表示),2018/10/17,20,向量空间模型介绍,2. 项权重 (3)权重的规范化处理 为了抵消由篇幅带来的不同影响,经常要对项权重进行规范化处理 在各种规范化方法中,余弦规范是一种常用、有效的方法:t
5、fidf权重/文献向量的欧氏长度,2018/10/17,21,向量空间模型介绍,3.文献向量与查询向量的匹配 匹配函数 利用向量的内积运算,得到文献向量Di与查询向量q之间的相似度 Sim(Di,q)=Diq 简单 存在的一个主要的不足是它忽略了项之间存在一些相互联系的事实。通常,需要引入一些特别的方法来改进这个相似度计算公式,使得其能够考虑到项的相互联系这一重要因素,2018/10/17,22,向量空间模型的评价,优点 简单,功能却非常强大 能将非结构化的文献表示成向量的形式,使得各种数学处理成为可能 模型的检索效果和布尔检索模型比起来,要好得多 不足 忽略项之间存在的相互联系,必然使得检索效果产生极大的偏差 传统向量处理模型不能处理布尔表达等结构化查询 改进 广义向量空间模型(GVSM)、潜在语义标引(LSI)、概率向量处理模型以及基于语义分析的向量空间模型(SVSM),2018/10/17,23,2.2.2 项的权重模式,项向量的规范化,2018/10/17,24,项向量的规范化,构建一个项权重模式,需要涉及三个主要因素:词频、集合频率和向量的规范化。一般来说, 会为那些在特定文
《信息检索理论模型》由会员ji****72分享,可在线阅读,更多相关《信息检索理论模型》请在金锄头文库上搜索。
2024-02-09 36页
2024-01-31 31页
2024-01-28 18页
2024-01-28 31页
2024-01-28 24页
2024-01-28 27页
2024-01-28 24页
2024-01-28 25页
2024-01-28 10页
2024-01-24 52页