现代信息查询与利用第7章信息检索及发展.ppt
58页第7章 信息检索及发展《现代信息查询与利用》课程组•7.1信息检索概述•信息检索研究历史和现状•7.3信息检索模型37.1.1 7.1.1 信息检索词汇(信息检索词汇(terms))检索的含义“检索就是查找”,这仅仅是一种狭义的解释从广义的角度讲,检索包括“存贮”和“查找”两个过程没有存贮就没有查找,存贮是为了查找,但查找必须有存贮,两者缺一不可4信息检索词汇(信息检索词汇(terms))“检索”(Retrieval)一词是一个外来词,来源于英语“InformationRetrieval”(信息检索)Informationretrieval(IR)Informationaccess(obtain)Informationsearch(lookfor)Informationsearching(lookfor)Informationseeking(focusonusers,active)locatehit7.1.2 信息检索的原理•信息检索是指从任何信息集合中查出所需信息的活动、过程与方法。
广义的信息检索还包括信息存贮,两者又往往合并称为“信息存贮与检索(Informationstorageandretrieval)信息检索的原理•信息存贮与检索信息检索的起源•信息检索起源于图书馆的参考咨询和文摘索引工作,从19世纪下半叶首先开始发展,至20世纪40年代,索引和检索成已为图书馆独立的工具和用户服务项目•随着1946年世界上第一台电子计算机问世,计算机技术逐步走进信息检索领域,并与信息检索理论紧密结合起来;脱机批量情报检索系统、联机实时情报检索系统8信息检索发展阶段信息检索发展阶段●手工操作(manual)●计算机化(computerized)●网络化(networked)●智能化(intelligentized)●认知化(cognized)9主要检索系统类型主要检索系统类型•联机检索(onlinesearch)脱机检索(offlinesearch)•光盘检索(CDsearch)•网络检索(Interne/Websearch)全球数字图书馆系统(digitalglobalsystem)101 1、、 联机检索联机检索(online search)(online search) 通信网络 联机检索中心 检索终端 数据库 主机 WAN微机11检索终端局域网 服务器 光驱 LAN N微机光盘联机检索(CD online)12网络(网络(Internet)信息检索)信息检索Internet网络检索网络检索分布、开放、异种机;分布、开放、异种机;客户机客户机/服务器模式,服务器模式,浏览器浏览器/服务器模式服务器模式信息量大,无质量控制;信息量大,无质量控制;自动发掘、采集;自动发掘、采集;免费服务居多免费服务居多个人用户检索模式;个人用户检索模式;WIMP (浏览(浏览+检索);检索);自然语言自然语言检索为主检索为主13信息检索研究历史和现状•研究历史和现状–1948年C.N.Mooers在其MIT硕士论文中第一次使用了“InformationRetrieval”这个术语–1960-70年代在建立文摘检索系统中,产生了布尔模型(BooleanModel)、向量空间模型(VectorSpaceModel)和概率检索模型(ProbabilisticModel)14信息检索研究历史和现状•研究历史和现状–1980年代出现商用数据库检索系统:Dialog,ORBIT,MEDLINE–1990’s第一个网络搜索工具:1990年加拿大蒙特利尔大学开发的FTP搜索工具Archie15信息检索研究历史和现状•研究历史和现状–第一个WEB搜索引擎:•1994年美国CMU开发的Lycos•1995斯坦福大学博士生开发Yahoo•1998斯坦福大学博士生开发的Google,提出PageRank计算公式•1998年基于语言模型的IR模型提出16信息检索研究历史和现状•研究历史和现状–1990年代推荐系统的出现:Ringo,Amazon,NetPerceptions–文本分类和聚类的使用、信息抽取:Whizbang17信息检索研究历史和现状•研究历史和现状–2000’s的重要事件•文本检索会议TREC(TextRetrievalConference)的发展•问答系统评测专项Q/Atrack(QuestionAnsweringTrack)•2001年,百度成立18信息检索研究历史和现状•研究历史和现状–2000’s以来的其他重要事件•多媒体IR,Image,Video,Audioandmusic•跨语言IR,DARPATides,文本摘要,DUC评测197.3 检索模型•三类–7.3.1基于内容的信息检索模型–7.3.2结构化模型–7.3.3浏览型数学模型20检索模型分类信息检索模型检索模型浏览模型内容模型结构模型布尔模型向量模型概率模型非重叠链表模型邻近节点模型平坦模型结构导向模型超文本模型217.3.1 内容模型•基于内容的信息检索模型有–集合论模型•布尔模型、模糊集合模型、扩展布尔模型–代数模型•向量空间模型、广义向量空间模型、潜在语义标引模型、神经网络模型227.3.1 内容模型•基于内容的信息检索模型有–概率模型•经典概率论模型、推理网络模型、置信(信念)网络模型23检索模型的基本概念——相关概念•标引项(IndexTerm)–文档表示成多个Term的集合–通常用词来表示,但是也可以用其他语言单位来表示–关键词(keywords)可以看成Term的一种•标引项的权重(Weight)–不同标引项作用是不同的–通过权重加以区分24检索模型的基本概念——模型要素•F是一个框架,用以构建文档,查询以及它们之间关系的模型•D是一个文档集合,通常由文档逻辑视图来表示。
可以是一组索引词或关键词既可以自动提取,也可以是由人主观指定25检索模型的基本概念——模型要素•Q是一个查询集合,是用户任务的表达,由查询需求的逻辑视图来表示•R(qi,dj)是一个排序函数,它给查询qi和文档dj之间的相关度赋予一个排序值•即:IR模型由上述三个要素组成R(qi,dj)=F(D,Q)261、 布尔模型•一种简单的检索模型,它建立在经典的集合论和布尔代数的基础上271、 布尔模型•基本原理–系统索引词集合中的每一个索引词在一篇文档中只有两个状态•出现•不出现–检索提问式q由三种布尔运算符“and”、“or”、“not”连接索引词来构成28布尔模型•集合的几种表示–具有某种属性的事物的全体就构成一个集合,以A,B,C,…表示构成集合的事物,以a,b,c,…表示该集合的元–某个图书馆现存的所有图书——有限集以S1={a,b,c,d}表示29布尔模型•集合的几种表示–所有的正整数——无限集以S2={1,2,3,4,…}表示–P(x)表示与元x有关的一个属性S3={x|x是正偶数}S4={x|1 •sim(dj,q)为该模型的匹配函数(相似度)36布尔模型布尔模型——优缺点优缺点优点简单而整齐自我保护功能,降低用户对搜索系统的期望,使自己不在责任方,检索结果不好的原因在于用户构造查询不好简单、易理解、简洁的形式化缺点它的检索策略是基于二值决策准则,即一个文档只被判断成相关的或不相关的,无任何等级变化 当用布尔表达式表示精确语义的时候,很难将信息表达为一个布尔表达式 准确匹配,信息需求的能力表达不足布尔模型目前仍然是商业文档数据库的主流模型,并为一些新的领域提供了一个好的起点382、向量模型——n维向量•考虑从空间坐标系原点出发(其他向量可以平移到原点出发)的向量,其终点坐标为 向量之间通过距离计算得到查询和每个文档的相似度 * 可从下载全部源码和相关语料44向量模型——模型含义•向量模型通过分派非二值权重给查询和文档中的索引项来实现检索目标•这些权重用于计算系统中的每个文档与用户的查询请求的相似程度,向量模型通过对文档按照相似程度降序排列的方式,来实现文档与查询项的部分匹配•结果中的文档排列顺序比通过布尔模型得到的结果要合理得多45向量模型——模型含义•在该模型中,与(ki,dj)相关联的权重wi,j是一个非二值数•查询中的索引项也是有权重的,设wi,q是与(ki,q)相关联的权重,且wi,q≥0,则查询向量Q被定义成Q=(w1,q,w2,q,w3,q…………wt,q)其中,t是系统中所有索引项的数目46向量模型——模型含义•文档dj的向量可以表示为wj=(w1,j,w2,j,w3,j………wt,j),•向量模型通过wj和Q的相关度来评价文档dj和查询q的相关度这种关系可以用定量表示,一般使用两个向量之间的夹角余弦值来计算47向量模型——模型含义•变量wi称为权值,非负–表示对应词项ki对于判断d和查询q相关性的重要程度(注意,这里的q是一般的,而d是具体的)q= 设想这个文档集合是一个理想的结果集507.3.3 概率模型•基本假设–给定一个查询q和文档集中一个文档dj,概率模型试图找出用户对其感兴趣的概率•模型假设这个概率只是依赖于查询和文档的表示,进而模型假设文档集中存在一个子集,它使得总体相关概率在集合中的文档被认为是与查询相关的,不在集合中的则被认为是不相关的51概率模型——贝叶斯定理•贝叶斯定理•词条的独立假设P(AB)=P(A)P(B)当且仅当A与B相互独立•对一篇文档而言,若文档中的各个索引词相互独立,则有P(dj)=P(k1)…P(kt)52概率模型——模型定义•定义–设索引词的权重为二值的,即:–R表示已知的相关文档集(或最初的猜测集),用表示R的补集表示文档dj与查询q相关的概率,表示文档dj与查询q不相关的概率文档dj与查询q的相似度sim(dj,q)可以定义为:53概率模型——优缺点•优点–理论上讲,文档按照其与目标集合的相关概率降序排列•缺点–需要最初将文档分为相关和不相关的集合–所有权重都是二值的,模型中仍然假设索引项之间是相互独立的54比较•布尔、向量和概率模型是三个传统的检索模型–布尔模型是基于集合理论和布尔代数的一种简单检索模型–向量模型采用非二值的索引项权重,把文档和查询用t维权重向量表示,计算这两个向量之间的相似度来实现查询与文档的匹配–概率模型是一种规范的模型,它试图预测给定查询的相关文档,排序原则根据文档与集合的相似度进行排序557.3.2 结构化文本检索模型•结构化文档检索算法可以看作是一种信息检索算法,但排序机制并不健全–使用“匹配点”来表示文本与用户查询相匹配的词串位置–使用“区域”表示文本的块–使用“节点”表示文档的结构化组元•这样,一个节点是一个区域,具有文档的作者与用户所共知的、预定义的逻辑属性56结构化文本检索模型•基于非重叠链表的模型是把文档中的整个文本划分为非重叠文本区域,并用链表连接起来–因为有多种方法将文本分为非重叠的区域,所以,对于同一个文档,会产生多个链表–这些链表清晰的记录了文档的数据结构–在相同链表中的文本区域没有重叠,而不同链表中的文本区域可能会重叠57结构化文本检索模型•该模型是一种允许在相同文档上独立定义分层索引结构的模型,每个索引结构是一个严格的层次结构,其中每个结构组元称为节点,每个节点与一个文本区域相关,两个不同的层次结构可能涉及到两个重叠的文本区域•针对不同层次结构的用户查询,所汇集的结果是由来自其中一个层次结构的节点组成587.3 浏览模型•三种浏览模型:平坦模型,结构导向模型和超文本模型–平坦模型把文档(集)看成是一个平坦的文档空间。 由于是平坦的,这种模型的导航关系不清楚–结构导向模型提供了层次性目录式的导航模型,是一种非平坦模型–超文本模型是由节点和链组成的非线性的信息组织网络,能够为用户提供比上两种模型更多的信息,更方便的浏览,Web是它最成功的应用。





