您所在位置：网站首页 > 资格认证/考试 > 自考 > 第7章信息检索及发展ppt课件

第7章信息检索及发展ppt课件.ppt

58页

卖家[上传人]：工****

文档编号：593600439

上传时间：2024-09-26

文档格式：PPT

文档大小：463KB

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

20金贝

下载

/ 58 举报版权申诉马上下载

文本预览

下载提示

常见问题

第7章信息检索及开展<现代信息查询与利用>课程组•7.1信息检索概述•7.2信息检索研讨历史和现状•7.3信息检索模型37.1.1 7.1.1 信息检索词汇〔信息检索词汇〔termsterms〕〕检索的含义“检索就是查找〞，这仅仅是一种狭义的解释从广义的角度讲，检索包括“存贮〞和“查找〞两个过程没有存贮就没有查找，存贮是为了查找，但查找必需有存贮，两者缺一不可4信息检索词汇〔信息检索词汇〔termsterms〕〕“检索〞〔Retrieval〕一词是一个外来词，来源于英语“InformationRetrieval〞〔信息检索〕Informationretrieval(IR)Informationaccess(obtain)Informationsearch(lookfor)Informationsearching(lookfor)Informationseeking(focusonusers,active)locatehit7.1.2 信息检索的原理•信息检索是指从任何信息集合中查出所需信息的活动、过程与方法。

广义的信息检索还包括信息存贮，两者又往往合并称为“信息存贮与检索(Informationstorageandretrieval)信息检索的原理•信息存贮与检索信息检索的来源•信息检索来源于图书馆的参考咨询和文摘索引任务，从19世纪下半叶首先开场开展，至20世纪40年代，索引和检索成已为图书馆独立的工具和用户效力工程•随着1946年世界上第一台电子计算机问世，计算机技术逐渐走进信息检索领域，并与信息检索实际严密结合起来；脱机批量情报检索系统、联机实时情报检索系统87.1.37.1.3信息检索开展阶段信息检索开展阶段●手工操作(manual)●计算机化(computerized)●网络化(networked)●智能化(intelligentized)●认知化(cognized)97.1.47.1.4主要检索系统类型主要检索系统类型•联机检索(onlinesearch)•脱机检索〔offlinesearch〕•光盘检索〔CDsearch〕•网络检索〔Interne/Websearch〕•全球数字图书馆系统〔digitalglobalsystem〕101 1、、联机检索联机检索(online search)(online search) 通讯网络通讯网络联机联机检索中心检索中心检索终端检索终端数据库主机主机 WAN微机11检索终端局域网效力器效力器光驱光驱 LAN LAN微机光盘联机检索(CD online)12网络〔网络〔Internet〕信息检索〕信息检索Internet网络检索网络检索分布、开放、异种机；分布、开放、异种机；客户机客户机/服务器模式，服务器模式，浏览器浏览器/服务器模式服务器模式信息量大，无质量控制；信息量大，无质量控制；自动发掘、采集；自动发掘、采集；免费服务居多免费服务居多个人用户检索模式；个人用户检索模式；WIMP （浏览（浏览+检索）；检索）；自然语言自然语言检索为主检索为主137.2信息检索研讨历史和现状•研讨历史和现状•1948年C.N.Mooers在其MIT硕士论文中第一次运用了“InformationRetrieval〞这个术语•1960－70年代在建立文摘检索系统中，产生了布尔模型(BooleanModel)、向量空间模型(VectorSpaceModel)和概率检索模型(ProbabilisticModel)147.2信息检索研讨历史和现状•研讨历史和现状•1980年代出现商用数据库检索系统：Dialog，ORBIT,MEDLINE•1990’s第一个网络搜索工具：1990年加拿大蒙特利尔大学开发的FTP搜索工具Archie157.2信息检索研讨历史和现状•研讨历史和现状•第一个WEB搜索引擎：•1994年美国CMU开发的Lycos•2019斯坦福大学博士生开发Yahoo•2019斯坦福大学博士生开发的Google，提出PageRank计算公式•2019年基于言语模型的IR模型提出167.2信息检索研讨历史和现状•研讨历史和现状•1990年代引荐系统的出现：Ringo，Amazon，NetPerceptions•文本分类和聚类的运用、信息抽取：Whizbang177.2信息检索研讨历史和现状•研讨历史和现状•2000’s的重要事件•文本检索会议TREC(TextRetrievalConference)的开展•问答系统评测专项Q/Atrack(QuestionAnsweringTrack)•2019年，百度成立187.2信息检索研讨历史和现状•研讨历史和现状•2000’s以来的其他重要事件•多媒体IR，Image，Video，Audioandmusic•跨言语IR，DARPATides，文本摘要，DUC评测197.3 检索模型•三类•7.3.1基于内容的信息检索模型•7.3.2构造化模型•7.3.3阅读型数学模型20检索模型分类信息检索模型检索模型阅读模型内容模型构造模型布尔模型向量模型概率模型非重叠链表模型临近节点模型平坦模型构造导向模型超文本模型217.3.1 内容模型•基于内容的信息检索模型有•集合论模型•布尔模型、模糊集合模型、扩展布尔模型•代数模型•向量空间模型、广义向量空间模型、潜在语义标引模型、神经网络模型227.3.1 内容模型•基于内容的信息检索模型有•概率模型•经典概率论模型、推理网络模型、置信〔信心〕网络模型23检索模型的根本概念——相关概念•标引项(IndexTerm)•文档表示成多个Term的集合•通常用词来表示，但是也可以用其他言语单位来表示•关键词(keywords)可以看成Term的一种•标引项的权重(Weight)•不同标引项作用是不同的•经过权重加以区分24检索模型的根本概念——模型要素•F是一个框架,用以构建文档,查询以及它们之间关系的模型•D是一个文档集合，通常由文档逻辑视图来表示。

可以是一组索引词或关键词既可以自动提取，也可以是由人客观指定25检索模型的根本概念——模型要素Q是一个查询集合，是用户义务的表达，由查询需求的逻辑视图来表示R(qi,dj)是一个排序函数，它给查询qi和文档dj之间的相关度赋予一个排序值即:IR模型由上述三个要素组成R(qi,dj)=F(D,Q)261、布尔模型•一种简单的检索模型，它建立在经典的集合论和布尔代数的根底上271、布尔模型根本原理系统索引词集合中的每一个索引词在一篇文档中只需两个形状出现不出现检索提问式q由三种布尔运算符“and〞、“or〞、“not〞衔接索引词来构成28布尔模型•集合的几种表示•具有某种属性的事物的全体就构成一个集合，以A,B,C,…表示构成集合的事物，以a,b,c,…表示该集合的元•某个图书馆现存的一切图书——有限集以S1＝{a,b,c,d}表示29布尔模型•集合的几种表示•一切的正整数——无限集以S2＝{1,2,3,4,…}表示•P(x)表示与元x有关的一个属性S3＝{x|x是正偶数}S4＝{x|1

•sim(dj,q)为该模型的匹配函数(类似度)36布尔模型布尔模型——优缺点优缺点优点简单而整齐自我保护功能，降低用户对搜索系统的期望，使自己不在责任方，检索结果不好的原因在于用户构造查询不好简单、易理解、简洁的形式化缺点它的检索策略是基于二值决策准则，即一个文档只被判断成相关的或不相关的，无任何等级变化当用布尔表达式表示精确语义的时候，很难将信息表达为一个布尔表达式准确匹配，信息需求的能力表达不足布尔模型目前依然是商业文档数据库的主流模型，并为一些新的领域提供了一个好的起点382、向量模型——n维向量•思索从空间坐标系原点出发〔其他向量可以平移到原点出发〕的向量，其终点坐标为，我们称之为一个n维向量392、向量模型——n维向量向量的运算加、减、倍数、内积40向量模型——空间概念•文献空间•假设把每个标引词看作是一个向量，代表了空间的一个维，那么由这些标引词集合定义了一个空间•文献集合中的任一文献都可以表示为这个多维空间中的一个向量，这个空间就成为“文献空间〞41向量模型——空间概念标引词空间文献集合中的一篇文献可看成是标引词空间的一个维，空间中的一点代表一个标引词点从原点到该点的向量就是一个标引词向量它在各个轴上的分量就是该标引词在各个轴所代表的相应文献中的权重42向量模型——模型含义•向量空间模型(VectorSpaceModel,VSM)•由康奈尔大学Salton等人在上世纪70年代末提出并倡导的，原型系统为SMART*•该模型采用了“部分匹配〞的检索战略，即：出现部分索引词也可以出如今检索结果中，以抑制布尔模型的缺陷•*可从ftpftp.cs.cornell.edu/pub/smart/下载全部源码和相关语料43向量模型——模型含义• 向量空间模型向量空间模型(Vector Space Model, VSM) • 经过给查询或文档中的索引词分配非二值权值来实现经过给查询或文档中的索引词分配非二值权值来实现• 查询和文档都可转化成查询和文档都可转化成Term及其权重组成的向量表及其权重组成的向量表示，并可以看成空间中的点。

向量之间经过间隔计算示，并可以看成空间中的点向量之间经过间隔计算得到查询和每个文档的类似度得到查询和每个文档的类似度• * 可从可从ftpftp.cs.cornell.edu/pub/smart/下载全部下载全部源码和相关语料源码和相关语料44向量模型——模型含义•向量模型经过分派非二值权重给查询和文档中的索引项来实现检索目的•这些权重用于计算系统中的每个文档与用户的查询恳求的类似程度，向量模型经过对文档按照类似程度降序陈列的方式，来实现文档与查询项的部分匹配•结果中的文档陈列顺序比经过布尔模型得到的结果要合理得多45向量模型——模型含义•在该模型中，与〔ki，dj〕相关联的权重wi,j是一个非二值数•查询中的索引项也是有权重的，设wi,q是与〔ki，q〕相关联的权重，且wi,q≥0，那么查询向量Q被定义成Q=〔w1,q，w2,q，w3,q…………wt,q〕其中，t是系统中一切索引项的数目46向量模型——模型含义文档dj的向量可以表示为wj=〔w1,j，w2,j，w3,j………wt,j〕，向量模型经过wj和Q的相关度来评价文档dj和查询q的相关度。

这种关系可以用定量表示，普通运用两个向量之间的夹角余弦值来计算47向量模型——模型含义•变量wi称为权值，非负•表示对应词项ki对于判别d和查询q相关性的重要程度〔留意，这里的q是普通的，而d是详细的〕q=•变量vi的含义类似于wi•两个根本问题：•如何定义wi和vi•如何计算R(d,q)48向量模型——模型含义•设wi和vi为对应的词分别在d和q中出现的次数，于是我们有了两个m维向量，用夹角的cos表示“接近度〞，即493、概率模型•概率模型根本思想是：•给定一个用户的查询，那么有一个包含相关文档且不包含不相关文档的集合想象这个文档集合是一个理想的结果集507.3.3 概率模型•根本假设•给定一个查询q和文档集中一个文档dj，概率模型试图找出用户对其感兴趣的概率•模型假设这个概率只是依赖于查询和文档的表示，进而模型假设文档集中存在一个子集，它使得总体相关概率在集合中的文档被以为是与查询相关的，不在集合中的那么被以为是不相关的51概率模型——贝叶斯定理•贝叶斯定理•词条的独立假设•P(AB)=P(A)P(B)当且仅当A与B相互独立•对一篇文档而言，假设文档中的各个索引词相互独立，那么有•P(dj)=P(k1)…P(kt)52概率模型——模型定义•定义•设索引词的权重为二值的，即：•R表示知的相关文档集〔或最初的猜测集〕，用表示R的补集。

表示文档dj与查询q相关的概率，表示文档dj与查询q不相关的概率文档dj与查询q的类似度sim(dj,q)可以定义为：53概率模型——优缺陷•优点•实际上讲，文档按照其与目的集合的相关概率降序陈列•缺陷•需求最初将文档分为相关和不相关的集合•一切权重都是二值的，模型中依然假设索引项之间是相互独立的54比较•布尔、向量和概率模型是三个传统的检索模型•布尔模型是基于集合实际和布尔代数的一种简单检索模型•向量模型采用非二值的索引项权重，把文档和查询用t维权重向量表示，计算这两个向量之间的类似度来实现查询与文档的匹配•概率模型是一种规范的模型，它试图预测给定查询的相关文档，排序原那么根据文档与集合的类似度进展排序557.3.2 构造化文本检索模型•构造化文档检索算法可以看作是一种信息检索算法，但排序机制并不健全•运用“匹配点〞来表示文本与用户查询相匹配的词串位置•运用“区域〞表示文本的块•运用“节点〞表示文档的构造化组元•这样，一个节点是一个区域，具有文档的作者与用户所共知的、预定义的逻辑属性56构造化文本检索模型•基于非重叠链表的模型是把文档中的整个文本划分为非重叠文本区域，并用链表衔接起来•由于有多种方法将文本分为非重叠的区域，所以，对于同一个文档，会产生多个链表•这些链表明晰的记录了文档的数据构造•在一样链表中的文本区域没有重叠，而不同链表中的文本区域能够会重叠57构造化文本检索模型•该模型是一种允许在一样文档上独立定义分层索引构造的模型，每个索引构造是一个严厉的层次构造，其中每个构造组元称为节点，每个节点与一个文本区域相关，两个不同的层次构造能够涉及到两个重叠的文本区域•针对不同层次构造的用户查询，所聚集的结果是由来自其中一个层次构造的节点组成587.3 阅读模型•三种阅读模型：平坦模型，构造导向模型和超文本模型•平坦模型把文档〔集〕看成是一个平坦的文档空间。

由于是平坦的，这种模型的导航关系不清楚•构造导向模型提供了层次性目录式的导航模型，是一种非平坦模型•超文本模型是由节点和链组成的非线性的信息组织网络，可以为用户提供比上两种模型更多的信息，更方便的阅读，Web是它最胜利的运用。

点击阅读更多内容