
[工学]信息检索技术4.ppt
52页信息检索教程检索技术第四章 计算机检索技术• 计算机检索的实质:匹配运算• 计算机检索技术检索提问检索表达式扫描、匹配识别数据库检索词的 组配技术计算机检 索技术检索表达式 的构成规则检索词:主题词、 关键词、名称、分 类号分子式等检索表达式:运用 各种运算符,把检 索词连接组配第四章 计算机检索技术布尔 逻辑位置 逻辑截词字段 限制加权计算机检索技术其他4.14.2 4.34.44.64.54.1 布尔逻辑检索技术• 布尔逻辑检索技术就是利用布尔逻辑算符进 行检索项的逻辑组配,用以表达检索者的提问 概念 • 布尔逻辑算符指规定检索词之间相互关系的 运算符号,在检索表达式中起着逻辑组配的作 用 复杂概念的复杂概念的 检索式检索式组配检索词检索词检索词检索词检索词检索词简 单4.1 布尔逻辑检索技术• 常用的布尔逻辑运算符:– 逻辑“与(AND)”– 逻辑“或(OR)”– 逻辑“非(NOT)” • 运算顺序4.1.1 逻辑“与”• 运算符:AND 或 *用于交叉概念或限定关系的组配,实现检 索词概念范围的交集表达式:A and B 或 A*BBAnd两侧的检索 词必须同时出现 在检索字段中检出同时含有检 索词A和检索词B 的记录A4.1.1 逻辑“与”• 作用 缩小检索范围,提高查准率。
• 举例检索“人口控制”或者“控制人口”方面的 文献信息人口 and 控制4.1.2 逻辑“或”• 运算符:OR 或 +用于检索词并列关系(同义词、近义词 )的组配,实现检索词概念范围的并集表达式:A or B 或 A+BB在文献记录中只要 含有检索词A和检 索词B中的任何一 个即算命中检索出的记录含有检 索词A或者检索词BA4.1.2 逻辑“或”• 作用 扩大检索范围,防止漏检,提高查全率• 举例检索“计算机” 方面的文献信息计算机 or 电脑• 使用的注意事项如果检索词涉及表达整体概念,要针对具 体情况分别列出每个表达部分概念的检索词,否 则将出现漏检4.1.3 逻辑“非”• 运算符:NOT 或 -一种排斥关系的组配,用来从原来的检 索范围中排除不需要的概念表达式:A not B 或 A-BB适用于排除含有某个 指定检索词的记录 A检索出的记录含有检 索词A,但同时不含 检索词B4.1.3 逻辑“非”• 作用 缩小检索范围,增强检索的准确性但使用不当 ,易排除有用文献信息,从而导致漏检• 举例检索有关能源方面的文献信息,但不包括核能 energy not nuclear• 使用的注意事项两个关系紧密的检索词不宜用not4.1 布尔逻辑检索技术优先级高优先级低NOTANDOR• 布尔逻辑运算符的运算顺序4.2 位置逻辑检索技术• 位置逻辑检索利用位置逻辑算符限定检索词之间的位置, 或指定检索词在记录中某一特定位置进行检索。
位置算符又称邻接运算符 • 位置逻辑检索的作用表达各个检索词之间的顺序与相对位置关系 • 与布尔逻辑检索的区别使用布尔逻辑检索时,计算机只判断参加运 算的检索词在数据库记录中出现与否,不能确定 检索词之间的相对位置关系而通过与位置算符 配合使用可以减少检索误差4.2 位置逻辑检索技术• Dialog系统中的几种位置算符 – 同词位检索(W)——(With / Word)、 (nW) (N)——(NEAR)、(nN) – 同字段检索(F)——(Field)(L)——(Link)–其他位置算符(S)——(Subfield )(C)——(Citation )4.2.1 同词位检索允许在连接的两个词之 间最多夹入n个其他单 元词,只强调插入单元 词个数没限定插入单元 词的具体范围,同时词 序不能颠倒此算符两侧的检索词必须 按输入时的前后顺序排列 ,而且所连接的词之间除 可以有一个空格或一个标 点符号或一个链接号外不 得夹有任何其他单词或字 母(W)/()(nW)举例举例严密性强严密性差(W)/()举例• 检索式American () Literature命中有关American Literature或 American,Literature的文献(nW)举例• 检索式knowledge(1W)economy命中有关knowledge economy或 knowledge-based economy的文献4.2.1 同词位检索允许两个检索词之间最 多可以插入n个单词, 且这两个检索词的词序 任意此算符两侧的检索词必 须紧密相连,所连接的 词间不允许插入任何其 他单词或字母,但词序 可以颠倒(N)(nN)举例举例(N)举例• 检索式chemistry(N)physics命中含有chemistry physics或physics chemistry的文献• 检索式economic(2N)recovery(nN)举例命中含有economic recovery或recovery of the economic的文献举 例举 例4.2.2 同字段检索(L)(F)表示此算符两 侧的检索词必 须同时出现在 同一字段内。
如:篇名字段 、文摘字段、 叙词字段等, 但两词的词序 中间插入的次 数不限表示两个检索词 之间存在从属关 系或限制关系 如果其中一个为 一级主题词,另 一个就为二级主 题词L)举例• 检索式control(L)stability命中标题含有control和stability两个 检索词的文献记录F)举例• 检索式economic(F)knowledge命中标题为“the Economic Impact of Knowledge-Based”的文献记录原因 :算符两侧的检索词在同一标题字段中4.2.3 其他位置逻辑检索• (S)——(Subfield)表示在此算符两侧的检索词必须出现在同一个子同一个子 字段字段中,顺序不变,中间可插入词数不限 • 举例(basic or cobol or pascal)(S)(program* or compil*)Basic (S) program* basic (S) compil*Cobol (S) program* cobol (S) compil*Pascal (S) program* pascal (S) compil*4.2.3 其他位置逻辑检索• (C)——(Citation)表示两侧的检索词只能出现在同一条记录同一条记录 中,且对它们的相对位置或次序没有任何限制 ,作用和布尔算符and完全相同位置逻辑算符 的优先顺序C(S)(N)(W)(F)4.2 位置逻辑检索技术严谨宽松4.3 截词检索技术• 实质截词检索就是用截词符号将检索词截断 ,用检索词的片段进行匹配运算。
• 注意在截断时,截断的词干不能太短,词干 一般应在3个字符以上,以免增加检索时间 ,产生误检4.3 截词检索技术• 截词形式– 按截词的字符数量 有限截断、无限截断–按截词的位置 右截断、左截断、中间截断4.3.1 按截词数量截断• 有限截断指限定截去有限个字符 • 截断符号??——截断1个字符???——截断2个字符依此类推 • 举例输入:product??结果:含有product、products的记录4.3.1 按截词数量截断• 无限截断检索词词干可变化两个以上字符时,连 续使用若干个“ ? ”或“ * ”代替变化字符• 用法 可同时查找含有该词干的所有文献记录,亦 可用于年代的查找4.3.2 其他截断方式1.把截词 符号置 放在一 个检索 词的中 间; 2.中截断 不允许 有限截 断1.将截词符 号放在一 个字符串 左方,表 示其左的 有限或无 限个字符 不影响该 字符串的 检索; 2.实质:后 方一致检 索1.最常用的 截词检索技 术; 2.放在字符 串右方,表 示其右有限 或无限个字 符不影响该 字符串的检 索; 3.实质:后 截断是前方 一致检索后截断前截断 中截断举例举例举例后截断举例• 输入:computer *• 检索结果computeracy computerise computerization computers隐含OR运 算特性后截断注意事项• 后截断主要使用于如下几种情况: – 检索词的单复数的描述;如:book? – 同根词的表达; 如:chemi*可以检索出chemical、 chemistry、chemist等同根词 – 年代的表达; 如:20??(21世纪),199?(20世纪90 年代) – 作者 如:Moyer*可以检索出所有姓Moyer的作 者前截断举例• 输入:*computer• 检索结果 microcomputer minicomputer中截断举例• 输入:organi ? ation • 检索结果 organization organisation • 中截断主要使用于如下几种情况: – 检索词的拼写方式存在美式 、英式之分; – 检索词在某个元音位置出现 的单复数不同; 如:man与men • 作用 扩大检索范围,提高检全率,减少检索词的输入量4.4 字段限制检索技术• 在检索系统中,通常有一些缩小或约束检 索结果的方法,称为限制检索。
• 限制检索的方式字段限制检索1使用限制符检索24.4.1 字段限制检索• 特点及作用 使检索出的文献信息达到一定的专指度将检索 词限制在记录的某个特定字段内检索,不但可以 减轻机器负担,提高运算速度,还可以使检索结 果更准确 • 用法 将需要检索的内容限制在相关的字段内如:作者姓名 作者字段关键词 关键词或题名字段4.4.1 字段限制检索• 字段种类基本字段:表达文献内容特征的字段辅助字段:表达文献外表特征的字段• 字段检索形式1. 通过菜单选择检索字段2. 用命令的方式输入字段限制算符篇名字段、文摘字段、叙词字 段、分类类目等作者、机构、文献类型、语种等4.4.2 使用限制符检索• Web检索方式通常通过菜单选择检索字段, 在联机Web高级检索中,还可以用表示语种、 文献类型、出版国家、出版年代等额字段标识符 来限制检索范围在Dialog系统中,用专门的 字符表示不同字段4.4.2 使用限制符检索• 前缀限制字符 AU=限查特定作者 JN=限查特定刊名 LA=限查特定语种 PN=限查特定专利号 PY=限查特定年代• 后缀限制符 /TI限在题目中查 /AB限在文摘中查 /DE限在叙词标引中查查找2004年出版的英文或法文的 宏观经济学方面的期刊检索式:(macroeconomics/de, ti, ab) AND PY=2004 AND (LA=EN OR FR) AND DT=Serial 举例 限制字符的使用4.5 加权检索技术• 与其他检索技术的区别• 基本方法1. 在每个检索词后面给定表示重要程度的数值,称 为权值。
2. 检索时,查找这些检索词在数据库记录中是否存在 3. 计算存在的检索词的权值总和 4. 权值之和达到或超过预先给定的阙值,即为命中其他检索技术加权检索技术侧重点判定检索词或字符串在数据 库中,与别的检索词或字符 串是什么关系判定检索词或字符串在满足检索 逻辑后对文献信息命中与否的影 响程度4.6 其他辅助检索技术• 4.6.1 信息的浏览式检索与链接技术 • 4.6.2 检索结果的翻译和多语种(或跨语种 ) 检索技术 • 4.6.3 检索结果的后处理技术4.6.1 信息的浏览式检索与链接技术用 户在计算机检索系统中,“浏览”方式的实现主要得益于 超文本链接技术超文本链接技术的成功应用某种信息组织 结构 (或导航机制 )链 接信 息系统预定义相关或未曾预料 的有用信息访问、探寻提 供4.6.1 信息的浏览式检索与链接技术• 搜索引擎 目前,基于浏览式检索的技术方法已在网络搜 索引擎中得到了广泛应用,以Yahoo为首创的 一类网络搜索引擎就是通过分类目录导航机制分类目录导航机制 实现对同络信息的浏览式检索的• 此外,超文本链接技术在传统的基于关键词 匹配的信息检索系统中,也越来越显现出重要 的应用价值。
