
文献检索效率的影响因素及其改善方法2.doc
4页文献检索效率的影响因素及其改善方法文献检索的目的是全面、准确地为用户提供所需文献但是,从用户角度来看,在检出的 文献中可能会夹杂着一些不符合提问要求的文献(即误检文献);反之,在未检出的文献中也可 能存在着少量符合提问要求的文献(即漏检文献)由于用户的看法和需要不同,对检出文献是 否满足要求的相关性(即实用性)评价也可能不同因此,文献的相关性评价在某种程度上带有 主观性尽管如此仍可作为评价文献检索效率的基础所谓检索效率简单地说,是指检索 系统提供库存相关文献、满足用户的程度文献检索效率一般按照以下标准来评价I文献库 收录范围;°查全率和查准率;》响应时间;%费用等其中查全率和查准率是重要的也是最常采 用的技术标准在现代的文献检索系统中,查全率一般为60一70%,查准率为40一50%由 于查全率和查准率之间存在着互逆关系,如果进一步提高查全率(超过 70%),只能靠降低查准 率来达到,反之亦然因此,对任何一个文献检索系统来说,要求得到查全率和查准率均为1 的 答案,实际上是不可能的,必须按照用户的要求选择最佳的查全率和查准率的比例关系影响 检索效率的因素实践表明,影响检索效率的因素是多方面的,主要与文献标引的质量、主题词 表的质量和检索式编写等因素有关。
一)标引质量标引指的是对文献或提问进行主题分析、给出检索标识(主题词、分类号等)的过程其 目的是按照给定的检索标识组织各种检索工具(例如,目录、索引或机读文档等)因此,文献 标引质量不仅与组织检索工具有关,而且是影响检索效率的主要因素之一1. 衡量标引质量的标准标引质量可以理解为标引文献或提问时给出主题词的正确性和全面性,表现在文献的引 得深度按照兰卡斯特的定义“引得深度是指标引的网罗性和主题词的专指性”的总称,据 1966 一 67 年期间使用 MEDLARS 系统所得到的文献检索效率表明,漏检相关文献数的 20% 是由于引得深度不够造成的因此,我们可以将标引的网罗性和主题词的专指性做为评价标 引质量的标准 (1)标引的网罗性是指标引时揭示文献主题内容的广度而言如果对文献内 容分析得愈深透,标引得愈全面,那么检索时相关主题的文献就能都检索出来,因而查全率较 高例如,查找题为“计算机检索软件设计”方面的文献,经过文献主题分析后选出计算机, 情报检索、程序设计三个词从标引的广度或包含检索角度来看,还应补加:程序系统和应用 程序二个词另一方面,如果标引的网罗性太高,那么检出的文献中就会渗杂着较多的非相关 文献,查准率就会降低。
因此,标引网罗性是影响查全率的重要因素之一2)主题词的专指性 主题词的专指性是指其表达主题的深度而言标引时,如果选用专指性强的主题词愈多,则检 索时检出的文献针对性愈强,查准率就愈高仍以“计算机检索软件设计”问题为例,标引时除 选用“计算机”一词之外,还应选用“电子计算机”一词使用前一词可以实现包含检索,查 全率较高,使用后一词可以实现特性检索,查准率较高因此,主题词的专指性影响查准率的重 要因素之一怎样掌握标引的网罗性和主题词的专指性,以达到所需引得深度,应根据检索系 统任务和数据库特点而定 标弓!质量的影响因素由于人们专业知识和工作经历不同,在标引的网罗性和主题词专指性方面,很难达到标引 的一致性,同时也很难避免产生错误所谓标引的一致性是指几个人同时标引一篇文献或一 个人在不同时间内标引同一篇文献所选用主题词的一致程度1)网罗性不当例如,对文献题为“空气、土壤、对流层中氢一226的积累”标引时,如果不选用表示环 境的主题词“空气、土壤、对流层” ,而只选用表示氢移动的“降水”一词 ,则网罗性很低, 检索时必定漏检相关文献,查全率降低2)用词不当、漏掉重要词 例如,对文献题为“调整加速器中气体流速阀的性能”标引时 ,只选用“阀”作标引词 , 而未选用作为使用对象的“加速器”,,76,或者选用“气体”、“流体”之类的不适当的词,而漏 掉“气体流、流量”之类的重要i司,检索时就会产生漏检和误检,结果降低查全率和查准率。
当然,标引时人们还会做出其他错误,影响标引质量二)主题词表质量 主题词表的质量主要表现在词表结构和词汇特点方面词表结构由款目词、词间关系及 其有关数据组成款目词按其字顺排歹1J,以便于检索词间参照关系一般分为同义关系、 等级关系和相关关系同义关系的作用是当某一概念采用不同词时用来确定采用的词借以 提高查准率,等级关系和相关关系的作用是推荐主题词、扩大标引范围,借以提高查全率因 此,参照关系在一定程度上决定主题词表的功能冠恩和达古里阿克调查《美国国会图书馆 标题表》(L七)《医学索引标题表》(人悦SH)和《美国武装部队技术情报局主题词表》(ASTIA) 之后发现,参照性愈强,检索效率愈高反之,如果完全没有参照关系,或者参照关系不完备,检 索效率就愈低他们对这三种表做了所得的结果导出性是指一个款目词可由多少其他主题 词导出而言从表1可以看出,ASTIA词表检索效率最高,MeSH检索效率最低为了正确而 全面地建立词间关系,必须注意同义词的选定、概念的划分等参照关系是否齐全,是衡量词 表质量的标准之一,影响着系统的检索效率改善检索效率的辅助措施和方法 通过上述分析可知,影响文献检索的因素错综复杂,但归纳起来,大致涉及三方面‘问 题即检索语言、检索策略和标引(检索)员业务水平等。
多年来,人们使用规范语言、制定 标引规则,确实提高了一些检索效率;此外,为了进一步提局检索效率,还提出了几种辅助 措施和方法,例如,相关主题词连组法、词间句法描述、副标题表达法 和加权法等1. 相关主题词连组法 相关主题词连组法是解决由于后组产生的错误匹配所带来的误检问题,使用符号表示相关主题词之间联系一种方法,亦称联号法例如,一篇涉及“放射线治疗法与计算机诊断”两个以上主题的文献,则应将该文献按 两个部分来标引,选用放射线、治疗法、计算机和诊渐法四个词,如果上述标引词之间按一 定的匹配加以联系,检索时就可能产生诸如“放射线诊断法”或”计算机治疗法”之类的误 组,这种现象叫做交叉误检,这就是说,即使标引文献正确,也可能产生误检因此,应用 相同的符号将相关的主题词联系起来,就可以避免误检和漏检,提高査准率2. 词间句法描述 上述联号法虽然解决了主题词之间的误组问题,但不能表达词间的句法意义为此,还要采用一种符号表达主题词之间的相对句法关系,这种方法叫做联号法例如,一篇“使用 计算机诊断肺炎”的文献,标引时选用肺炎、计算机和诊断三个词,而一个检索提问是关于 “计算机故障等诊断”如果该提问检索式是由“计算机*诊断”组成,那么上述文献就被检 出,结果造成了误检。
如果采用预先规定的职号,例如,采用I表示“行为的对象”,2表 示“实现手段”,等等上述文献标引为“肺炎①”、“计算机(2)”和“诊断”,则按检索 式“计算机 (I ) *诊断”进行检索,就不会造成误检了3 .副标题表达法这是美国国家医学图书馆采用的方法, 将某一特定词选为副标题,与主题词组配,起 到限定观点的作用例如,题为“使用计算机诊断肺炎”文献,可标引为“肺炎/ 断,计算 机/诊断应用”形式这种表达形式可以将主题相关的词联系在一起(即起到 联号作用), 又可表示词间句法关系(即起到职号作用),这样可以提高查准率4.加权法 这种方法就是按照文献的标引同或提问的标引词的重要度(即所谓“权”)给出一定的 值,并对所有词的权进行累加,其结果超过某一规定值时,便将满足提问的文献输出例如, 提问“计算机文献检索用程序系统”,提问主题同的权值分别为:计算机 (10)、文献检索(6)、 程序设计(8),如果规定总权值为£0,检索时将超过该总数值的所有文献均输出采用这种 方法可以有选择地检出所需主题的文献,提高査准率上述各种方法在一定程度上改善检索效率,尤其提高査准率,但仍然有其局限性,应该 有针对性运用。
实践表明,职号、联号 比较适用于化学、化工、石油等特定专业文献的检 索,而用于其他专业文献的检索,有时在经济上并不上算采用规范词可以提高查全率,但 其査准率有时不如自由词高,因此,近年来国外许多系统采用规范词加自由词的标引方式 为了保证文献标引质量,提高检索效率,还应加强以下几方面工作:① 主题分析是文献标引的基础,决定着标引的一致性没有正确的主题分析,就不可能 得到满意的标引结果目前情况是,主题分析技术比较落后,也未建立比较完善的分析手段 和原则,因此,应加强这方面的研究② 提问检索式的算法例如,算子的使用和排列,运算规则等均与检索效率有密切的关 系,决定着检索速度对检索式算法,过去和现在都未曾进行系统的理论和实验研究,这是 情报检索研究中的薄弱环节,今后应给予必要的重视③ 标引工作不仅是脑力劳动,而且技术性很强,不是任何人都能胜任的为了保证标 引质量,必需要求标引人员具备一定的专业知识,对其进行必要的培训在当前开展标引工 作中,标引员的培训已成为当务之急。












