
北京大学情报学考研真题汇总.docx
9页情报检索与分析一.名词解释1. 叙词法:是建立在叙词语言及其性质的基础上的一种新的处理文献的方法其基本原理是 通过概念组配(分析与综合)来表达主题,以提高标引的专指性和检索的灵活性2. 加权检索 : 加权检索是某些检索系统中提供的一种定量检索技术加权检索同布尔检索、 截词检索等一样,也是文献检索的一个基本检索手段,但与它们不同的是,加权检索的侧重 点不在于判定检索词或字符串是不是在数据库中存在、与别的检索词或字符串是什么关系, 而是在于判定检索词或字符串在满足检索逻辑后对文献命中与否的影响程度加权检索的基 本方法是:在每个提问词后面给定一个数值表示其重要程度,这个数值称为权,在检索时, 先查找这些检索词在数据库记录中是否存在,然后计算存在的检索词的权值总和权值之和 达到或超过预先给定的阈值,该记录即为命中记录运用加权检索可以命中核心概念文献,因此它是一种缩小检索范围提高检准率的有效方法 但并不是所有系统都能提供加权检索这种检索技术,而能提供加权检索的系统,对权的定义、 加权方式、权值计算和检索结果的判定等方面,又有不同的技术规范3. 联机4. search engine :搜索引擎就是互联网上提供的具有信息发现、组织、检索、导航及其他相 关服务功能的各种软件系统或工具的总称。
5. metedata :提供关于信息资源或数据的一种结构化的数据,是对信息资源的结构化的描述 其作用为:描述信息资源或数据本身的特征和属性,规定数字化信息的组织,具有定位、发现、 证明、评估,选择等功能6. 指南数据库:是存储有关某些客体(如机构、人物14.引文索引法 :利用手头已经掌握的 一篇重要的较早发飙的相关著作作为检索的起点,利用引文索引查出所有引用过这篇著作的 人及其文章的出处,再查来源索引,就可以查得一些与课题相关的文献 等)的一般指示性描述的一类参考数据库7. HTML :超文本置标语言,是为网页创建和其它可在网页浏览器中看到的信息设计的一 种置标语言HTML被用来结构化信息一一例如标题、段落和列表等等,也可用来在一定 程度上描述文档的外观和语义8.on—going project:进行中的项目9. 逆波兰表达式 :又称福岛方法,这种方法主要的处理思想是先将检索式(一般为中缀表 达式形式)转换为等价的逆波兰式(即后缀表达式形式),然后将逆波兰式翻译成一组检索 指令10. 专利 :这个概念的基本涵义是指专利权,其派生义是指获得专利权的技术发明,或指发 明人申请专利时提交并由专利局出版的有关某发明的技术说明书(即专利说明书)11. 检索策略 :概括的说,就是指为实现检索目标而制定的全盘计划和方案,是对整个检索 过程的谋划和指导。
12. 先组式索引语言 :指在实施检索前,索引词已被(标引者)预先组配好了的一种索引语 言检索时,检索人员只能直接利用预先给定的索引词去检索文献13. 叙词 :指的是来自文献和用户并经过严格的多方面控制、用以表达文献主题或信息需求 的单义词或代码14. 引文索引法 :利用手头已经掌握的一篇重要的较早发飙的相关著作作为检索的起点,利 用引文索引查出所有引用过这篇著作的人及其文章的出处,再查来源索引,就可以查得一些 与课题相关的文献15. 报道性文摘 :用来概括原文的内容要点(尤其是创新点),向读者提供原文中的定量信 息(如距离、最大值、最小值、平均值、中值、公式、可靠度等)和定性信息(如发现、结 果、新方法、新设备、结论等)的一种文摘16. 源数据库:能直接提供原始资料或具体数据的自足性数据库,用户不必再查阅其他信息 源包括数值数据库、文本-数值数据库、全文数据库、术语数据库、图像数据库、音频数 据库等17. 回溯检索 :对检索系统已存储的全部情报,或其中一定时间范围的情报,按照特定主题 范围(用户课题)进行文献普查回溯情报检索,不仅要查找最新情报,而且要追溯查找过去 年代已存储的所有情报。
通常所说的文献检索,即指这类检索例如,申请专利为查证新颖 性而进行的文献普查,科研人员从事新的课题研究之前为了了解国内外已有成果而进行的文 献普查,都是回溯情报检索回溯情报检索可以采用脱机(成批)处理,也可采用联机处理, 但前者只是早期的计算机情报检索采用,现在的回溯情报检索几乎均采用联机处理方式,因 此联机检索和回溯检索具有同样的含义16. 源数据库:能直接提供原始资料或具体数据的自足性数据库,用户不必再查阅其他信息 源包括数值数据库、文本-数值数据库、全文数据库、术语数据库、图像数据库、音频数 据库等17. 回溯检索 :对检索系统已存储的全部情报,或其中一定时间范围的情报,按照特定主题 范围(用户课题)进行文献普查回溯情报检索,不仅要查找最新情报,而且要追溯查找过去 年代已存储的所有情报通常所说的文献检索,即指这类检索例如,申请专利为查证新颖 性而进行的文献普查,科研人员从事新的课题研究之前为了了解国内外已有成果而进行的文 献普查,都是回溯情报检索回溯情报检索可以采用脱机(成批)处理,也可采用联机处理, 但前者只是早期的计算机情报检索采用,现在的回溯情报检索几乎均采用联机处理方式,因 此联机检索和回溯检索具有同样的含义。
18. 网罗度 :又称标引深度,指的是每篇文献所含主题(要素)在标引过程中被确认和转换 成索引词或索引款目的数量标引深度也是衡量索引质量的主要指标之一网罗度是指用作统计分析的文献在整个已出版文献中所占的份量一般来说,对文献的统计 越充分,网罗度也就越高,分析出来的核心出版社也就越准确、越有权威性网罗度的高低, 决定了核心表(核心出版社的列表)信息密度的大小所以,从某个意义上来讲,网罗度的高低, 实际上就是信息量的大小19. 参照 :是索引参照系统的主要部分从本质上讲,参照是反映标目之间语义关系的一种 指示物,也是链接相关款目的一种媒介物它把读者从现在查的地方指引到应该去查的地方,以便查出相关的全部标目和款目20.功能分类21. 原文检索 :“原文”是指数据库中的原始记录,原文检索即以原始记录中的检索词与检索 词间特定位置关系为对象的运算原文检索可以说是一种不依赖叙词表而直接使用自由词的 检索方法原文检索的运算方式,不同的检索系统有不同的规定,其差别是:规定的运算符不同;运算 符的职能和使用范围不同原文检索的运算符可以通称为位置运算符从RECON、ORBIT 和STAIRS三大软件对原文检索的规定,可以看出其运算符主要是以下4个级别:(1) 记录级检索,要求检索词出现在同一记录中;(2) 字段级检索,要求检索词出现在同一字段中;(3) 子字段或自然句级检索,要求检索词出现在同一子字段或同一自然句中;(4) 词位置检索,要求检索词之间的相互位置满足某些条件。
原文检索可以弥补布尔逻辑检索、截词方法检索的一些不足运用原文检索方法,可以增强 选词的灵活性,部分地解决布尔检索不能解决的问题,从而提高文献检索的水平和筛选能力 但是,原文检索的能力是有限的从逻辑形式上看,它仅是更高级的布尔系统,因此存在着 布尔逻辑本身的缺陷22. 准波兰变换法:针对逆波兰变换对系统内存空间要求过高而提出的一种改进方法它通 过对逆波兰表达式的改写,得到一个检索时所需内存工作区个数最少的后缀表达式,这样的 后缀表达式被称为准波兰式23. 囊括值 :指与某一提问相关的文献在指定文献集合中的分布密度通常,分布密度越大 越容易检出其表达式为6=给定集合中与某一提问相关的文献量/给定集合中的文献总量24. 引文珠形增长 :从已知的关于检索问题的少数几个专指词开始检索,以便至少检出一篇 命中文献或一条相关信息,然后审阅这批文献或信息条目,从中选出一些新的相关检索词, 补充到检索式中去加入到检索式之后,就能查出其他新的命中结果不断重复上述过程,直到找不到其他适合 包含于检索式的附加词为止,或者已经得到了数量适宜的命中结果25. 元搜索引擎:又称集合型搜索引擎,将多个单一搜索引擎集成在一起,提供统一的检索 界面,将用户的检索提问同时提交给多个独立的搜索引擎,同时检索多个数据库;并根据多 个独立搜索引擎的检索结果进行二次加工,如对检索结果去重、排序等;输出给用户。
26. 标引深度 :同网络度1827. 互逆相关 :英国 Cleverdon 等人由试验得到的查全率—查准率经验曲线表现,查全率与 查准率是互逆的,即对于一个查找要求,如果要设法提高查全率,则查准率会降低,反之亦 然这也可以看作是文献信息检索的一个基本特征28.ontology :是共享概念模型的明确的形式化规范说明这包含4层含义[4 ]:概念模(con ceptualization)、明确(explicit)、形式化(formal)和共享(share)概念模型"指通过抽象出 客观世界中一些现象(Phenomenon)的相关概念而得到的模型概念模型所表现的含义独立 于具体的环境状态 “明确”指所使用的概念及使用这些概念的约束都有明确的定义 “形式 化"Ontology是计算机可读的(即能被计算机处理)共享”指Ontology中体现的是共同认 可的知识,反映的是相关领域中公认的概念集,即 Ontology 针对的是团体而非个体的共识 O ntology 的目标是捕获相关领域的知识,提供对该领域知识的共同理解,确定该领域内共同认 可的词汇,并从不同层次的形式化模式上给出这些词汇(术语) 和词汇间相互关系的明确定 义。
29. 相关分析 :研究随机变量之间的相关关系的一种统计方法相关关系是一种非确定性的 关系,例如,以X和Y分别记一个人的身高和体重,或分别记每公顷施肥量与每公顷小麦 产量,则X与Y显然有关系,而又没有确切到可由其中的一个去精确地决定另一个的程 度,这就是相关关系30. 聚类文档 :指针对系统中的全部文献向量,使用一定的相似性(或相异性)度量指标和 聚类方法,计算出文献与文献之间的相似度,并把相似度较高的文献聚集在一起,形成一个 个的文献类目,进而形成文献的聚类文档31. 非程序化决策:指没有一套固定的程序,只能采用“现裁现做”的方式进行处理的决策, 或者说是不能准确表达过程的决策32. 后控词表 :后控词表是编制很严谨的主题词表,包括词的各种关系,甚至词的语法属性、 关系之间能相互参照,对用户提问词进行各种控制,包括同义词扩充、相关词扩充,上下位 按等级扩充,还可带有智能型(即联想功能、自学习功能、自我完善功能)的一种词表系统 从一定程度上说,其目的是对不规范的标引词加以规范,以实现较高的查全、查准率后控 词表也通常被作为一种较为有效的控制手段以提高检索系统的性能,其实质就是将对标引的 控制放在标引之后,较之字面匹配、词频计算等后控手段有着无可比拟的优越性。
33. 关系模型 :关系模型是建立在数学理论基础之上的,用二维表格的形式表示实体的联系34•事务等待图:事务等待图是一个有向图GT,U)T为结点的集合,每个结点表示正运行 的事务;U为边的集合,每条边表示事务等待的情况若T1等待T2,则Tl、T2之间划一 条有向边,从T1指向T2事务等待图动态地反映了所有事务的等待情况并发控制子系统 周期性地(比如每隔1分钟)检测事务等待图,如果发现图中存在回路,则表示系统中出现 了死锁35.向量空间模型:将文档标识为由n个经过归一化处理的标引词构成的n维空间中的向量, 该向量第k维的值(第k个分量)表示第k个标引词在文档中的权值用户检索提问式也同 样表示为一个n维向量文档和检索提问式的RSV是这两个向量的标量乘积,RSV越大, 文档和检索提问式的相关度便越大36.非数量决策 :主要依靠决策者基于管理经验之上的分 析判断的决策。
