
毕业设计文档检索系统的设计与实现论文.doc
25页基于VB和数据库技术的文档检索系统设计与实现摘要:随着计算机与网络的普及,信息资源变得越来越丰富,人们期望通过自然、便捷的方式获取所需的内容,由此产生了信息检索技术以及基于该技术的文档检索系统用户以输入关键字的形式提出查询,通过计算机检索系统返回可能相关的文档本文主要论述了有关文档检索系统的信息检索技术及数据库技术,并针对文档检索的要求,对文档检索系统的功能和结构进行分析与设计,并且依据设计,建立数据库、编写程序,完成在VB和Access数据库平台上的系统实现关键字:数据库;信息检索;系统分析;系统设计The Design and Realization of Documents Retrieval SystemBased on the VB and Access Database TechnologyAbstract: Along with computer and network popularization, the information resource changes more and more richly. The people expected through the nature, the convenient way gain the content of which he needs. From this, the information retrieval technology have been born as well documents retrieval system which was based on this technology. The user proposes a inquiry by inputting keywords and obtain the documents through the computer search system which may be connected. This paper mainly discusses the the information retrieval technology and the database technology which are related with documents retrieval system,. The writer aims at the request of the documents retrieval system, carries on the analysis and designs the documents retrieval system function, the structure and database, then completes with VB and Access database platform system realization.Keywords : Database;Information retrieval;System analysis;System design目 录引言…………………………………………………………………………………………………………11文档检索系统涉及理论与技术……………………………………………………………………11.1 信息检索技术概述…………………………………………………………………………………………11.1.1 信息检索…………………………………………………………………………………………………11.1.2 信息检索技术……………………………………………………………………………………………21.2 信息检索模型………………………………………………………………………………………………21.2.1 信息检索模型简介………………………………………………………………………………………21.2.2 布尔逻辑模型(集合模型)……………………………………………………………………………21.2.3 向量空间模型……………………………………………………………………………………………21.2.4 概率检索模型……………………………………………………………………………………………21.2.5 三种模型的比较…………………………………………………………………………………………21.3 文档的组织与查询…………………………………………………………………………………………31.3.1 文档的组织………………………………………………………………………………………………31.3.2 结构化文档的组织与存储………………………………………………………………………………31.3.3 文档的查询………………………………………………………………………………………………31.4 数据库系统…………………………………………………………………………………………………31.4.1 数据库技术………………………………………………………………………………………………31.4.2 数据库管理系统…………………………………………………………………………………………31.4.3 数据库与信息检索技术的结合…………………………………………………………………………41.4.4 数据库与VB程序设计的结合 …………………………………………………………………………51.4.5 数据库应用开发系统简介………………………………………………………………………………52文档检索系统的设计………………………………………………………………………………52.1 文档查询……………………………………………………………………………………………………52.2 应用需求分析………………………………………………………………………………………………62.3 功能设计……………………………………………………………………………………………………72.4 系统功能模块设计…………………………………………………………………………………………92.5 数据表设计…………………………………………………………………………………………………92.6 系统结构图………………………………………………………………………………………………103文档检索系统的实现………………………………………………………………………………103.1 非关键部分的设计………………………………………………………………………………………103.2 文档检索与文档信息编辑的实现………………………………………………………………………113.2.1 main窗体 ……………………………………………………………………………………………113.2.2 Searchform窗体 ……………………………………………………………………………………113.2.3 Searchform1窗体……………………………………………………………………………………123.2.4 Searchform2窗体……………………………………………………………………………………123.2.5 editform窗体 ………………………………………………………………………………………133.2.6 editform1窗体………………………………………………………………………………………133.2.7 editform2窗体………………………………………………………………………………………14结语…………………………………………………………………………………………………………14参考文献……………………………………………………………………………………………………15引言在日常工作中,知识的主要载体是文档。
无论是政府机关、设计院、银行还是企业,工作体现在大量的文档中,包括公文图纸、票据、文件等,这些都是人类智慧的结晶随着计算机与网络的普及,信息资源变得越来越丰富,人们期望通过自然、便捷的方式获取所需的内容,对文档进行信息管理、检索和利用的需求非常迫切随着社会的发展进步,文档信息工作出现了一些变化首先是随着以计算机及网络技术为代表的现代信息技术迅猛发展,文档信息载体出现了多样化的趋势文档信息载体的变化,主要表现在载体材质的变化和信息记录方式的变化两个方面在载体材质方面,由原来单一的纸质材料逐渐发展成为多样化、系列化的光、磁介质材料;信息记录方式方面,由原来的手写文字或图形发展成由机器识别的数码形式其次,新知识的涌现也使得文档信息工作的难度越来越大再次,由于高科技手段引发的信息流动的速度空前加快、载体建立周期大幅缩短和载体信息的大范围、高密度的频繁利用,文件档案信息相对固化的特性日趋减弱,而这类信息不断增加的流动性日渐明显伴随这些变化,文档信息工作进一步现代化随着文档信息资源的遽增,人们期望通过自然、便捷的文档检索方式获取所需的内容伴随技术进步文档检索已经从最初的手工管理步入到数据库管理阶段,从而脱离了重复而繁重的手工检索。
现代文档检索技术融合了图书馆学、档案学、情报学等理论,又融入了现代计算机及通讯技术,例如网络技术、数据库技术等这使得我们不仅可以进行单机环境下的检索,而且可以实现通过网络对远程信息资源进行检索文档检索系统即是一种信息检索系统用户以输入关键字的形式提出查询,通过计算机检索系统返回的可能相关的文档,获得所要检索的信息本论文是利用数据库和程序开发及信息检索理论,针对文档检索的要求,对文档检索系统的功能和结构进行分析与设计,并且依据设计,建立数据库并编写程序,完成在VB和Access数据库平台上的系统实现1 文档检索系统涉及理论与技术1.1 信息检索技术概述1.1.1 信息检索所谓信息检索就是用户提出一个查询,通常以关键字的形式输入,计算机通过关键字匹配,返回可能有关的文档用户通过查看文档,获取所需要的信息这类信息检索,不限任何领域,可以快速地返回相关的文档[3]1.1.2 信息检索技术信息检索技术目前主要采用关键字匹配法文档的内容表示为某些特征项的集合,查询的要求也用项来表达,检索的目的是查找哪些文档可能符合查询的要求首先对查询进行预处理:项扩展、增加同义词或者根据用户前一次查询返回的信息等,其目的是提高对查询要求的精确表示。
然后对文档和其它信息源进行索引,按照字或词对全文做索引 ,如果对词做索引,则需要对文档进行分词、词性标注、词组抽取等处理最后比较查询和文档的类似性以决定哪些文档是与查询相关的[1]现代信息检索技术发展越来越快,基于概念的检索、个性化检索、智能化检索等相继出现,并出现了一些新兴的算法、方法等,例如文档聚类算法、优化倒排文档检索算法、焊接文档检索方法等1.2 信息检索模型1.2.1 信息检索模型简介信息检索主要研究信息的表示、存储、组织和访问,在IR领域中主要存在两类问题:一是如何表示用户查询和文档,即信息的表示与组织;二是如何比较用户查询表达式与文档的表达式,即信息的查询与访问信息检索检索模型问题,信息检索模型是基于内容的信息检索系统的核心技术,决定了信息组织的模式及信息查找的方式在信息检索领域中有三大经典的模型,它们是:布尔逻辑模型、向量空间模型和概率模型[3]1.2.2 布尔逻辑模型(集合模型)布尔模型是最简单而常用的严格匹配检索模型,它的基本思想是以关键词出现与否来表示文档内容布尔模型定义了一个二值变量集合来表示文档,这些变量对应于文档中的特征项,一般是由文档集中的词条或短语组成如果某特征项在文档中出现时,该特征项所对应的变量的值就为1 (True),否则就是。
