电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本
换一换
首页 金锄头文库 > 资源分类 > DOC文档下载
分享到微信 分享到微博 分享到QQ空间

199706中英文发现系统的转接层子系统、索引子系统的设计与实现.doc

  • 资源ID:134476462       资源大小:560KB        全文页数:32页
  • 资源格式: DOC        下载积分:10金贝
快捷下载 游客一键下载
账号登录下载
微信登录下载
三方登录下载: 微信开放平台登录   支付宝登录   QQ登录  
二维码
微信扫一扫登录
下载资源需要10金贝
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
如填写123,账号就是123,密码也是123。
支付方式: 支付宝    微信支付   
验证码:   换一换

 
账号:
密码:
验证码:   换一换
  忘记密码?
    
1、金锄头文库是“C2C”交易模式,即卖家上传的文档直接由买家下载,本站只是中间服务平台,本站所有文档下载所得的收益全部归上传人(卖家)所有,作为网络服务商,若您的权利被侵害请及时联系右侧客服;
2、如你看到网页展示的文档有jinchutou.com水印,是因预览和防盗链等技术需要对部份页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有jinchutou.com水印标识,下载后原文更清晰;
3、所有的PPT和DOC文档都被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;下载前须认真查看,确认无误后再购买;
4、文档大部份都是可以预览的,金锄头文库作为内容存储提供商,无法对各卖家所售文档的真实性、完整性、准确性以及专业性等问题提供审核和保证,请慎重购买;
5、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据;
6、如果您还有什么不清楚的或需要我们协助,可以点击右侧栏的客服。
下载须知 | 常见问题汇总

199706中英文发现系统的转接层子系统、索引子系统的设计与实现.doc

北京大学学士学位论文 中英文发现系统的转接层子系统、索引子系统的设计与实现论文摘要中国于1994年进入INTERNET,之后INTERNET在中国得到了迅速的发展,中文的WWW信息也迅速增加。这使得在搜索中文信息时也需要一定的搜索工具。由于世界上现有的搜索引擎大部分都是针对英文设计的,它们或支持中文的能力很差,或根本不支持中文。个别支持中文搜索的搜索引擎,它们的数据库中所包含的中文信息的数量十分小,搜索的结果非常不理想。对于日益增长的中国INTERNET来说,实现一个具有大量中文信息数据库,能够良好支持中文检索的搜索引擎已是一种迫切的需求。本论文所描述的系统即是作者参与设计和实现的一个支持中文的搜索引擎。它即支持对中文,英文的简单检索,又支持逻辑运算,模糊匹配等高级检索。它通过对中文的分词,实现了对在中文词汇一级检索的支持;通过对中文,英文的编码,实现了对中文,英文系统核心实现的一致化;通过两级索引机制和索引项的特殊设计,实现了检索的快速命中。论文首先介绍了系统设计和实现的一些背景资料,介绍了WWW的发展于现状,世界主要搜索引擎及其比较,中文的特点与搜索引擎对中文的支持。之后,描述了系统的整体设计,详细介绍了转接层子系统和索引数据库子系统的设计。关键词:搜索引擎 中文分词 索引数据库 编码方案目录第一章 背景介绍.31.1 Internet和WWW的发展与现状.31.2 世界主要得搜索引擎及其比较.41.3 中文的特点和搜索引擎对中文的支持.6第二章 系统概述.102.1 系统设计目标.102.2 系统总体结构.10第三章 转结层子系统的设计.123.1 转结层子系统的设计思想.123.2 中文编码互换.133.3 中英文编码方案.143.4 中文分词.173.5 中英文词汇的自动学习.19第四章 索引数据库子系统的设计.214.1 索引数据库系统的设计思想.214.2 索引数据库的设计.224.3 索引数据库的更新和维护.234.4 索引数据库的检索.25第五章 总结展望.295.1 系统测试和评估.295.2 远景展望.29致谢.31参考文献.32第一章 背景介绍1.1 Internet和WWW的发展与现状Internet的前身是美国国防部高级研究计划管理局(ARPA)在1969年建立的APPANET网,初期只有4台,其设计目标是:当网络中的一部分因为战争等特殊原因而遭到破坏时,其他部分仍能正常运行。80年代初期,ARPA和美国国防部通讯局研制成功了用于异构网络的TPC/IP协议并投入使用,此后美国加州大学伯克莱分校把该协议作为其BSD UNIX的一部分,使得该协议得以流行。1986年,美国国家科学基金(NSF)以5个科研教育服务的超级计算机中心为基础建立NSFNET网络,以便在全国实现资源共享。90年代初到到现在,是Internet增长最迅速的时期,每天都有许多的主机加入到Internet中,以下是这一时期Internet连接主机数的统计资料: 图1.1 90年代Internet连接主机数目统计表(自MIT)随着Internet的迅速发展,Internet的使用性质已从建网初期的科研教育为主,变为现在的商业化,普及化的一种信息资源交流工具。WWW(World Wide Web)起源于欧洲核子研究中心(the European center for unclear research),它最初的目的是用于研究中心内部文档的连接。在1990年9月,第一个基于文本的原形开始运作并在1991年国际超文本会议上作了公众演示。在1993年一月,第一个基于图形界面的WWW浏览器Mosaic诞生了。Mosaic的推出获得了极大的成功,它使得网络脱离了原来单调的字符界面,以及不友好的交互方式,获得了普通用户的喜爱,从而也推动了WWW自身的发展。随着Netscape等新的WWW浏览器的面世,使得WWW浏览器的功能不断加强,WWW信息越来越丰富,这使得WWW具有了更强的吸引力,使得WWW在Internet上的发展势不可挡。WWW的发展速度是惊人的,它的发展速度远远高于Internet的发展速度,但这种发展速度也在随着时间的推移而逐渐下降。在1993年下半年,WWW在不到三个月的时间里翻了一翻。即使到了现在,WWW也在以每六个月翻一翻的速度飞速增长。在Internet上还支持许多其他服务,如ftp,telnet,e-mail,news,irc等。在WWW产生之前,这些服务占用了Internet的所有流量。WWW产生后,便迅速增长并相继超过了所有的服务,到1995年四月达到了Internet流量的第一位,直到现在还是稳定的处于第一位。中国进入Internet比较晚。高能所是中国第一个进入Internet的单位,在1994年5月。随后,中国教育科研网(China Education and Research Network)在6月也进入了Internet。之后,Internet在中国也得到了十分迅速的发展。到1997年1月,在短短的不到三年的时间里,在cn域下的主机数已达到19739台,这足以证明Internet在中国发展的迅速。1.2 世界主要得搜索引擎及其比较由于WWW的迅速发展,WWW上的信息量急剧增长。在1996年早些时候,Lycos公司通过每日的例行记录,得出的结论是网上大约有1900万网页。根据上面所提及的WWW增长速度,现在网上大概拥有1亿个以上的网页。在如此众多的网页中筛选用户需要的信息,没有十分有效的,自动化的搜索工具是难以想象的。这就象在一个巨大的图书馆中,但这个图书馆没有目录。当用户希望找到一本自己需要的书时,他只能一个一个的书架,一本一本书的查找。这显然对于用户来说是不可忍受的。搜索引擎就象一个自动化的目录一样,它可以帮助用户发现用户所需要的信息来源,并帮助用户去获取它。搜索引擎的工作机制大致如下:首先,搜索引擎用一个绰号为“蜘蛛”的自动代理软件在网址中爬行,访问网络中公开区域的每个站点并记录其网址,从而创建一个详尽的网络目录。而后,搜索引擎根据自己的需要,访问数据库中记录的部分站点或所有站点。系统把“机器人”软件发往要访问的站点,记录每一页的所有文本内容或者从这些信息中提取自己所需的摘要和其他信息。得到的这些信息被存放于一个数据库中,这个数据库必须经常更新,重建,以保持与信息世界的同步发展。最后,数据库中的信息最终是为检索用户服务的。搜索引擎启动一个CGI程序接受用户的搜索请求,把符合用户请求的信息从数据库中提取出来,并按其相关程度排序后输出给用户。随着WWW的迅速发展,专门作为搜索引擎的站点也正以惊人的速度发展。现在网上常用的搜索引擎有Alta Viasta,Excite,InfoSeek,Guide,Lycos,Open Text等第。这些搜索引擎给WWW用户带来了极大的方便。网上的搜索引擎大部分都是对整个WWW进行搜索的。由于搜索的范围相同,各种搜索引擎就有了一种比较的关系。在大量的使用中,各种搜索引擎表现出了许多共同之处,同时页体现出了许多各自的特点。相同之处:1。搜索速度十分快,用户响应时间非常短。搜索时间一般都在12秒之间。这得益于竞争的结果,因为各搜索引擎的设计者都知道速度是用户的最基本需求,在速度上不能满足用户需求将使得他所设计的搜索引擎毫无竞争力。2。搜索结果的准确性依赖于被搜索的内容。对

注意事项

本文(199706中英文发现系统的转接层子系统、索引子系统的设计与实现.doc)为本站会员(marr****208)主动上传,金锄头文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即阅读金锄头文库的“版权提示”【网址:https://www.jinchutou.com/h-59.html】,按提示上传提交保证函及证明材料,经审查核实后我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.