
《搜索引擎的功能及其局限性分析》文献综述.doc
9页数学与信息工程学院毕业论文文献综述“搜索引擎的功能及其局限性分析”文献综述学生姓名:蒋正波 指导教师:丁小宝摘要:web经过十几年发展,已经成为一个巨大的全球化信息空间,网上信息以几何级数剧增有效利用数量如此庞大的信息资源,需得到搜索引擎的帮助本文将阐述近几年来搜索引擎发展的功能,并分析其存在的局限性关键词:搜索引擎,功能,局限性,SEO1. 引言正文内容……10年前我们要查阅资料,请教问题,更多想到的是请教专家,图书管查阅等传统方式常常为了一个简单的问题而到处寻师,在图书馆翻着类似我的电脑桌抽屉里的检索卡片,苦苦寻找近几年,随着互联网的普及与兴起,搜索引擎的出现,我们的生活习惯和思维方式正逐渐改变着 “百度一下,你就知道便充分反应了搜索引擎对我们生活的影响互联网出现到现今,信息量可以说成密指数的增长,大量信息就像Google的原本含义一样“1的后面跟着100个0”,这个数比宇宙所有的基本粒子的数量总和还要大在这浩如烟海的信息中怎么才能找到自己需要的信息呢?搜索引擎就像一只神奇的手,从杂乱的信息中抽出一条清晰的检索路径随着搜索引擎的发展,为了方便和丰富搜索用户使用搜索引擎,各大搜索引擎都相继推出了各种各样的功能。
另一方面,虽然搜索引擎技术发展非常迅速,但是在信息覆盖面不足以及对自然语言提炼等方面现在的搜索引擎在还存在局限本文主要通过分析各大搜索引擎的功能和局限性来阐述搜索引擎的现状和未来的发展前景2.搜索引擎功能分析2.1搜索引擎工作原理及功能模块简介2.1.1 工作原理首先执行自动搜索程序,定期在网上收集相关的新网页或网站信息;然后利用自动标引程序和自动索引程序,通过扫描每一个网页中的每一个词(单元信息),建立起以词为单位的索引库;检索程序执行检索操作时,则采用相对简单的关键词匹配检索级数,根据检索入口词在每一个网页中出现的频率、概率及位置,对包含这些检索词的网页进行排序,最后输出排序的结果,并引导用户按照得到的热链进一步搜索下去2.1.2功能模块搜索引擎根据其逻辑功能不同,可分为五个子系统(功能模块):1)自动搜索子引擎——搜索器也称蜘蛛系统(spider)或爬虫系统(crawler),其功能是遵循一定的协议,在Internet 中及时发现、收集新的网页信息,并更新搜索引擎数据库中的已有网页信息2)自动标引子系统——分析器其功能是借助于词频统计、词语位置认定和一些特殊的算法,对搜索器抓取回来的网页进行标引,并对其中网页的超链接进行关联。
3)自动标引子系统——索引器其功能是根据分析分析器生成的关键词,建立从关键词到网页URL 的关系索引倒排文档,即建立索引数据库4)检索查询子系统——检索器其功能是根据用户输入的提问词,在索引数据库中进行提问词与索引词的匹配运算,然后将查询结果安照相关程度排序并输出到用户接口子系统5)用户接口子系统其功能是提供人- 机交互的检索接口,接收输入的用户检索提问并输出检索结果2.2搜索引擎功能简析 搜索引擎作为一种网络信息搜索工具, 其开发的目的就是为了方便用户快速有效地找到所需的信息, 通常由信息收集、数据库和信息检索三部分组成这三部分的通过相互作用共同完成搜索任务搜索软件用来在网上收集信息, 目前大致有Robot、Spider、Worm 等自动代理软件, 定期或不定期的在网上爬行, 通过访问网络中公开区域的每一个站点, 对网络信息资源进行收集, 然后利用索引软件对收集的信息进行自动标引, 创建一个详尽的可供用户按关键词等进行查询的Web 页索引数据库, 查询软件通过索引数据库为用户提供查询服务通过上面的分析可以明白, 搜索引擎主要有3 个方面的功能:(1) 采集信息功能搜索引擎具有广泛收集因特网上的Web 页面, 构建一个信息空间的作用。
2)信息组织和标引功能通过某种形式来组织、标引所收集的Web 页面, 力图抓住页面的内容3)信息检索功能通过建立数据库, 接受用户查询,利用信息检索算法, 尽可能将最相关的页面返还给用户, 达到有效检索的目的随着搜索引擎的发展和成熟,各个搜索引擎网站都推出了新的功能下面以百度为例列举了百度搜索引擎的一些新的功能百度不断创新, 开展了其他的中文搜索引擎所不具备的特色服务功能1) 百度贴吧:“贴吧”诞生的意义是可以让用户把头脑中的恶知识、想法和经验与大家分享,让网名头脑中的无限信息分享给每个用户贴吧”通过任意关键词把相同兴趣的人绑到了一块,让这些志同道合的网友能再一个平台上对相同学科、相同事件进行交流发表自己的看法2) 百度地区搜索:百度地区搜索中的地区范围包含了大半个中国,包括北京、天津、重庆、浙江、河北等34个省市自治区500多个市县级地区,而且随着地区搜索的完善能够查询的地区范围正逐步扩大通过地区搜索,用户可以任意组合、限定所要查找地区的网页,大大方便了用户的查找3) 信息快递:百度信息快递服务功能是让用户通过百度提供的搜索平台发布信息用户可以通过检索查询这些信息4) 百度百科:百度百科通过搜索引擎收集生活和学习中要用到的概念和名词解释,将其编辑成库,让用户可以通过搜索引擎查询。
2.3搜索引擎功能展望随着搜索技术的不断发展,搜索引擎的功能也不再只是为了查询你需要的信息搜索引擎正朝着组建一个大的社区方向发展,这个社区里尼可以浏览新闻,查看你的个性图书馆、翻译你想要翻译的外文文献以及搜索你想要浏览的博客等等搜索引擎的社区化发展,已经成为国内外众多搜索巨头的共识近年来百度等公司相继开发的百度百科、百度知道、百度贴吧、百度文库等一系列的社区功能吸引了许多用户,相信在不久的将来,搜索引擎构建的社区会慢慢的融入人们的生活与学习,让搜索引擎的功能得到进一步的实现当然也有有不少公司尝试在搜寻方面改进,务求更符合用户的要求当中诸如Copernic Agent之类的搜寻代理就是其中之一 在台湾,威知资讯(WebGenie)是利用文字探勘(Text Mining)技术发展搜寻引擎产品的公司,利用人工智能算法,可达成目前搜寻引擎所缺乏的简易人机互动模式,诸如关联字提示、动态分类字提示等,算是较另类的搜寻引擎产品展望未来,相信更多搜索引擎的功能会更加的贴近人们的生活,更加便利的为人们提供便利的服务3.搜索引擎局限性分析3.1搜索引擎的局限性正文内容……搜索引擎发展至今,始终是网民使用最多的服务项目之一,但随着网上信息的几何式增长和内容形式花样的不断翻新, 这与用户有目的的个性化需求之间产生了较大的矛盾。
搜索引擎越来越不能满足网民们的各种信息需求,现有的搜索引擎存在查全率和查准率都不高的问题,概括起来大致有以下几个方面的局限性1) 检索数据库更新困难搜索引擎搜集的网页数量的速度远远快于其数据库的更新速度,这两者之间存在着难以调和的矛盾由于一般搜索引擎都有一个庞大的索引数据库,这使他不能有效地解决更新问题,另外现在整理数据库的工作一般都需要人工的参与,不能完全靠程序、软件来实现由此形成了数据库更新滞后的局限2) 搜索引擎对信息的标引深度不够目前, 搜索引擎检索的结果往往只提供一些线性的网址和包括关键词的网页信息, 与人们对它的预期存在较大的距离, 特别是对特定文献数据库的检索显得无能为力我们知道计算机不能理解文本, 它必须将Web 页面的内容用计算机处理的形式表示出来, 这样搜索引擎才能实现对这些页面的遍历, 从而对其建立索引现有的搜索引擎大都忽略了“Meta”标签(页面创建者提供的关键词和描述) 和注释(描述页面内容结构) , 把它们与所有页面信息同样对待存在页面上的图像不能被标引,动态生成的Web 页面, 由于其动态性和结构瞬时性, 也不会被索引等问题3) 搜索引擎的查准率不高利用搜索引擎找到的往往是一大堆网页地址, 用户只有逐个浏览,才能从中筛选出部分能满足自身需求的信息。
4) 搜索引擎自身的技术局限基于Web 页的信息检索技术其匹配算法不同于传统的信息检索搜索引擎依据单词、短语出现频度和位置来筛选、标引关键词的做法, 存在自身难以克服的局限性,它总是倾向选择那些用户查询请求术语出现频率高的网页, 或者根据“回顾站点”列表, 提高了那些多次被光顾站点的“相关度”, 而对于那些故意在网页的敏感位置设置多个相同、常用的、与他们的网页内容无关的词汇, 以希望提高网页的点击率或相关度的做法, 大多数搜索引擎往往难以识别另外, 目前部分搜索引擎还不能对多媒体信息进行检索5) 搜索引擎的分工协作有待加强目前大多数搜索引擎各行其是, 缺少合作一方面造成因重复劳动而产生的资源浪费; 另一方面也给用户的查找利用造成困难, 而那种指望通过一次查找就能达到目的想法, 在目前WWW检索中还难以实现, 用户在第一搜索引擎中没有找到满意结果时, 还不得不在第二、第三搜索引擎间奔波若能把不同搜索引擎集成化, 形成多元搜索引擎, 就能较好地解决用户网络信息检索问题有人预测, 在不久的将来,具有人工智能的计算机将会按照我们的意愿处理信息, 从而提高人类的生活质量和工作效率6) 搜索引擎的信息占有量不足。
搜索引擎必须占有相当大的信息量才能具有一定的查全率和实用性, 可以说信息占有量的大小是评价搜索引擎性能的重要指标目前还没有一种能覆盖整个因特网信息资源的搜索引擎7) 检索功能单一、缺乏灵活性与发展完善的计算机检索工具相比,目前许多搜索引擎的查询方法较为单一,一般之提供分类查询方式和关键词查询方式,不能从文献的多个方面对检索提问进行限制,只能就某一关键词或概念进行笼统的检索另外,搜索引擎只能根据给定的检索词和响应的程序设定在制定单位内进行检索,而不具备人的主动性和灵活性8) 搜索引擎对自然语言提问没有完全的理解力有些搜索引擎虽然对自沉支持自然语言,但实际上是对“提问语句”中的关键词用“或”组配或检索式然后发送检索请求给检索系统这种引擎无法理解用户检索课题的实质和关键内容9) 搜索引擎对多媒体内容的处理尚不成熟几乎所有的搜索引擎提供的检索界面都只支持在输入框输入文本信息对动画、声音和图像的处理还不成熟当然有些搜索引擎可提供部分图像检索10) 个性化网站的个性化已经比较成熟,但是搜索引擎的个性化并没有得到解决,不同的人用同一搜索引擎使用相同的检索词得到的结果是相同的也就是说搜索引擎没有考虑人的地域、性别、年龄等方面的差别。
11) 搜索引擎还不能很好地支持动态网页的检索 蜘蛛等软件不敢去碰动态网页,怕被变化无穷的动态系统黑洞吸进去出不来然而,网站却越来越多的使用动态网页生成工具,使用动态网页制作软件制作网页因此解决动态网页查找的问题已迫在眉睫3.2搜索引擎的发展趋势正文内容随着万维网信息按指数级增加,目前的搜索引擎存在搜索速度慢、死链接太多、重复信息或不相关信息较多,越来越难以满足人们各种信息需求针对新情况,搜索引擎将向智能化、精确化、交叉语言检索、多媒体检索、专业化等适应不同用户需求的方向发展下面简单介绍搜索引擎的一些发展趋势:(1)提高信息查询的精度,提高检索的有效性2)发展垂直型搜索引擎3)研究基于智能代理的信息过滤和个性化服务4)开展搜索引擎的本地化服务5)采用分布式并行处理技术提高系统规模和性能6)实现交又语言的检索7)发展多媒体搜索引擎8)发展专业化搜索引擎9)提高对用户提问的理解能力即对自然语言的理解能力4.结论本文主要分析了搜索引擎当前的一些功能以及分析了现在搜索引擎存在的局限性并阐述了搜索引擎的发展趋势相信随着网络信息发展与传播,网民对信息更快、更全、更方便的查询的需求,是搜索引。












