
随着网络数字时代的来,网络已成为人们获取信息的重要手.ppt
23页随着网络数字时代的到来,网络已成 随着网络数字时代的到来,网络已成为人们获取信息的重要手段为人们获取信息的重要手段. .因特网是一个因特网是一个信息的海洋,如何在这个浩瀚的海洋中迅信息的海洋,如何在这个浩瀚的海洋中迅速而准确地找到你想要的信息呢?速而准确地找到你想要的信息呢?§ §什么是搜索引擎?什么是搜索引擎?• 它以一定的策略在因特网中搜集、发现信息;• 它对信息进行理解、提取、组织和处理;• 它为用户提供检索服务,从而起到信息导航的目的•全文搜索引擎•目录式搜索引擎用代表所需信息的主题的关键字进行 信息查询利用罗列目录的方式引导搜索者依据目 录查找需要的信息---关键词检索---分类检索常用全文搜索引擎:常用全文搜索引擎:http://162.105.146.27/http://162.105.146.27/常用目录索引类搜索引擎: 信息检索工具工作原理:1、全文搜索引擎的工作原理 Ø搜索器:负责定期地自动到 各个网站上,把网页抓下来, 并顺着上面的链接,持续不断 地抓取网页如“网络机器人” 、“爬虫”、“蜘蛛”Ø索引器:把搜索器抓来的网 页进行分析,按照关键词句进 行索引,并存入服务器的数据 库中。
Ø检索器:面向用户,接收用 户提交的查询字串,在索引数 据库中查询,并将结果反馈给 用户123§ §全文搜索引擎的工作原理全文搜索引擎的工作原理实例分析:你在实例分析:你在“ “百度百度” ”搜索引擎搜索引擎 中输入中输入“ “北京概况北京概况” ”进行检索,结进行检索,结 果出来后,有上万条信息,查看果出来后,有上万条信息,查看 其中一项,就看到了相应的网页其中一项,就看到了相应的网页 (中国西部投资网中国西部投资网 http:// )Step1 “Step1 “百度百度””的的““蜘蛛蜘蛛””程序程序““爬爬””到了到了““中国西部投资网中国西部投资网””上,抓到上,抓到 了了““http:// Step2 从页面全文中抽取一系列关键字,包括从页面全文中抽取一系列关键字,包括““北京北京””、、““概况概况””等等,等等, 并把网页网址与这些关键字关联,利用并把网页网址与这些关键字关联,利用““索引器索引器””建立网页索引数据库;建立网页索引数据库;Step3 Step3 当当用户向用户向““百度百度””提交了关键字,提交了关键字,““百度百度””就利用就利用““检索器检索器””从索从索 引数据库中搜索,并将搜索到的结果展示在页面上。
引数据库中搜索,并将搜索到的结果展示在页面上三三 个个 过过 程程 ::§ §全文搜索引擎的工作原理全文搜索引擎的工作原理“ “百度百度” ”的的“ “蜘蛛蜘蛛” ”是如何知道有是如何知道有( (中国西部投资网中国西部投资网 http:// )这个网页的呢?这个网页的呢?1 1、、““北京国际投资促进网北京国际投资促进网””在在““百度百度””的网站目录中注的网站目录中注册过,册过,““蜘蛛蜘蛛””顺着注册的地址找到其首页,并顺着首顺着注册的地址找到其首页,并顺着首页找到页找到““北京概况北京概况””这个特定页面这个特定页面两两 个个 可可 能能 ::2 2、、““蜘蛛蜘蛛””顺着其他网站上的顺着其他网站上的““中国西部投资网中国西部投资网””链链接爬到了其首页上,并顺藤摸瓜,抓到了接爬到了其首页上,并顺藤摸瓜,抓到了““北京概况北京概况””这个页面这个页面关键字• 提炼搜索关键词(提炼最具代表性和指示性的 关键词) • 细化搜索条件(如多输入一两个关键词) • 用好逻辑符号(and、or、not) • 强制搜索(添加英文双引号来搜索短语词) 目录索引类搜索引擎一般采用人工方式 采集的存储网络信息,依靠手工为每个网 站确定 一个标题,并给出大概的描述,建 立关键字索引,将其放入相应的类目体系 中。
1、总目录3、链接2、专题目录•总目录——专题目录——链接——网站§ §目录索引类搜索引擎的目录索引类搜索引擎的特点特点从使用的角度讲,目录索引类搜索引擎最大从使用的角度讲,目录索引类搜索引擎最大的特点就是在查询信息时,事先可以没有特定的的特点就是在查询信息时,事先可以没有特定的信息检索目标信息检索目标( (关键词关键词) ),,通过浏览主题了解某一通过浏览主题了解某一主题的相关资源主题的相关资源而且,目录索引类搜索引擎的网页由人工精而且,目录索引类搜索引擎的网页由人工精选,网页内容丰富,学术性较强选,网页内容丰富,学术性较强§ §目录索引类搜索引擎的目录索引类搜索引擎的不足不足因特网上的信息量大,信息资源不断增加、复杂多因特网上的信息量大,信息资源不断增加、复杂多 变,人工分类变,人工分类具有一定的主观性具有一定的主观性;;同时,由于人工编制和维护要花费大量的人力和时同时,由于人工编制和维护要花费大量的人力和时 间,间, 因此,因此,更新速度慢更新速度慢部分网络目录并不全是人工方式采集和组织信息,部分网络目录并不全是人工方式采集和组织信息, 而是利用自动功能或者由用户递交的方式来丰富和补充而是利用自动功能或者由用户递交的方式来丰富和补充 资源。
资源由于目录索引类搜索引擎与全文搜索引擎检索有各 自的优点和缺点,目前它们谁也无法完全取代谁,于是 很多搜索网站都同时提供这两种类型的服务,例如 Yahoo、Sina 等搜索引擎的发展趋势1、多媒体信息检索传统的多媒体数据库中,除了文本和数字还包括 图形、图象、声音、视频、动画等各种媒体组合但 多媒体信息具有丰富的内涵,如:图象的颜色、纹理 、形状,动画中的运动、声音和音调等例如歌曲的 旋律、音调、音质等难以用文字描述这正是基于内 容的音频检索需要研究和解决的问题,以期达到更深 的检索层次和更好的检索效果2、专业垂直搜索引擎专业垂直类搜索引擎只面向某一个特 定的领域,专注于自己的特长和核心 技术,能够保证对该领域信息的完全 收录和及时更新题问365试题搜索引擎 其他信息检索工具:以FTP 、Telnet 、Usenet 等资源为检索对象的检索工具,如:北大天网、 Archie等下面以“北大天网”为例 :8080/北大天网既提供因特网信息资源检索, 也以因特网形式提供FTP文件检索元搜索引擎:• 元搜索引擎是一种调用其他多个独立搜索引擎的 引擎,是对多个独立搜索引擎的整合、调用、控 制和优化,能方便地检索多个搜索引擎,扩大检 索范围,提高检索的全面性。
如: 元搜索引擎的特点• 元搜索引擎在搜索的时候,用户只需提 交一次搜索请求,而且可以同时搜索多 个数据库,并根据多个搜索引擎的检索 结果进行二次加工,如对检索结果进行 重排和标明检索结果来源等,输出给用 户• 利用困特网进行信息资源检索时,如果 想大致了解某一个领域的信息资源,可以 使用目录索引类搜索引擎;如果需要检索 的信息资源目标比较明确,则可以根据信 息资源的类型选择搜索工具。












