
网络信息资源的检索利用-欢迎访问石家庄铁道大学.ppt
80页—— 石家庄铁道大学图书馆 ——一、 搜索引擎二、百度搜索引擎三、 Google搜索引擎第八讲 搜索引擎—— 石家庄铁道大学图书馆 ——一、搜索引擎定义:是基于WWW的信息处理系统,是对网络资源进行标引和检索的工具实质上是用来对网络信息资源管理和检索 的一系列软件组成部分负责工作搜索器负责定期地自动到各个网站上,把网页抓下来,并顺着上面的 链接,持续不断地抓取网页索引器把搜索器抓来的网页进行分析,按照关键词句进行索引,并存 入服务器的数据库中检索器面向用户,接收用户提交的查询字串,在索引数据库中查询, 并将结果反馈给用户类型:按工作方式区分: 主题、目录和多元—— 石家庄铁道大学图书馆 ——(1)主题引擎主题引擎工作原理收集①处理②查询③根据结果由用 户访问④—— 石家庄铁道大学图书馆 ——主题引擎:依靠一个叫“网络机器人(Spider)”或叫“网络蜘蛛 (Crawlers)”的软件,以某种策略自动地在互联网中搜集和发现 信息,由索引器为搜集到的信息建立索引,由检索器根据用户 输入的“检索词” 在索引库中查询,并将查询结果返回给用户 服务方式:面向网页的全文检索服务程序自动完成,处理信息的层次是网页。
优点: 信息量大、更新及时缺点: 返回信息中常有很多无关信息,甚至有一定比例的死 链接,用户必须从结果中进行筛选 国内代表:百度()等国外代表:Google()等它们的首页都只有一个检索文本框—— 石家庄铁道大学图书馆 ——主题引擎—— 石家庄铁道大学图书馆 ——(2)目录引擎搜索引擎主题题引擎目录录引擎是否人工参与无 程序自动完成是提供的结结果网页网站适合专指、具体某一专题以人工方式或半自动方式搜集信息,由编辑员查看信息之后 ,人工形成信息摘要,并将信息置于事先确定的分类框架中 信息大多面向网站,提供目录浏览服务和直接检索服务国内代表:搜狐、新浪、网易、雅虎中国的分类目录以及网上的一些导航站点、网址之家国外代表: Yahoo Directory(网站数量约200万个)等—— 石家庄铁道大学图书馆 ——目录引擎—— 石家庄铁道大学图书馆 ——(3)多元引擎• 提供各个主题引擎的统一检索平台• 一般没有自己网络机器人及数据库,而是将用户的查询请求 通过调用、控制和优化其它多个独立搜索引擎的搜索结果( 网页)并以统一的格式在同一界面集中显示• 优点:返回结果的信息量更大、更全• 缺点:不能够充分使用所使用搜索引擎的功能,用户需要做 更多的筛选。
• 国内代表:万维搜索()等• 国外代表:元搜索metacrawler()等—— 石家庄铁道大学图书馆 ——多元引擎同时提交多个独立的搜索引擎,分别 检索多个数据库,并将检索结果进行 二次加工,最后将整理好的检索结果 输出给用户支持调用12个独立搜 索引擎,提供涵盖近 20个主题的目录检索 服务—— 石家庄铁道大学图书馆 ——• 目前,主题引擎与目录引擎有相互融合渗透的趋势原来一 些纯粹的主题搜索引擎现在也提供目录搜索,如Google就借 用Open Directory目录提供分类查询而 Yahoo目录索引则 通过与Google等搜索引擎合作扩大搜索范围• 在默认搜索模式下,一些目录类搜索引擎首先返回的是自己 目录中匹配的网站,如搜狐、新浪、网易等;而另外一些则 默认的是网页搜索,如Yahoo—— 石家庄铁道大学图书馆 ——二、百度搜索引擎• 百度:1999年底,李彦宏和徐勇在美国硅谷创建了百度 2000年百度公司回国发展,之后成为全球最大的中文搜寻引擎技术公司• 起名:来自于“众里寻他千百度,蓦然回首,那人却在灯火 阑珊处” ——辛弃疾 《青玉案》 象征着百度对中文信息检索技术执著的追求,寄托着百度对自身技术的信心。
• 2005年8月5日,百度在美国上市,当天股票飙涨350%,其 身价已经超过9亿美元• 中国所有提供搜索引擎的门户网站中,超过80%以上都由百 度提供搜索引擎技术支持,现有客户包括新浪、腾讯、263 、21cn、上海热线、广州视窗、新华网……—— 石家庄铁道大学图书馆 ——可检索新闻、网 页、图片、百科 、知道、MP3、 视频等默认查 找网页—— 石家庄铁道大学图书馆 ——2.1 网页搜索(1) 使用两个以上检索词的检索逻辑 Ø 逻辑与表示为:A B (AB之间为空格)含义:空格前后的两个检索词在同一个网页中出现如: 搜索 “石家庄铁道大学2014年就业情况”的网页检索策略:石家庄铁道大学 2014年 就业 Ø 逻辑或表示为: A | B含义: A、B两个检索词中至少有一个在网页中出现如:要查询 “信息检索”或 “文献检索”的相关网页检索策略:信息检索 | 文献检索Ø逻辑非表示为:A -B 但减号之前必须留一空格含义: 网页中出现检索词A而不出现检索词B如: 要搜寻[琅琊榜],但不含[剧情介绍]的相关网页检索策略琅琊 -剧情介绍—— 石家庄铁道大学图书馆 ———— 石家庄铁道大学图书馆 ——(2) 字段检索 Ø 在标题搜索:intitle:检索词如: intitle:(石家庄铁道大学 2015年 寒假 放假) 表示搜索标题 及其说明语中同时含有检索词“石家庄铁道大学”、“2015年” 、“寒假”、“放假”的网页。
网页标题网页说明语: 系统自动产生—— 石家庄铁道大学图书馆 ——Ø 在链接中搜索:inurl:关键词搜索url中含有的关键词的网页 如:photoshop inurl:soft这个查询串中的“photoshop”,是可以出现在网页的任何位置 ,而“soft”则必须出现在网页url中URL地址中含 有soft—— 石家庄铁道大学图书馆 ——Ø在网站中搜索:site:网站或域名搜索某网站或每类网站包含检 索内容的网页 如:教学名师 site:,查找石家庄铁道大学网站含有教 学名师的网页教学名师 site:,查找中国教育网站含有教学名师的网页—— 石家庄铁道大学图书馆 ——Ø 查找文件: filetype:后跟以下文件格式:doc、xls、ppt、 pdf、rtf、all其中,all表示搜索所有这些文件类型如:搜索网页标 题中含有信息检 索的ppt文件—— 石家庄铁道大学图书馆 ——Ø 精确匹配——双引号“ ”和书名号《》如果输入的查询词很长,百度搜索时可能是拆分的给查询词加上双引号,就可以达到这种效果例如:石家庄铁道大学图书馆和“石家庄铁道大学图书馆”—— 石家庄铁道大学图书馆 ——Ø 精确匹配——书名号《 》在其他搜索引擎中,书名号会被忽略,而在百度,中文书名 号是可被查询的。
有两层特殊功能:一是书名号会出现在搜索结果中;二是被 书名号扩起来的内容,不会被拆分 《 》在某些情况下特别有效果,例如,查名字很通俗和常 用的电影或者小说比如,查电影“”,如果不加书名号 ,很多情况下出来的是通讯工具——,而加上《 》后, 《》结果就都是关于电影方面的了—— 石家庄铁道大学图书馆 ——2.2 百度百科百度百科是一部内容开放、自由的网络百科全书,旨在创 造一个涵盖所有领域知识、服务所有互联网用户的中文知识 性百科全书由网友共同编写,任何一个符合法律的词条,都可以由网 友自由添加,具有无限、即时和动态的特征百度百科传统百科全书词条编写网友固定专家数量无限,自由添加有限,出版后无法修改内容即时、动态固定,有些词条无法反映—— 石家庄铁道大学图书馆 ——2.3 百度知道基于搜索的互动式知识问答分享平台并非直接查询那些已经存在于互联网上的内容,而是用户自己根据具体需求有针对性地提出问题,通过积分奖励机制发动其他用户来给出该问题的答案主要是针对问题的答案—— 石家庄铁道大学图书馆 ——(1)网页搜索中直接提问—— 石家庄铁道大学图书馆 ——(2)“百度知道”中检索答案—— 石家庄铁道大学图书馆 ——百度百科与百度知道的区别百度知道百度百科表现形式问答形式非问答形式应用结果或信息利 用针对问题的答案偏概念形式的词条解释产品实质互动问答平台,并非严 格意义的知识库体系协同合作平台,知识的 集合库—— 石家庄铁道大学图书馆 ——2.4 百度文库• 是百度发布的供网友分享文档的平台。
• 文档由百度用户上传,需要经过百度的审核才能发布,百度自身不编辑或修改用户上传的文档内容网友可以阅读和下载这些文档• 文档包括教学资料、考试题库、专业资料、公文写作、法律文件等多个领域的资料• 百度用户上传文档可以得到一定的积分,下载有标价的文档则需要消耗积分—— 石家庄铁道大学图书馆 ——例如:查找图书馆有关RFID的文档—— 石家庄铁道大学图书馆 ——2.5 高级搜索—— 石家庄铁道大学图书馆 ——多个词,“与”,空格精确词,“ ”多个词,“或”,“|”多个词,“去除” ,“-”选择文档格式关键词位置: intitle、inurl 指定网站或域名 :site高级搜索页面—— 石家庄铁道大学图书馆 ——例如:查找历年来各高校工程硕士招生简章文本—— 石家庄铁道大学图书馆 ——2.6 百度搜索特色功能• 百度快照 • 相关搜索 • 拼音提示 • 错别字提示 • 英汉互译词典• 股票、列车时刻表和航班查询 • 天气查询• 货币换算 —— 石家庄铁道大学图书馆 ——Ø 百度快照当某个搜索无法打开或打开速度太慢,可通过“百度快照” 快速浏览该页面内除部分图片、音乐(非文本信息)外的主 要内容。
点击百度快照—— 石家庄铁道大学图书馆 ———— 石家庄铁道大学图书馆 ——Ø 相关搜索搜索结果不佳,可通过参考别人是怎么搜的相关搜索”提示相似的一系列查询词,按搜索热门度排序 —— 石家庄铁道大学图书馆 ——Ø 拼音提示 只需输入查询词的汉语拼音,百度就能把最符合要求的对 应汉字提示出来—— 石家庄铁道大学图书馆 ——Ø 错别字提示由于汉字输入法的局限性,搜索时经常会输入一些错别字, 导致搜索结果不佳这时,百度会给出错别字纠正提示—— 石家庄铁道大学图书馆 ——3. 百度搜索特色功能Ø 英汉互译词典英汉:“英文单词或词组”+“是什么意思”汉英:“汉字或词语”+“的英文怎么写 ”—— 石家庄铁道大学图书馆 ——Ø 股票、列车时刻表和飞机航班查询—— 石家庄铁道大学图书馆 ——3. 百度搜索特色功能Ø 天气查询城市名称+天气—— 石家庄铁道大学图书馆 ——3. 百度搜索特色功能Ø 货币换算等于、=、换成……货币—— 石家庄铁道大学图书馆 ——3. 百度搜索特色功能Ø 百度翻译2.7 百度的产品大全可以直接打开产品大全,在专题内检索—— 石家庄铁道大学图书馆 ——Ø 视频—— 石家庄铁道大学图书馆 ——Ø 学术搜索—— 石家庄铁道大学图书馆 ——Ø 搜索服务—— 石家庄铁道大学图书馆 ——Ø 社区服务—— 石家庄铁道大学图书馆 ——中国搜索引擎百度:,百度一下,你就知道。
搜搜:,搜搜更懂你搜狗:,上网从搜狗开始好搜:,好搜,不干坏事原360搜搜 伍佰亿:,一个免费推广网站的搜索引擎有道搜索:中国搜索:,国家权威搜索原即刻搜索引擎中搜:,中搜第三代搜索引擎开放平台—— 石家庄铁道大学图书馆 ——3.1 介绍Ø Google的创立Google是由2位斯坦福大学的博士生Larry Page (拉里·佩奇) 和 Sergey Brin (塞吉·布林 )在1998年创立的。
