
网络信息资源检索与利用第二次作业.doc
6页《 网络信息资源检索与运用 》课程实验第 2 次实验报告实验内容及基本规定:实验项目名称: 网络搜索引擎的应用实验类型: 验证每组人数: 1实验内容及规定: 1. 请分别针对网络资源目录使用的分类措施进行举例2. 在yahoo的分类目录中找到一条途径指向网站论文:ctr.stanford.edu/Summer98/koumoutsakos.pdf3. 在新浪网的分类目录中找到一条途径指向学校的网站:www.njupt.ed4. 在sohu的分类目录中找到一条途径指向网页:http://book.sohu.com/newbook/5. 请指出yahoo,sina,sohu的分类目录之间的异同和优劣(500字以内)6. 请理解google和百度在进行核心词检索中语法的异同,并阐明这两者在针对某一主题进行检索时检索成果的差别以及对检索意图理解精确度的差别实验成果:1. 请分别针对网络资源目录使用的分类措施进行举例1) 主题分类法(2) 学科分类法(3) 图书分类法(4) 分面组配法2. 在yahoo的分类目录中找到一条途径指向网站论文:ctr.stanford.edu/Summer98/koumoutsakos.pdf。
3. 在新浪网的分类目录中找到一条途径指向学校的网站:www.njupt.edu.cn4. 在sohu的分类目录中找到一条途径指向网页:http://bo 请指出yahoo,sina,sohu的分类目录之间的异同和优劣(500字以内)(一)Yahoo(http://)Yahoo 是世界上最出名的网络资源目录Yahoo的魅力,就在于它的可浏览式级别主题目录Yahoo按照主题建立分类索引,提供全面的分类体系构造,并结合高质量的检索软件,成为网络检索工具的佼佼者和级别式风络资源目录的典型代表Yahoo采用多原则高类、多维展开的方式,可觉得某一信息源在其巨大的分类级别构造中提供不同的途径分支入口,保证了从不同的途径,为检索相似内容的不同顾客提供服务对于交替类目,Yahoo运用了符号“@”来表达,起到了类似于有关参照的作用,可以指引顾客由某一子类目进入Yahoo的浏览性级别构造的其她分支中二)Open Directory(http://dmoz.org)Open directory是手工编辑的目录导航式搜索引擎,它由四万多名志愿者编辑标引加工数据并组织类目,自称为世界上最权威的人工编辑的搜索引擎。
大多数志愿者都对自己负责的部分相称感爱好,有的就是该领域的专家权威,因此Open directory中有不少分类的内容,特别是某些边沿学科或冷门学科,要比Yahoo提供的全面得多,有的甚至在Yahoo中主线找不到相应的分类Open Directory - 开放目录专案提供了一种以互联网自我组织与管理的方式进行发展用来满足迅速增长的网站数量随着互联网的增长,网民数量也随之增长这些网民可以编辑管理一小部分网站,并且提供负责更多的编辑工作,整顿清除没有用的信息内容,只保存最佳的内容Open directory也提供核心词检索,分为简朴检索和高档检索在简朴检索中,支持布尔逻辑检索在高档检索中提供了有关的选择,涉及选择只检索类目、只检索站点等同步它还提供了与其她搜索引擎的链接Open directory是一种非常有前景的网络资源目录,它可无限扩展的编辑人员,为其此后的发展注入了极大的活力,它的资源收录的增长速度,内容的更新频次,都是其她网络资源目录所无法比拟的同步,它详尽的类目体系,开放的管理体制,都形成了其独用的特色,成为顾客获取网络信息资源的重要门户网站三)搜狐(http://www.sohu.com)搜狐的网络资源目录堪称是国内第一部系统的网站分类法,对其她中主文网络资源目录的发展起到了积极的增进作用。
搜狐网络资源目录的分类体系的编制,基本上坚持了在符合科学性原则的前提下,充足考虑网站资源和顾客的查询习惯的原则在搜狐的分类体系构造中涉及18个大类,涵盖了50000多种不同层次的子类目,形成了一种十分庞大的树状构造,几乎波及所有的行业或者领域它采用了“纵向成枝、横向成网”、“主题法与分面组配法结合”的分类方式,根据网站的主题,一方面把网站分为18个大类,再按细分主题层层分下去然后,再根据不同顾客的使用习惯,以及不同的分类原则,把不同类目下“有关”的类目“链接”起来,从而形成搜狐的“网状”分类体系搜狐的网站分类法以主题分类为主设立了娱乐休闲、工商经济、电脑网络、分司公司、教育培训、文学、艺术、体育健身、新闻媒体、卫生健康、科学技术、生活服务、旅游交通、社会文化、政法军事、社会科学、个人主页17个大类,此外结合分面组配的措施设立“国家与地区”类目,把其她17个大类下的所有网站又按所属地区进行分类,由于大多数网站都具有地区性,也便于顾客直接查找搜狐的网站资源目录同样是按照信息所属的类别,层层点击查找信息,因此用目录时一方面要考虑清晰想要查找的信息属于哪个类别6. 请理解google和百度在进行核心词检索中语法的异同,并阐明这两者在针对某一主题进行检索时检索成果的差别以及对检索意图理解精确度的差别。
百度搜索引擎使用了高性能的“网络蜘蛛”程序自动的在互联网中搜索信息,可定制、高扩展性的调度算法使得搜索器能在极短的时间内收集到最大数量的互联网信息百度搜索引擎的特点1. 基于字词结合的信息解决方式巧妙解决了中文信息的理解问题,极大地提高了搜索的精确性和查全率2. 支持主流的中文编码原则涉及GBK(中文内码扩展规范)、GB2312(简体)、BIG5(繁体),并且可以在不同的编码之间转换3. 智能有关度算法采用了基于内容和基于超链分析相结合的措施进行有关度评价,可以客观分析网页所涉及的信息,从而最大限度保证了检索成果有关性4. 检索成果能标示丰富的网页属性(如标题、网址、时间、大小、编码、摘要等),并突出顾客的查询串,便于顾客判断与否阅读原文5. 百度搜索支持二次检索(又称渐进检索或逼进检索)可在上次检索成果中继续检索,逐渐缩小查找范畴,直至达到最小、最精确的成果集利于顾客更加以便地在海量信息中找到自己真正感爱好的内容6. 有关检索词智能推荐技术在顾客第一次检索后,会提示有关的检索词,协助顾客查找更有关的成果,登记表白可以增进检索量提高10-20%7. 运用多线程技术、高效的搜索算法、稳定的UNIX平台、和本地化的服务器,保证了最快的响应速度。
百度搜索引擎在中国境内提供搜索服务,可大大缩短检索的响应时间(一种检索的平均响应时间不不小于0.5秒)8. 可以提供一周、二周、四周等多种服务方式可以在7天之内完毕网页的更新,是目前更新时间最快、数据量最大的中文搜索引擎9. 检索成果输出支持内容类聚、网站类聚、内容类聚+网站类聚等多种方式支持顾客选择时间范畴,提高顾客检索效率10. 智能性、可扩展的搜索技术保证最快最多的收集互联网信息拥有目前世界上最大的中文信息库,为顾客提供最精确、最广泛、最具时效性的信息提供了坚实基本11. 分布式构造、精心设计的优化算法、容错设计保证系统在大访问量下的高可用性、高扩展性、高性能和高稳定性12. 高可配备性使得搜索服务可以满足不同顾客的需求13. 先进的网页动态摘要显示技术14. 独有百度快照,15. 支持多种高档检索语法,使顾客查询效率更高、成果更准已支持“+”(AND)、“-”(NOT)、“|”(OR)、“site:”、“link:”,还将继续增长其他高效的搜索语法Google作为全球最大的多语言搜索引擎,在国际上占有的市场越来越大,成为互联网最具潜力的公司,如下就简介下GOOGLE搜索引擎的重要特点:1.特有的PR技术,PR 可以对网页的重要性做出客观的评价。
PR是GOOGLE评价一种网站质量高下的重要原则,PR分为十个级别,沉着不1至10,PR越高代表网站质量和权威性越高,排名也就越靠前2.更新和收录快,GOOGLE收录新站一般在十个工作日左右,是所有搜索引擎收录最快的,更新也比较稳定,一般一种星期都会有大的更新3.注重链接的文字描述和链接的质量,链接的文字描述也就是做链接用的文字,这个文字对GOOGLE排名起一定作用,因此我们建议如果网站要做某些核心词,在互换链接时要用这个核心词做链向你网站,链接的质量与链接网站的权威性和与你站与否有关有关,权威越高侧你站获得的排名越好,4.注重Description描述,多次研究发现,那些在GOOGLE排名好的网站在描述中匀具有核心词,并且有些反复二次,因此可推断其对描述还是相称注重五、超文本匹配分析:Google 的搜索引擎同步也分析网页内容并不采用单纯扫描基于网页的文本(网站发布商可以通过元标记控制此类文本)的方式,而是分析网页的所有内容以及字体、分区及每个文字精确位置等因素同步还会分析相邻网页的内容,以保证返回与顾客查询最有关的成果她们的搜索排序方式与广告呈现也有不同,百度有竞价排名,而Google是机器程序自动排序,完全按照预先设计的机器程序来解决,没有人为的干预来操纵其排名。
成绩评估:该生看待本次实验的态度 □认真 □良好 □一般 □比较差本次实验的过程状况 □较好 □较好 □一般 □比较差对实验成果的分析 □较好 □良好 □一般 □比较差文档书写符合规范限度 □较好 □良好 □一般 □比较差综合意见:成绩指引教师签名日期。












