电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本
换一换
首页 金锄头文库 > 资源分类 > PPT文档下载
分享到微信 分享到微博 分享到QQ空间

北邮毕设答辩_网络爬虫设计及算法研究【行业内容】

  • 资源ID:183495408       资源大小:2.02MB        全文页数:20页
  • 资源格式: PPT        下载积分:20金贝
快捷下载 游客一键下载
账号登录下载
微信登录下载
三方登录下载: 微信开放平台登录   支付宝登录   QQ登录  
二维码
微信扫一扫登录
下载资源需要20金贝
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
如填写123,账号就是123,密码也是123。
支付方式: 支付宝    微信支付   
验证码:   换一换

 
账号:
密码:
验证码:   换一换
  忘记密码?
    
1、金锄头文库是“C2C”交易模式,即卖家上传的文档直接由买家下载,本站只是中间服务平台,本站所有文档下载所得的收益全部归上传人(卖家)所有,作为网络服务商,若您的权利被侵害请及时联系右侧客服;
2、如你看到网页展示的文档有jinchutou.com水印,是因预览和防盗链等技术需要对部份页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有jinchutou.com水印标识,下载后原文更清晰;
3、所有的PPT和DOC文档都被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;下载前须认真查看,确认无误后再购买;
4、文档大部份都是可以预览的,金锄头文库作为内容存储提供商,无法对各卖家所售文档的真实性、完整性、准确性以及专业性等问题提供审核和保证,请慎重购买;
5、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据;
6、如果您还有什么不清楚的或需要我们协助,可以点击右侧栏的客服。
下载须知 | 常见问题汇总

北邮毕设答辩_网络爬虫设计及算法研究【行业内容】

网络爬虫设计及相应算法研究,姓名: 指导教师:,1,课件优选,2,课件优选,项目名称: 网络爬虫设计及相应算法研究 The Research and Design of Web Crawler 项目类别:软件研究设计类 项目来源:科研项目,3,课件优选,4,课件优选,搜索引擎介绍: 互联网的迅速发展,使得网上信息越来越多,搜索引擎正是为了解决在浩瀚的信息海洋中快速高效的寻找信息的问题。 搜索引擎是通过互联网搜索信息的重要途径,涉及到多个领域的理论和技术,具有很高的综合性和很强的挑战性。本课题研究的内容是搜索引擎的关键部分网络爬虫。,5,课件优选,网络爬虫介绍: 网络爬虫是搜索引擎系统中十分重要的组成部分,它负责从互联网中搜集网页、采集信息,这些网页信息用于建立索引从而为搜索引擎提供支持,它决定着整个引擎系统的内容是否丰富,信息是否即时,因此其性能的优劣直接影响着搜索引擎的效果。,6,课件优选,网络爬虫的基本原理: 1)从一个初始URL集合中挑选一个URL,下载该URL对应的页面; 2)解析该页面,从该页面中抽取出其包含的URL集合,接下来将抽取的URL集合再添加到初始URL集合中; 3)重复前两个过程,直到爬虫达到某种停止标准为止。,7,课件优选,8,课件优选,学习爬虫的基本技术 网页抓取技术 网页去重技术 多线程技术,9,课件优选,网页抓取技术 宽度优先遍历算法和广度优先算法 PageRank算法基于链接的搜索算法,10,课件优选,网页去重技术 Bloom Filter 算法 错误率估计 最优哈希函数个数 位数组大小,11,课件优选,多线程技术 多线程 半同步/半异步并发模式 多线程的问题,12,课件优选,13,课件优选,设计实现爬虫系统,并对系统性能就以下两方面进行比较分析: 在测试时间、最大连接数等基本参数相同的情况下,通过给爬虫系统设置不同的多线程数进行页面抓取,并对结果进行比较分析。 在测试时间、请求线程数、页面抓取线程数等基本参数相同的情况下,通过改变爬虫系统的最大页面连接数进行页面抓取,并对结果进行比较分析。,14,课件优选,1. 测试爬虫在测试时间、最大连接数等基本参数相同的情况下,采用单线程或多线程方式抓取页面的速度,结果如下表: 2. 测试爬虫系统在测试时间、请求线程数、页面抓取线程数等基本参数相同的情况下,采用不同的并行连接数抓取页面的速度,结果如下表:,15,课件优选,1. 测试爬虫在测试时间、最大连接数等基本参数相同的情况下,采用单线程或多线程方式抓取页面得到的表格绘制曲线图如下: 从图中可以看出,在多线程的情况下,爬虫系统的效率的确有所提高,但是提高的效果并不十分明显。而理论上,多线程的抓取效率应该是要明显高于单线程的,但是由于测试是在单CPU机器上进行的,所以效率的提高并不能很好的体现出来。,16,课件优选,1.测试爬虫系统在测试时间、请求线程数、页面抓取线程数等基本参数相同的情况下,采用不同的并行连接数抓取页面得到的表格绘制曲线图如下: 从图中可以看出,在其他条件相同的情况下,最大并行连接数对爬虫的爬取效率的影响比较大。当最大连接数从16变化到32时,抓取效率提高了将近1倍,之后又逐渐趋于平缓。这是因为系统的线程数限制了抓取效率。在相同的HTTP请求和页面抓取的线程数的条件下,在一定的范围内,最大连接数越高,爬虫效率也越高,当超过某一范围,爬虫的效率会趋于平稳。,17,课件优选,18,课件优选,总结: 1、完成了爬虫系统的学习与设计; 2、研究比较了相关算法; 3、对系统结果进行了比较分析。 展望: 1、爬虫系统效率仍然比较低; 2、爬取的信息不够准确; 3、还有很多爬虫算法有待学习和研究。,19,课件优选,Thank You !,20,课件优选,

注意事项

本文(北邮毕设答辩_网络爬虫设计及算法研究【行业内容】)为本站会员(8**)主动上传,金锄头文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即阅读金锄头文库的“版权提示”【网址:https://www.jinchutou.com/h-59.html】,按提示上传提交保证函及证明材料,经审查核实后我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.