电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本
换一换
首页 金锄头文库 > 资源分类 > DOCX文档下载
分享到微信 分享到微博 分享到QQ空间

park的误解-不仅spark是内存计算,hadoop也是内存计算_光环大数据培训

  • 资源ID:49769799       资源大小:44.18KB        全文页数:3页
  • 资源格式: DOCX        下载积分:0金贝
快捷下载 游客一键下载
账号登录下载
微信登录下载
三方登录下载: 微信开放平台登录   支付宝登录   QQ登录  
二维码
微信扫一扫登录
下载资源需要0金贝
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
如填写123,账号就是123,密码也是123。
验证码:   换一换

 
账号:
密码:
验证码:   换一换
  忘记密码?
    
1、金锄头文库是“C2C”交易模式,即卖家上传的文档直接由买家下载,本站只是中间服务平台,本站所有文档下载所得的收益全部归上传人(卖家)所有,作为网络服务商,若您的权利被侵害请及时联系右侧客服;
2、如你看到网页展示的文档有jinchutou.com水印,是因预览和防盗链等技术需要对部份页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有jinchutou.com水印标识,下载后原文更清晰;
3、所有的PPT和DOC文档都被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;下载前须认真查看,确认无误后再购买;
4、文档大部份都是可以预览的,金锄头文库作为内容存储提供商,无法对各卖家所售文档的真实性、完整性、准确性以及专业性等问题提供审核和保证,请慎重购买;
5、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据;
6、如果您还有什么不清楚的或需要我们协助,可以点击右侧栏的客服。
下载须知 | 常见问题汇总

park的误解-不仅spark是内存计算,hadoop也是内存计算_光环大数据培训

光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/hadoop.aura.cn 光环大数据光环大数据 http:/hadoop.aura.cnparkpark 的误解的误解- -不仅不仅 sparkspark 是内存计算,是内存计算,hadoophadoop 也是内存计算也是内存计算_ _光环大数据培训光环大数据培训市面上有一些初学者的误解,他们拿 spark 和 hadoop 比较时就会说,Spark 是内存计算,内存计算是 spark 的特性。请问在计算机领域,mysql,redis,ssh 框架等等他们不是内存计算吗?依据冯诺依曼体系结构,有什么技术的程序不是 在内存中运行,需要数据从硬盘中拉取,然后供 cpu 进行执行?所有说 sprk 的 特点是内存计算相当于什么都没有说。那么 spark 的真正特点是什么?抛开 spark 的执行模型的方式,它的特点无非就是多个任务之间数据通信不需要借 助硬盘而是通过内存,大大提高了程序的执行效率。而 hadoop 由于本身的模型 特点,多个任务之间数据通信是必须借助硬盘落地的。那么 spark 的特点就是 数据交互不会走硬盘。只能说多个任务的数据交互不走硬盘,但是 sprk 的 shuffle 过程和 hadoop 一样仍然必须走硬盘的。误解一:Spark 是一种内存技术大家对 Spark 最大的误解就是 spark 一种内存技术。其实没有一个 Spark 开发者正式说明这个,这是对 Spark 计算过程的误解。Spark 是内存计算没有 错误,但是这并不是它的特性,只是很多专家在介绍 spark 的特性时,简化后 就成了 spark 是内存计算。什么样是内存技术?就是允许你将数据持久化在 RAM 中并有效处理的技术。 然而 Spark 并不具备将数据数据存储在 RAM 的选项,虽然我们都知道可以将数 据存储在 HDFS, HBase 等系统中,但是不管是将数据存储在磁盘还是内存,都 没有内置的持久化代码。它所能做的事就是缓存数据,而这个并不是数据持久 化。已经缓存的数据可以很容易地被删除,并且在后期需要时重新计算。但是有人还是会认为 Spark 就是一种基于内存的技术,因为 Spark 是在内 存中处理数据的。这当然是对的,因为我们无法使用其他方式来处理数据。操 作系统中的 API 都只能让你把数据从块设备加载到内存,然后计算完的结果再 存储到块设备中。我们无法直接在 HDD 设备上计算;所以现代系统中的所有处理 基本上都是在内存中进行的。虽然 Spark 允许我们使用内存缓存以及 LRU 替换规则,但是你想想现在的 RDBMS 系统,比如 Oracle ,你认为它们是如何处理数据的?它们使用共享内存 段作为 table pages 的存储池,所有的数据读取以及写入都是通过这个池的, 这个存储池同样支持 LRU 替换规则;所有现代的数据库同样可以通过 LRU 策略来 满足大多数需求。但是为什么我们并没有把 Oracle 称作是基于内存的解决方 案呢?再想想操作系统 IO,你知道吗?所有的 IO 操作也是会用到 LRU 缓存技术 的。光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/hadoop.aura.cn 光环大数据光环大数据 http:/hadoop.aura.cnSpark 在内存中处理所有的操作吗?Spark 的核心:shuffle,其就是将数据 写入到磁盘的。shuffle 的处理包括两个阶段:map 和 reduce。Map 操作仅仅 根据 key 计算其哈希值,并将数据存放到本地文件系统的不同文件中,文件的 个数通常是 reduce 端分区的个数;Reduce 端会从 Map 端拉取数据,并将这些数 据合并到新的分区中。所有如果你的 RDD 有 M 个分区,然后你将其转换成 N 个 分区的 PairRDD,那么在 shuffle 阶段将会创建 M*N 个文件!虽然目前有些优 化策略可以减少创建文件的个数,但这仍然无法改变每次进行 shuffle 操作的 时候你需要将数据先写入到磁盘的事实!所以结论是:Spark 并不是基于内存的技术!它其实是一种可以有效地使用 内存 LRU 策略的技术。误解二:Spark 要比 Hadoop 快 10x-100x大家在 Spark 的官网肯定看到了如下所示的图片这个图片是分别使用 Spark 和 Hadoop 运行逻辑回归(Logistic Regression)机器学习算法的运行时间比较,从上图可以看出 Spark 的运行速度 明显比 Hadoop 快上百倍!但是实际上是这样的吗?大多数机器学习算法的核心部 分是什么?其实就是对同一份数据集进行相同的迭代计算,而这个地方正是 Spark 的 LRU 算法所骄傲的地方。当你多次扫描相同的数据集时,你只需要在 首次访问时加载它到内存,后面的访问直接从内存中获取即可。这个功能非常 的棒!但是很遗憾的是,官方在使用 Hadoop 运行逻辑回归的时候很大可能没有 使用到 HDFS 的缓存功能,而是采用极端的情况。如果在 Hadoop 中运行逻辑回 归的时候采用到 HDFS 缓存功能,其表现很可能只会比 Spark 差 3x-4x,而不是 上图所展示的一样。根据经验,企业所做出的基准测试报告一般都是不可信的!一般独立的第三 方基准测试报告是比较可信的,比如:TPC-H。他们的基准测试报告一般会覆盖 绝大部分场景,以便真实地展示结果。一般来说,Spark 比 MapReduce 运行速度快的原因主要有以下几点:task 启动时间比较快,Spark 是 fork 出线程;而 MR 是启动一个新的进程;更快的 shuffles,Spark 只有在 shuffle 的时候才会将数据放在磁盘,而 MR 却不是。更快的工作流:典型的 MR 工作流是由很多 MR 作业组成的,他们之间的数 据交互需要把数据持久化到磁盘才可以;而 Spark 支持 DAG 以及 pipelining, 在没有遇到 shuffle 完全可以不把数据缓存到磁盘。光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/hadoop.aura.cn 光环大数据光环大数据 http:/hadoop.aura.cn缓存:虽然目前 HDFS 也支持缓存,但是一般来说,Spark 的缓存功能更加 高效,特别是在 SparkSQL 中,我们可以将数据以列式的形式储存在内存中。所有的这些原因才使得 Spark 相比 Hadoop 拥有更好的性能表现;在比较短 的作业确实能快上 100 倍,但是在真实的生产环境下,一般只会快 2.5x 3x!为什么大家选择为什么大家选择光环大数据光环大数据!大数据培训、人工智能培训、Python 培训、大数据培训机构、大数据培训班、数据分析培训、大数据可视化培训,就选光环大数据!光环大数据,聘请专业的大数据领域知名讲师,确保教学的整体质量与教学水准。讲师团及时掌握时代潮流技术,将前沿技能融入教学中,确保学生所学知识顺应时代所需。通过深入浅出、通俗易懂的教学方式,指导学生更快的掌握技能知识,成就上万个高薪就业学子。【报名方式、详情咨询报名方式、详情咨询】光环大数据官方网站报名:光环大数据官方网站报名:http:/hadoop.aura.cn/http:/hadoop.aura.cn/手机报名链接:手机报名链接:http:/http:/ hadoop.aura.cnhadoop.aura.cn /mobile/mobile/

注意事项

本文(park的误解-不仅spark是内存计算,hadoop也是内存计算_光环大数据培训)为本站会员(gua****an)主动上传,金锄头文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即阅读金锄头文库的“版权提示”【网址:https://www.jinchutou.com/h-59.html】,按提示上传提交保证函及证明材料,经审查核实后我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。

分享当前资源【park的误解-不仅spark是内存计算,hadoop也是内存计算_光环大数据培训】到朋友圈,您即可以免费下载此资源!
微信扫一扫分享到朋友圈
二维码
操作提示:任选上面一个二维码,打开微信,点击“发现”使用“扫一扫”,即可将选择的网页分享到朋友圈
您可能感兴趣的------------------------------------------------------------------------------------------------------



关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.