电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本
换一换
首页 金锄头文库 > 资源分类 > DOCX文档下载
分享到微信 分享到微博 分享到QQ空间

Hadoop化繁为简 探索Mapreduce简要原理与实践_光环大数据培训

  • 资源ID:49596456       资源大小:42.90KB        全文页数:5页
  • 资源格式: DOCX        下载积分:0金贝
快捷下载 游客一键下载
账号登录下载
微信登录下载
三方登录下载: 微信开放平台登录   支付宝登录   QQ登录  
二维码
微信扫一扫登录
下载资源需要0金贝
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
如填写123,账号就是123,密码也是123。
验证码:   换一换

 
账号:
密码:
验证码:   换一换
  忘记密码?
    
1、金锄头文库是“C2C”交易模式,即卖家上传的文档直接由买家下载,本站只是中间服务平台,本站所有文档下载所得的收益全部归上传人(卖家)所有,作为网络服务商,若您的权利被侵害请及时联系右侧客服;
2、如你看到网页展示的文档有jinchutou.com水印,是因预览和防盗链等技术需要对部份页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有jinchutou.com水印标识,下载后原文更清晰;
3、所有的PPT和DOC文档都被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;下载前须认真查看,确认无误后再购买;
4、文档大部份都是可以预览的,金锄头文库作为内容存储提供商,无法对各卖家所售文档的真实性、完整性、准确性以及专业性等问题提供审核和保证,请慎重购买;
5、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据;
6、如果您还有什么不清楚的或需要我们协助,可以点击右侧栏的客服。
下载须知 | 常见问题汇总

Hadoop化繁为简 探索Mapreduce简要原理与实践_光环大数据培训

光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/hadoop.aura.cn 光环大数据光环大数据 http:/hadoop.aura.cnHadoopHadoop 化繁为简化繁为简 探索探索 MapreduceMapreduce 简要原理与实践简要原理与实践_ _光环大数据培训光环大数据培训目录-探索 mapreduce1、Mapreduce 的模型简介与特性?Yarn 的作用?2、mapreduce 的工作原理是怎样的?3、配置 Yarn 与 Mapreduce、演示 Mapreduce 例子程序4、javaApi 开发 Mapreduce 程序发散思考-入门 mapreduce思考题:假设有一个长度为 1000 万的 int 数组,求数组数据长度。答:如果是应试考试,你说觉得太简单了吧,一个 for 循环就搞定。可是,它 是一个面试,你如何通过解决这一个问题就脱颖而出呢?凡是,大数据量计算 一定要向多线程方向去靠。思考题:设计一个解决方案,把分布在四台机器上的数据报表统计出来。数据向计算靠近:把数据网络传输全部汇总在一起,然后用应用程序计算。光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/hadoop.aura.cn 光环大数据光环大数据 http:/hadoop.aura.cn计算向数据靠近:把应用程序放在存储数据的机器节点上,然后把用网络传输 计算结果汇总。mapreduce 简介mapreduce 就是将存储在分布式文件系统 hdfs 的一个大规模数据集,会被切分 许多个独立的小数据块,这些小数据块可以被多个 Map 任务并行处理。mapreduce 特性:分布式存储、工作调度、负载均衡、容错处理、网络通信。mapreduce 设计理念:计算向数据靠拢、“分而治之”。Yarn 被称为调度引擎,那怎么个调度法?答:假设你已经了解 Hdfs 文件系统,当客户端提交一个计算任务给 hadoop 集 群,Master(NameNode)会先拆分计算任务,那么怎么把任务分配给空闲机器呢? 那怎么识别空闲机器呢?这些任务就交给 Yarn 这个调度引擎处理。如果你对 Hadoop 的环境部署、分布式文件系统还为入门,可参照下述文章:mapreduce 工作流程举例:计算文件中单词出现的次数,我们可以用抽象的思维假设它是一个超级 超级大的文件。注:我的机器的物理架构是一个 Master、三个 Slave,如上图所示。此处暂且 不讨论 Block 与 InputSplit 的关系。光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/hadoop.aura.cn 光环大数据光环大数据 http:/hadoop.aura.cnMaster 负责协调调度作业,Slave 负责执行 Map、Reduce 任务。在分布式文件系统下存在/input/words.txt 大文件,Master 将大文件按行 分成 5 个分片,并且把任务分配给 Slave 分配给空闲机器。把任务分配给靠近 数据节点(在文件系统中,文件可能只在 Slave1、Slave2 这两台机器上,所以 把拆分任务尽量分配给存储文件的机器上)。执行 Map 任务:把每个分片上的任务,按行拆分单词,并且把单词作为 key、出现次数作为 value。并且把中件结果,也就是 shuffle 的结果存 储在本地缓冲区中,当缓存满了,清空缓存,把缓存数据写入到本地文件系统 中,被称为“溢写”。当一个 Map 任务完成以后,它会马上通知 Master 机器, 需要 Master 安排机器来领取数据执行 Reduce 任务。在 shuffle 过程中,可能有一个疑问,是怎样把相同 key 值的 value 放在 一块去的呢?在数据结构中,有一个 hash 查找的概念,在这里就是采用 hashMap 函数。执行 Reduce 任务:在执行 Reduce 任务之前,会把分布在不同机器上的同 一个结果集通过 shuffle 过程归并在一起。例如,假设上面的 input 是一个超 级大的文件,每一行被分布在不同机器上,那么 java 这个 key 值可能在 Slave1、Slave2 当中都有,那么就需要先把 Slave1、Slave2 的 java 派发在同 一台机器上执行 Reduce 任务。最后,Reduce 任务就是把 List遍历,按照 key 把 value 相加。建议:理论先知道轮廓,马上进行实践,最少总结再研究细节。配置 yarn 与执行 mapreduce注:假设已经参考上述文章,配置好 hadoop 环境、hdfs。1、配置计算引擎 mapreduce 和调度引擎 yarn。2、Master(nameNode)的 mapred-site.xml光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/hadoop.aura.cn 光环大数据光环大数据 http:/hadoop.aura.cnmapreduce.framework.name yarn3、Master(namenode)和 Slave(datanode)的 yarn-site.xmlyarn.resourcemanager.hostname master yarn.nodemanager.aux-services mapreduce_shuffle yarn.nodemanager.auxservices.mapreduce.shuffle.class org.apache.hadoop.mapred.ShuffleHandler4、start-yarn.sh 启动集群,如果没有配置环境变量,需要在/hadoop/sbin/ 目录下执行。5、利用 jps 查看集群启动情况或者利用网页 http:/master:8088/观察。6、查找 mapreduce 示例程序:/ find /usr/local/hadoop -name *example*.jar 查找示例文件7、执行 hadoop jar *.jar wordcount /input /output28、可利用网页(http:/master:8088/cluster)查看 job 执行情况光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/hadoop.aura.cn 光环大数据光环大数据 http:/hadoop.aura.cn为什么大家选择为什么大家选择光环大数据光环大数据!大数据培训、人工智能培训、Python 培训、大数据培训机构、大数据培训班、数据分析培训、大数据可视化培训,就选光环大数据!光环大数据,聘请专业的大数据领域知名讲师,确保教学的整体质量与教学水准。讲师团及时掌握时代潮流技术,将前沿技能融入教学中,确保学生所学知识顺应时代所需。通过深入浅出、通俗易懂的教学方式,指导学生更快的掌握技能知识,成就上万个高薪就业学子。【报名方式、详情咨询报名方式、详情咨询】光环大数据官方网站报名:光环大数据官方网站报名:http:/hadoop.aura.cn/http:/hadoop.aura.cn/手机报名链接:手机报名链接:http:/http:/ hadoop.aura.cnhadoop.aura.cn /mobile/mobile/

注意事项

本文(Hadoop化繁为简 探索Mapreduce简要原理与实践_光环大数据培训)为本站会员(gua****an)主动上传,金锄头文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即阅读金锄头文库的“版权提示”【网址:https://www.jinchutou.com/h-59.html】,按提示上传提交保证函及证明材料,经审查核实后我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。

分享当前资源【Hadoop化繁为简 探索Mapreduce简要原理与实践_光环大数据培训】到朋友圈,您即可以免费下载此资源!
微信扫一扫分享到朋友圈
二维码
操作提示:任选上面一个二维码,打开微信,点击“发现”使用“扫一扫”,即可将选择的网页分享到朋友圈
您可能感兴趣的------------------------------------------------------------------------------------------------------



关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.