电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

Hadoop化繁为简 探索Mapreduce简要原理与实践_光环大数据培训

5页
  • 卖家[上传人]:gua****an
  • 文档编号:49596456
  • 上传时间:2018-07-31
  • 文档格式:DOCX
  • 文档大小:42.90KB
  • / 5 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 1、 光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/ 光环大数据光环大数据 http:/HadoopHadoop 化繁为简化繁为简 探索探索 MapreduceMapreduce 简要原理与实践简要原理与实践_ _光环大数据培训光环大数据培训目录-探索 mapreduce1、Mapreduce 的模型简介与特性?Yarn 的作用?2、mapreduce 的工作原理是怎样的?3、配置 Yarn 与 Mapreduce、演示 Mapreduce 例子程序4、javaApi 开发 Mapreduce 程序发散思考-入门 mapreduce思考题:假设有一个长度为 1000 万的 int 数组,求数组数据长度。答:如果是应试考试,你说觉得太简单了吧,一个 for 循环就搞定。可是,它 是一个面试,你如何通过解决这一个问题就脱颖而出呢?凡是,大数据量计算 一定要向多线程方向去靠。思考题:设计一个解决方案,把分布在四台机器上的数据报表统计出来。数据向计算靠近:把数据网络传输全部汇总在一起,然后用应用程序计算。光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/

      2、 光环大数据光环大数据 http:/计算向数据靠近:把应用程序放在存储数据的机器节点上,然后把用网络传输 计算结果汇总。mapreduce 简介mapreduce 就是将存储在分布式文件系统 hdfs 的一个大规模数据集,会被切分 许多个独立的小数据块,这些小数据块可以被多个 Map 任务并行处理。mapreduce 特性:分布式存储、工作调度、负载均衡、容错处理、网络通信。mapreduce 设计理念:计算向数据靠拢、“分而治之”。Yarn 被称为调度引擎,那怎么个调度法?答:假设你已经了解 Hdfs 文件系统,当客户端提交一个计算任务给 hadoop 集 群,Master(NameNode)会先拆分计算任务,那么怎么把任务分配给空闲机器呢? 那怎么识别空闲机器呢?这些任务就交给 Yarn 这个调度引擎处理。如果你对 Hadoop 的环境部署、分布式文件系统还为入门,可参照下述文章:mapreduce 工作流程举例:计算文件中单词出现的次数,我们可以用抽象的思维假设它是一个超级 超级大的文件。注:我的机器的物理架构是一个 Master、三个 Slave,如上图所示。此处暂且 不讨论

      3、Block 与 InputSplit 的关系。光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/ 光环大数据光环大数据 http:/Master 负责协调调度作业,Slave 负责执行 Map、Reduce 任务。在分布式文件系统下存在/input/words.txt 大文件,Master 将大文件按行 分成 5 个分片,并且把任务分配给 Slave 分配给空闲机器。把任务分配给靠近 数据节点(在文件系统中,文件可能只在 Slave1、Slave2 这两台机器上,所以 把拆分任务尽量分配给存储文件的机器上)。执行 Map 任务:把每个分片上的任务,按行拆分单词,并且把单词作为 key、出现次数作为 value。并且把中件结果,也就是 shuffle 的结果存 储在本地缓冲区中,当缓存满了,清空缓存,把缓存数据写入到本地文件系统 中,被称为“溢写”。当一个 Map 任务完成以后,它会马上通知 Master 机器, 需要 Master 安排机器来领取数据执行 Reduce 任务。在 shuffle 过程中,可能有一个疑问,是怎样把相同 key 值的 value 放在 一

      4、块去的呢?在数据结构中,有一个 hash 查找的概念,在这里就是采用 hashMap 函数。执行 Reduce 任务:在执行 Reduce 任务之前,会把分布在不同机器上的同 一个结果集通过 shuffle 过程归并在一起。例如,假设上面的 input 是一个超 级大的文件,每一行被分布在不同机器上,那么 java 这个 key 值可能在 Slave1、Slave2 当中都有,那么就需要先把 Slave1、Slave2 的 java 派发在同 一台机器上执行 Reduce 任务。最后,Reduce 任务就是把 List遍历,按照 key 把 value 相加。建议:理论先知道轮廓,马上进行实践,最少总结再研究细节。配置 yarn 与执行 mapreduce注:假设已经参考上述文章,配置好 hadoop 环境、hdfs。1、配置计算引擎 mapreduce 和调度引擎 yarn。2、Master(nameNode)的 mapred-site.xml光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/ 光环大数据光环大数据 http:/mapreduce.framewor

      5、k.name yarn3、Master(namenode)和 Slave(datanode)的 yarn-site.xmlyarn.resourcemanager.hostname master yarn.nodemanager.aux-services mapreduce_shuffle yarn.nodemanager.auxservices.mapreduce.shuffle.class org.apache.hadoop.mapred.ShuffleHandler4、start-yarn.sh 启动集群,如果没有配置环境变量,需要在/hadoop/sbin/ 目录下执行。5、利用 jps 查看集群启动情况或者利用网页 http:/master:8088/观察。6、查找 mapreduce 示例程序:/ find /usr/local/hadoop -name *example*.jar 查找示例文件7、执行 hadoop jar *.jar wordcount /input /output28、可利用网页(http:/master:8088/cluster)查看 job 执行情况光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/ 光环大数据光环大数据 http:/为什么大家选择为什么大家选择光环大数据光环大数据!大数据培训、人工智能培训、Python 培训、大数据培训机构、大数据培训班、数据分析培训、大数据可视化培训,就选光环大数据!光环大数据,聘请专业的大数据领域知名讲师,确保教学的整体质量与教学水准。讲师团及时掌握时代潮流技术,将前沿技能融入教学中,确保学生所学知识顺应时代所需。通过深入浅出、通俗易懂的教学方式,指导学生更快的掌握技能知识,成就上万个高薪就业学子。【报名方式、详情咨询报名方式、详情咨询】光环大数据官方网站报名:光环大数据官方网站报名:http:/ /mobile/mobile/

      《Hadoop化繁为简 探索Mapreduce简要原理与实践_光环大数据培训》由会员gua****an分享,可在线阅读,更多相关《Hadoop化繁为简 探索Mapreduce简要原理与实践_光环大数据培训》请在金锄头文库上搜索。

      点击阅读更多内容
    TA的资源
    点击查看更多
    最新标签
    监控施工 信息化课堂中的合作学习结业作业七年级语文 发车时刻表 长途客运 入党志愿书填写模板精品 庆祝建党101周年多体裁诗歌朗诵素材汇编10篇唯一微庆祝 智能家居系统本科论文 心得感悟 雁楠中学 20230513224122 2022 公安主题党日 部编版四年级第三单元综合性学习课件 机关事务中心2022年全面依法治区工作总结及来年工作安排 入党积极分子自我推荐 世界水日ppt 关于构建更高水平的全民健身公共服务体系的意见 空气单元分析 哈里德课件 2022年乡村振兴驻村工作计划 空气教材分析 五年级下册科学教材分析 退役军人事务局季度工作总结 集装箱房合同 2021年财务报表 2022年继续教育公需课 2022年公需课 2022年日历每月一张 名词性从句在写作中的应用 局域网技术与局域网组建 施工网格 薪资体系 运维实施方案 硫酸安全技术 柔韧训练 既有居住建筑节能改造技术规程 建筑工地疫情防控 大型工程技术风险 磷酸二氢钾 2022年小学三年级语文下册教学总结例文 少儿美术-小花 2022年环保倡议书模板六篇 2022年监理辞职报告精选 2022年畅想未来记叙文精品 企业信息化建设与管理课程实验指导书范本 草房子读后感-第1篇 小数乘整数教学PPT课件人教版五年级数学上册 2022年教师个人工作计划范本-工作计划 国学小名士经典诵读电视大赛观后感诵读经典传承美德 医疗质量管理制度 2
    关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
    手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
    ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.