离线计算系统-(MAPREDUCE详解)v
57页1、目录课程大纲(MAPREDUCE详解)31. MAPREDUCE入门41.1 为什么要MAPREDUCE41.2 MAPREDUCE程序运行演示41.3 MAPREDUCE 示例编写及编程规范41.3.1 编程规范41.3.2 wordcount示例编写51.4 MAPREDUCE程序运行模式及debug方法71.4.1 本地运行模式71.4.2 集群运行模式72. Mapreduce程序的核心运行机制82.1 概述82.2 mr程序运行流程82.2.1 流程示意图82.2.2 流程解析82.3 Maptask实例数的决定机制102.3.1 maptask数量的决定机制10切片机制:102.4 ReduceTask实例数的决定113. MAPREDUCE中的Combiner124. MAPREDUCE中的序列化124.1 概述124.2 Jdk序列化和MR序列化之间的比较124.3 自定义对象实现MR中的序列化接口135. Mapreduce中的排序初步165.1 需求:165.2 分析165.3 实现166. Mapreduce中的分区Partitioner206.1 需求:206.
2、2 分析206.3 实现207. mapreduce的shuffle机制227.1 概述:227.2 主要流程:227.3 详细流程227.4 详细流程示意图238. mapreduce数据压缩248.1 概述248.2 MR支持的压缩编码248.3 Reducer输出压缩248.4 Mapper输出压缩258.5 压缩文件的读取259. MapReduce与YARN279.1 YARN概述279.2 YARN的重要概念279.3 Yarn中运行运算程序的示例2710. MapReduce编程案例2810.1 reduce端join算法实现2810.2 map端join算法实现2910.3 web日志预处理32附:Mapreduce参数优化3611.1 资源相关参数3611.2 容错相关参数3711.3 本地运行mapreduce 作业3711.4 效率和稳定性相关参数37课程大纲(MAPREDUCE详解)MapReduce快速入门如何理解map、reduce计算模型Mapreudce程序运行演示Mapreduce编程规范及示例编写Mapreduce程序运行模式及debug方法MapR
3、educe高级特性Mapreduce程序的核心机制MapReduce的序列化框架MapReduce的排序实现MapReduce的分区机制及自定义Mapreduce的数据压缩Mapreduce与yarn的结合Mapreduce编程案例Mapreduce 参数优化目标:掌握mapreduce分布式运算框架的编程思想掌握mapreduce常用算法的编程套路掌握mapreduce分布式运算框架的运行机制,具备一定自定义开发的能力1. MAPREDUCE原理篇(1)Mapreduce是一个分布式运算程序的编程框架,是用户开发“基于hadoop的数据分析应用”的核心框架;Mapreduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个hadoop集群上;1.1 为什么要MAPREDUCE(1)海量数据在单机上处理因为硬件资源限制,无法胜任(2)而一旦将单机版程序扩展到集群来分布式运行,将极大增加程序的复杂度和开发难度(3)引入mapreduce框架后,开发人员可以将绝大部分工作集中在业务逻辑的开发上,而将分布式计算中的复杂性交由框架来处理设想一个海量
4、数据场景下的wordcount需求:单机版:内存受限,磁盘受限,运算能力受限分布式:1、 文件分布式存储(HDFS)2、 运算逻辑需要至少分成2个阶段(一个阶段独立并发,一个阶段汇聚)3、 运算程序如何分发4、 程序如何分配运算任务(切片)5、 两阶段的程序如何启动?如何协调?6、 整个程序运行过程中的监控?容错?重试?可见在程序由单机版扩成分布式时,会引入大量的复杂工作。为了提高开发效率,可以将分布式程序中的公共功能封装成框架,让开发人员可以将精力集中于业务逻辑。而mapreduce就是这样一个分布式程序的通用框架,其应对以上问题的整体结构如下:1、 MRAppMaster(mapreduce application master)2、 MapTask3、 ReduceTask1.2 MAPREDUCE框架结构及核心运行机制1.2.1 结构一个完整的mapreduce程序在分布式运行时有三类实例进程:1、MRAppMaster:负责整个程序的过程调度及状态协调2、mapTask:负责map阶段的整个数据处理流程3、ReduceTask:负责reduce阶段的整个数据处理流程1.2.2
《离线计算系统-(MAPREDUCE详解)v》由会员cl****1分享,可在线阅读,更多相关《离线计算系统-(MAPREDUCE详解)v》请在金锄头文库上搜索。
租地合同协议书范本
山西省线上线下商品消费融合发展项目投资计划书
典型示范作用和应用
“双减”政策下2021-2022学年第一学期XX小学考试管理自查报告
最新河北中考化学试题分析汇总优秀名师资料
化妆品品牌运营投资项目可行性分析报告
ZK2045直线振动筛说明书
2022年白酒业务员的销售工作计划
十堰化学原料药项目实施方案_模板参考
市征缴处上半年工作总结范文
送杜少府之任蜀川教案设计
优秀老师演讲稿锦集六篇
八年级生物下册 8.2用药与急救教案2 (新版)新人教版
销售职员在职工作总结
江西省师范大学附属中学2019高三语文上学期期末测试试题
立案庭书记员业务知识
2023下学期初中班主任工作总结模板(2篇)
东北师范大学21春《学前儿童家庭教育》离线作业1辅导答案25
六盘水关于成立卫星通讯终端公司可行性报告
财务会计基础知识练习题
2023-01-17 6页
2023-02-01 2页
2023-11-06 2页
2022-08-06 16页
2023-02-27 8页
2023-07-22 5页
2023-12-29 7页
2023-02-07 4页
2023-09-11 4页
2023-07-06 2页