电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

hadoop概要

45页
  • 卖家[上传人]:今***
  • 文档编号:107186604
  • 上传时间:2019-10-18
  • 文档格式:PPT
  • 文档大小:5.32MB
  • / 45 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 1、dongxicheng.org,Hadoop概述,目 录,*,21世纪是数据信息大发展的时代,移动互联、社交网络、电子商务等极大拓展了互联网的边界和应用范围,各种数据正在迅速膨胀并变大。 互联网(社交、搜索、电商)、移动互联网(微博)、物联网(传感器,智慧地球)、车联网、GPS、医学影像、安全监控、金融(银行、股市、保险)、电信(通话、短信)都在疯狂产生着数据。,“大数据”的诞生: 半个世纪以来,随着计算机技术全面融入社会生活,信息爆炸已经积累到了一个开始引发变革的程度。它不仅使世界充斥着比以往更多的信息,而且其增长速度也在加快。信息爆炸的学科如天文学和基因学,创造出了“大数据”这个概念。如今,这个概念几乎应用到了所有人类智力与发展的领域中。,大数据时代的背景,*,想驾驭这庞大的数据,我们必须了解大数据的特征。,地球上至今总共的数据量: 在2006 年,个人用户才刚刚迈进TB时代,全球一共新产生了约180EB的数据; 在2011 年,这个数字达到了1.8ZB。 而有市场研究机构预测: 到2020 年,整个世界的数据总量将会增长44 倍,达到35.2ZB(1ZB=10 亿TB)!,1PB

      2、 = 250字节 1EB = 260字节 1ZB = 270字节,数据大爆炸,*,大数据的4V特征,体量Volume,多样性Variety,价值密度Value,速度Velocity,非结构化数据的超大规模和增长 总数据量的8090% 比结构化数据增长快10倍到50倍 是传统数据仓库的10倍到50倍,大数据的异构和多样性 很多不同形式(文本、图像、视频、机器数据) 无模式或者模式不明显 不连贯的语法或句义,大量的不相关信息 对未来趋势与模式的可预测分析 深度复杂分析(机器学习、人工智能Vs传统商务智能(咨询、报告等),实时分析而非批量式分析 数据输入、处理与丢弃 立竿见影而非事后见效,*,大数据不仅仅是“大”,多大? 至少PB 级,比大更重要的是数据的复杂性,有时甚至大数据中的小数据如一条微博就具有颠覆性的价值,*,大数据的应用,通过用户行为分析实现精准营销是大数据的典型应用,但是大数据在各行各业特别是公共服务领域具有广阔的应用前景,消费行业,金融服务,食品安全,医疗卫生,军事,交通环保,电子商务,气象,*,管理大数据“易”理解大数据“难”,虽然大数据是一个重大问题,真正的问题是让大数据

      3、更有意义 目前大数据管理多从架构和并行等方面考虑,解决高并发数据存取的性能要求及数据存储的横向扩展,但对非结构化数据的内容理解仍缺乏实质性的突破和进展,这是实现大数据资源化、知识化、普适化的核心 非结构化海量信息的智能化处理:自然语言理解、多媒体内容理解、机器学习等,具体案例,难点分析,*,大数据处理两套解决方案,传统的数据库在处理大数据时会显得性能十分低,所以需要分而治之。这个就是hadoop的精髓,但是小的数据量存在分布式的环境里,处理的的性能反而会降低。hadoop是面向至少TB,PB级的数据量,才能最大的发挥它的优势。 1TB = 1024G 1PB = 1024T 1EB = 1024P 因此,对于大数据处理两套解决方案 1、移动数据,把数据分发到多个计算节点进行计算;第一种是MPI,常用于科学计算 。 2、移动计算,将计算能力移到数据存储位置;Hadoop是第二种。,目 录,Hadoop简介,Hadoop是一个分布式系统基础架构,由Apache基金会开发。 2006年2月从Nutch项目中分离出来,正式成为Apache顶级项目之一。 作者:Doug Cutting 官方网站

      4、http:/hadoop.apache.org 官方logo 用Java编写 运行平台: Linux, Mac OS/X, Solaris, Windows 普通的X86硬件平台,谁在用Hadoop,目 录,dongxicheng.org,Hadoop 1.0 生态系统构成,dongxicheng.org,Hadoop1.x内核基本构成,分布式存储系统HDFS 高可靠性 高扩展性 高吞吐率 分布式计算框架MapReduce 易于编程 高容错性 高扩展性,dongxicheng.org,HDFS是什么,源自于Google的GFS论文 发表于2003年10月 HDFS是GFS克隆版 Hadoop Distributed File System 易于扩展的分布式文件系统 运行在大量普通廉价机器上,提供容错机制 为大量用户提供性能不错的文件存取服务,dongxicheng.org,HDFS优点,高容错性 数据自动保存多个副本 副本丢失后,自动恢复 适合批处理 移动计算而非数据 数据位置暴露给计算框架 适合大数据处理 GB、TB、甚至PB级数据 百万规模以上的文件数量 10K+节点规模,流式文件

      5、访问 一次性写入,多次读取 保证数据一致性 可构建在廉价机器上 通过多副本提高可靠性 提供了容错和恢复机制,dongxicheng.org,HDFS设计思想,Server (10 TB),Server (10 TB),Server (10 TB),block1,block2,block3,block4,block1,block1,block2,block2,block3,block3,block4,block4,Server (10 TB),64MB,64MB,64MB,64MB,file3 50 GB,block1,block2,block3,dongxicheng.org,HDFS架构,Standby Namenode,dongxicheng.org,HDFS块副本放置策略,RackA,RackB,问题: 一个文件划分成多个block,每个block存多份,如何为每个block选择节点存储这几份数据? Block副本放置策略: 副本1: 同Client的节点上 副本2: 不同机架中的节点上 副本3: 与第二个副本同一机架的另一个节点上 其他副本:随机挑选,dongxicheng.o

      6、rg,HDFS可靠性,文件损坏,网络或者 机器失效,NameNode挂掉,常见的三种错误情况,文件完整性 CRC32校验 用其他副本取代损坏文件 Heartbeat Datanode 定期向Namenode发heartbeat 元数据信息 FSImage(文件系统镜像)、Editlog(操作日志) 多份存储 主备NameNode实时切换,文件损坏,网络或者 机器失效,NameNode挂掉,常见的三种错误情况,dongxicheng.org,HDFS缺点,低延迟数据访问 比如毫秒级 低延迟与高吞吐率 小文件存取 占用NameNode大量内存 寻道时间超过读取时间 并发写入、文件随机修改 一个文件只能有一个写者 仅支持append,dongxicheng.org,MapReduce是什么,源自于Google的MapReduce论文 发表于2004年12月 Hadoop MapReduce是Google MapReduce克隆版 MapReduce特点 易于编程 良好的扩展性 高容错性 适合PB级以上海量数据的离线处理,dongxicheng.org,MapReduce 1.0架构,dong

      7、xicheng.org,初识MapReduce,wordcount程序能做什么?,dongxicheng.org,MapReduce不擅长什么,实时计算 像MySQL一样,在毫秒级或者秒级内返回结果 流式计算 MapReduce的输入数据集是静态的,不能动态变化 MapReduce自身的设计特点决定了数据源必须是静态的 DAG计算 多个应用程序存在依赖关系,后一个应用程序的输入为前一个的输出,目 录,dongxicheng.org,Hadoop 2.0 生态系统构成(原生态),Hadoop 2.0 生态系统构成,Hadoop 2.0 HDFS,dongxicheng.org,YARN是什么,资源管理和调度系统 管理集群中的资源(类似于操作系统) 将资源分配给上层的应用程序 好处 降低运维成本 有利于数据共享 提高资源利用率,dongxicheng.org,YARN基本架构,dongxicheng.org,YARN工作原理,Node Manager,Node Manager,Node Manager,Resource Manager,Application Master,Client,C

      8、lient,Client,Task,Container,Container,Task,Task,Container,dongxicheng.org,以YARN为核心构建服务体系,dongxicheng.org,MapReduce 2.0架构,dongxicheng.org,MapReduce 实现机制推测执行,作业完成时间取决于最慢的任务完成时间 一个作业由若干个Map任务和Reduce任务构成 因硬件老化、软件Bug等,某些任务可能运行非常慢 推测执行机制 发现拖后腿的任务,比如某个任务运行速度远慢于任务平均速度 为拖后腿任务启动一个备份任务,同时运行 谁先运行完,则采用谁的结果 不建议启用推测执行机制的情况 任务间存在严重的负载倾斜 特殊任务,比如任务向数据库中写数据,目 录,dongxicheng.org,dongxicheng.org,Hadoop生态系统介绍,Hive:披着SQL外衣的MapReduce。Hive是为方便用户使用MapReduce而在外面包了一层SQL,由于Hive采用了SQL,它的问题域比MapReduce更窄,因为很多问题,SQL表达不出来,比如一些数据挖

      9、掘算法,推荐算法、图像识别算法等,这些仍只能通过编写MapReduce完成。 Pig:披着脚本语言外衣的MapReduce,为了突破Hive SQL表达能力的限制,采用了一种更具有表达能力的脚本语言PIG。由于pig语言强大的表达能力,Twitter甚至基于Pig实现了一个大规模机器学习平台。 Stinger Initiative(Tez optimized Hive):Hortonworks开源了一个DAG计算框架Tez,该框架可以像MapReduce一样,可以用来设计DAG应用程序,但需要注意的是,Tez只能运行在YARN上。Tez的一个重要应用是优化Hive和PIG这种典型的DAG应用场景,它通过减少数据读写IO,优化DAG流程使得Hive速度提供了很多倍。,Hadoop生态系统介绍,Spark:为了提高MapReduce的计算效率,spark可看做基于内存的MapReduce实现,Spark基础上包了一层SQL,产生了一个新的类似Hive的系统Shark,但目前Spark和Shark尚属于实验室产品。 Storm/S4:Hadoop在实时计算/流式计算领域(MapReduce假设输入数据是静态的,处理过程中不能被修改,而流式计算则假设数据源是流动的,数据会源源不断流入系统)一直比较落后;还好,Twitter开源的Storm和yahoo!开源的S4弥补了这一缺点,Storm在淘宝,mediaV等公司得到广泛的应用。 Cloudera Impala/Apache drill:Google Dremel的开源实现,也许是因为交互式计算需求太过强烈,发展迅猛,impala仅用了一年左右便推出1.0GA版本。这种系统适用于交互式处理场景,最后产生的数据量一定要少。Impala尽管发布了1.0版本,但在容错性、扩展性、支持自定义函数等方面,有很长的路要走。,总结,3,目 录,dongxicheng.org,总 结,Hadoop目前是使用最多的大数据处理方案,较之前的用于离线处理的Mapreduce框架,现在的storm框架已经解决了实时

      《hadoop概要》由会员今***分享,可在线阅读,更多相关《hadoop概要》请在金锄头文库上搜索。

      点击阅读更多内容
    最新标签
    信息化课堂中的合作学习结业作业七年级语文 发车时刻表 长途客运 入党志愿书填写模板精品 庆祝建党101周年多体裁诗歌朗诵素材汇编10篇唯一微庆祝 智能家居系统本科论文 心得感悟 雁楠中学 20230513224122 2022 公安主题党日 部编版四年级第三单元综合性学习课件 机关事务中心2022年全面依法治区工作总结及来年工作安排 入党积极分子自我推荐 世界水日ppt 关于构建更高水平的全民健身公共服务体系的意见 空气单元分析 哈里德课件 2022年乡村振兴驻村工作计划 空气教材分析 五年级下册科学教材分析 退役军人事务局季度工作总结 集装箱房合同 2021年财务报表 2022年继续教育公需课 2022年公需课 2022年日历每月一张 名词性从句在写作中的应用 局域网技术与局域网组建 施工网格 薪资体系 运维实施方案 硫酸安全技术 柔韧训练 既有居住建筑节能改造技术规程 建筑工地疫情防控 大型工程技术风险 磷酸二氢钾 2022年小学三年级语文下册教学总结例文 少儿美术-小花 2022年环保倡议书模板六篇 2022年监理辞职报告精选 2022年畅想未来记叙文精品 企业信息化建设与管理课程实验指导书范本 草房子读后感-第1篇 小数乘整数教学PPT课件人教版五年级数学上册 2022年教师个人工作计划范本-工作计划 国学小名士经典诵读电视大赛观后感诵读经典传承美德 医疗质量管理制度 2 2022年小学体育教师学期工作总结
    关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
    手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
    ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.