电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

大数据之Hadoop入门 hadoop零基础教程_光环大数据培训

4页
  • 卖家[上传人]:gua****an
  • 文档编号:50657320
  • 上传时间:2018-08-09
  • 文档格式:DOCX
  • 文档大小:41.75KB
  • / 4 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 1、 光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/ 光环大数据光环大数据 http:/大数据之大数据之 HadoopHadoop 入门入门 hadoophadoop 零基础教程零基础教程_ _光环大数据培训光环大数据培训hadoophadoop 介绍介绍 ( (直奔主题直奔主题) )开源的数据分析平台,解决了大数据(大到一台计算机无法进行存储,一台 计算机无法在要求的时间内进行处理)的可靠存储和处理。适合处理非结构化数 据,包括 HDFS,MapReduce 基本组件与扩展组件 Pig、Hive、Hbase、Sqoop、Flume、ZooKeeper 和 Spark 等。HadoopHadoop 基本组件基本组件HDFS 组件 : 提供了一种跨服务器的弹性数据存储系统,在由普通 PC 组成 的集群上提供高可靠的文件存储,通过将块保存多个副本的办法解决服务器或 硬盘坏掉的问题。MapReduce 组件 : 通过简单的 Mapper 和 Reducer 的抽象提供一个编程模 型,可以在一个由几十台上百台的 PC 组成的不可靠集群上并发地,分布式地处 理大量的数据集,而

      2、把并发、分布式(如机器间通信)和故障恢复等计算细节隐 藏起来。而 Mapper 和 Reducer 的抽象,又是各种各样的复杂数据处理都可以分 解为的基本元素。这样,复杂的数据处理可以分解为由多个 Job(包含一个 Mapper 和一个 Reducer)组成的有向无环图(DAG),然后每个 Mapper 和 Reducer 放到 Hadoop 集群上执行,就可以得出结果。MapReduceMapReduce 工作原理图如下:工作原理图如下:HadoopHadoop 扩展组件扩展组件这些技术主要包括了 Sqoop、Flume、Hive、Pig、ZooKeeper、Spark 等。Pig 组件 : Apache Pig 也是 Hadoop 框架中的一部分,Pig 提供类 SQL 语 言(Pig Latin)通过 MapReduce 来处理大规模半结构化数据。而 Pig Latin 是更 高级的过程语言,通过将 MapReduce 中的设计模式抽象为操作,如 Filter,GroupBy,Join,OrderBy。Hive 组件 : 是一个基于 hadoop 的开源数据仓库工具,用于存储和处

      3、理 海量结构化数据。它把海量数据存储于 hadoop 文件系统,而不是数据库,但 提供了一套类数据库的数据存储和处理机制,并采用 HQL (类 SQL )语言对这 些数据进行自动化管理和处理。我们可以把 Hive 中海量结构化数据看成一个 个的表,而实际上这些数据是分布式存储在 HDFS 中的。 Hive 经过对语句进光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/ 光环大数据光环大数据 http:/行解析和转换,最终生成一系列基于 hadoop 的 map/reduce 任务,通过执行 这些任务完成数据处理。HbaseHbase 组件组件 :HBase 是一个构建在 HDFS 上的分布式列存储系统HBase 是基于 Google BigTable 模型开发的,典型的 key/value 系统;HBase 是 Apache Hadoop 生态系统中的重要一员,主要用于海量结构化数 据存储;从逻辑上讲,HBase 将数据按照表、行和列进行存储。与 hadoop 一样,Hbase 目标主要依靠横向扩展,通过不断增加廉价的商用 服务器,来增加计算和存储能力。与 HDFS

      4、 关系图如下:Sqoop 组件 : Sqoop 工具是 hadoop 环境下连接关系数据库(如 :MySQL ,Oracle) ,和 hadoop 存储系统的桥梁,支持多种关系数据源和 hive,hdfs,hbase 的相互导入。一般情况下,关系数据表存在于线上环境的备 份环境,需要每天进行数据导入,根据每天的数据量而言,sqoop 可以全表导 入,对于每天产生的数据量不是很大的情形可以全表导入,但是 sqoop 也提供 了增量数据导入的机制。Flume 组件 : Flume 是 Cloudera 提供的日志收集系统,Flume 支持在日 志系统中定制各类数据发送方,用于从网站服务器上收集数据。同时 Flume 提 供对数据进行简单处理,并写到 HDFS,HBase 等集中存储器中。Flume 是一个 分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。应用场景比如我们在做一个电子商务网站,然后我们想从消费用户中访问 点特定的节点区域来分析消费者的行为或者购买意图. 这样我们就可以更加快 速的将他想要的推送到界面上,实现这一点,我们需要将获取到的她访问的页 面以及点击的产品数据等日

      5、志数据信息收集并移交给 Hadoop 平台上去分析.而 Flume 正是帮我们做到这一点。现在流行的内容推送,比如广告定点投放以及 新闻私人定制也是基于次,不过不一定是使用 FLume,毕竟优秀的产品很多,比 如 facebook 的 Scribe,还有 Apache 新出的另一个明星项目 chukwa,还有淘宝 Time Tunnel。结构如下图所示:光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/ 光环大数据光环大数据 http:/ZooKeeper 组件 : 一种集中服务,其用于维护配置信息,命名,提供分 布式同步,以及提供分组服务。ZooKeeper 是一个典型的分布式数据一致性的解决方案,分布式程序可以 基于它实现诸如数据发布/订阅、负载均衡、命名服务、分布式协调通知、集群 管理、master 选举、分布式锁、分布式队列等功能。ZooKeeper 可以保证如下 分布式一致性特性。顺序一致性:从同一个客户端发起的事务请求,最终将严格按照其发起顺 序被应用到 ZooKeeper 中。原子性:更新操作要么成功要么失败,没有中间状态单一视图:不管客户端连接哪一个

      6、服务器,客户端看到服务端的数据模型 都是一致的(the same view of service)。可靠性:一旦一个更新成功,那么那就会被持久化,直到客户端用新的更 新覆盖这个更新。实时性:Zookeeper 仅保证在一定时间内,客户端最终一定能够从服务端 读到最新的数据状态。Spark 组件: Spark 是一个 Apache 项目,它被标榜为“快如闪电的集群计 算”。它拥有一个繁荣的开源社区,并且是目前最活跃的 Apache 项目之一。Spark 提供了一个更快、更通用的数据处理平台。和 Hadoop 的 MapReduce 相比,Spark 可以让你的程序在内存中运行时速度提升 100 倍,或者在磁盘上 运行时速度提升 10 倍。去年,在 100 TB Daytona GraySort 比赛中,Spark 战 胜了 Hadoop,它只使用了十分之一的机器,但运行速度提升了 3 倍。Spark 也 已经成为 针对 PB 级别数据排序的最快的开源引擎。 注: MapReduce 适合历 史数据分析计算,Spark 适合实时数据分析计算。Cloudera: 100%开源的商业化 Apa

      7、che Hadoop 发行版本(CDH, Cloudera s Distribution including Apache Hadoop)和相关的组件,其中包括了各类安 全高效的企业级数据管理工具,如 Hive, HBase,Oozie, Zookeeper 等。Hortonworks: Hortonworks 是一家基于 Hadoop 提供大数据服务的公司, 致力于开发 Hadoop 框架内软件,提升大数据的处理能力。开发了很多增强特性 并提交至核心主干,这使得 Hadoop 能够在包括 Windows Server 和 Azure 在内 平台上本地运行。MapR: 获取更好的性能和易用性而支持本地 Unix 文件系统而不是 HDFS。 提供诸如快照、镜像或有状态的故障恢复等高可用性特性。领导着 Apache 光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/ 光环大数据光环大数据 http:/Drill 项目,是 Google 的 Dremel 的开源实现,目的是在 Hadoop 数据上执行类 似 SQL 的查询以提供实时处理。为什么大家选择为什么大家选择光环大数据光环大数据!大数据培训、人工智能培训、Python 培训、大数据培训机构、大数据培训班、数据分析培训、大数据可视化培训,就选光环大数据!光环大数据,聘请专业的大数据领域知名讲师,确保教学的整体质量与教学水准。讲师团及时掌握时代潮流技术,将前沿技能融入教学中,确保学生所学知识顺应时代所需。通过深入浅出、通俗易懂的教学方式,指导学生更快的掌握技能知识,成就上万个高薪就业学子。【报名方式、详情咨询报名方式、详情咨询】光环大数据官方网站报名:光环大数据官方网站报名:http:/ /mobile/mobile/

      《大数据之Hadoop入门 hadoop零基础教程_光环大数据培训》由会员gua****an分享,可在线阅读,更多相关《大数据之Hadoop入门 hadoop零基础教程_光环大数据培训》请在金锄头文库上搜索。

      点击阅读更多内容
    TA的资源
    点击查看更多
    最新标签
    监控施工 信息化课堂中的合作学习结业作业七年级语文 发车时刻表 长途客运 入党志愿书填写模板精品 庆祝建党101周年多体裁诗歌朗诵素材汇编10篇唯一微庆祝 智能家居系统本科论文 心得感悟 雁楠中学 20230513224122 2022 公安主题党日 部编版四年级第三单元综合性学习课件 机关事务中心2022年全面依法治区工作总结及来年工作安排 入党积极分子自我推荐 世界水日ppt 关于构建更高水平的全民健身公共服务体系的意见 空气单元分析 哈里德课件 2022年乡村振兴驻村工作计划 空气教材分析 五年级下册科学教材分析 退役军人事务局季度工作总结 集装箱房合同 2021年财务报表 2022年继续教育公需课 2022年公需课 2022年日历每月一张 名词性从句在写作中的应用 局域网技术与局域网组建 施工网格 薪资体系 运维实施方案 硫酸安全技术 柔韧训练 既有居住建筑节能改造技术规程 建筑工地疫情防控 大型工程技术风险 磷酸二氢钾 2022年小学三年级语文下册教学总结例文 少儿美术-小花 2022年环保倡议书模板六篇 2022年监理辞职报告精选 2022年畅想未来记叙文精品 企业信息化建设与管理课程实验指导书范本 草房子读后感-第1篇 小数乘整数教学PPT课件人教版五年级数学上册 2022年教师个人工作计划范本-工作计划 国学小名士经典诵读电视大赛观后感诵读经典传承美德 医疗质量管理制度 2
    关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
    手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
    ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.