电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

0基础搭建Hadoop大数据处理经验分享_光环大数据培训

13页
  • 卖家[上传人]:gua****an
  • 文档编号:49561017
  • 上传时间:2018-07-30
  • 文档格式:DOCX
  • 文档大小:52.83KB
  • / 13 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 1、 光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/ 光环大数据光环大数据 http:/0 0 基础搭建基础搭建 HadoopHadoop 大数据处理经验分享大数据处理经验分享_ _光环大数据培训光环大数据培训大数据是收集、整理、处理大容量数据集,并从中获得见解所需的非传统 战略和技术的总称。虽然处理数据所需的计算能力或存储容量早已超过一台计 算机的上限,但这种计算类型的普遍性、规模,以及价值在最近几年才经历了 大规模扩展。在之前的文章中,我们曾经介绍过有关大数据系统的常规概念、处理过程, 以及各种专门术语,本文将介绍大数据系统一个最基本的组件:处理框架。处 理框架负责对系统中的数据进行计算,例如处理从非易失存储中读取的数据, 或处理刚刚摄入到系统中的数据。数据的计算则是指从大量单一数据点中提取 信息和见解的过程。下文将介绍这些框架:仅批处理框架:Apache hadoop仅流处理框架:Apache StormApache Samza混合框架:Apache SparkApache Flink大数据处理框架是什么?处理框架和处理引擎负责对数据系统中的数据进行计算。虽然

      2、“引擎”和 “框架”之间的区别没有什么权威的定义,但大部分时候可以将前者定义为实 际负责处理数据操作的组件,后者则可定义为承担类似作用的一系列组件。例如 Apache Hadoop 可以看作一种以 MapReduce 作为默认处理引擎的处理 框架。引擎和框架通常可以相互替换或同时使用。例如另一个框架 Apache 光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/ 光环大数据光环大数据 http:/Spark 可以纳入 Hadoop 并取代 MapReduce。组件之间的这种互操作性是大数据 系统灵活性如此之高的原因之一。虽然负责处理生命周期内这一阶段数据的系统通常都很复杂,但从广义层 面来看它们的目标是非常一致的:通过对数据执行操作提高理解能力,揭示出 数据蕴含的模式,并针对复杂互动获得见解。为了简化这些组件的讨论,我们会通过不同处理框架的设计意图,按照所 处理的数据状态对其进行分类。一些系统可以用批处理方式处理数据,一些系 统可以用流方式处理连续不断流入系统的数据。此外还有一些系统可以同时处 理这两类数据。在深入介绍不同实现的指标和结论之前,首先需要对不同处理类

      3、型的概念 进行一个简单的介绍。批处理系统批处理在大数据世界有着悠久的历史。批处理主要操作大容量静态数据集, 并在计算过程完成后返回结果。批处理模式中使用的数据集通常符合下列特征.有界:批处理数据集代表数据的有限集合持久:数据通常始终存储在某种类型的持久存储位置中大量:批处理操作通常是处理极为海量数据集的唯一方法批处理非常适合需要访问全套记录才能完成的计算工作。例如在计算总数 和平均数时,必须将数据集作为一个整体加以处理,而不能将其视作多条记录 的集合。这些操作要求在计算进行过程中数据维持自己的状态。需要处理大量数据的任务通常最适合用批处理操作进行处理。无论直接从 持久存储设备处理数据集,或首先将数据集载入内存,批处理系统在设计过程 中就充分考虑了数据的量,可提供充足的处理资源。由于批处理在应对大量持 久数据方面的表现极为出色,因此经常被用于对历史数据进行分析。大量数据的处理需要付出大量时间,因此批处理不适合对处理时间要求较 高的场合。ApacheApache HadoopHadoop光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/ 光环大数据光环大数据 http:

      4、/Apache Hadoop 是一种专用于批处理的处理框架。Hadoop 是首个在开源社 区获得极大关注的大数据框架。基于谷歌有关海量数据处理所发表的多篇论文 与经验的 Hadoop 重新实现了相关算法和组件堆栈,让大规模批处理技术变得更 易用。新版 Hadoop 包含多个组件,即多个层,通过配合使用可处理批数据:HDFS:HDFS 是一种分布式文件系统层,可对集群节点间的存储和复制进行 协调。HDFS 确保了无法避免的节点故障发生后数据依然可用,可将其用作数据 来源,可用于存储中间态的处理结果,并可存储计算的最终结果。YARN:YARN 是 Yet Another Resource Negotiator(另一个资源管理器)的 缩写,可充当 Hadoop 堆栈的集群协调组件。该组件负责协调并管理底层资源和 调度作业的运行。通过充当集群资源的接口,YARN 使得用户能在 Hadoop 集群 中使用比以往的迭代方式运行更多类型的工作负载。MapReduce:MapReduce 是 Hadoop 的原生批处理引擎。批处理模式Hadoop 的处理功能来自 MapReduce 引擎。MapRed

      5、uce 的处理技术符合使用 键值对的 map、shuffle、reduce 算法要求。基本处理过程包括:从 HDFS 文件系统读取数据集将数据集拆分成小块并分配给所有可用节点针对每个节点上的数据子集进行计算(计算的中间态结果会重新写入 HDFS)重新分配中间态结果并按照键进行分组通过对每个节点计算的结果进行汇总和组合对每个键的值进行 “Reducing”将计算而来的最终结果重新写入 HDFS优势和局限优势和局限由于这种方法严重依赖持久存储,每个任务需要多次执行读取和写入操作, 因此速度相对较慢。但另一方面由于磁盘空间通常是服务器上最丰富的资源, 这意味着 MapReduce 可以处理非常海量的数据集。同时也意味着相比其他类似 技术,Hadoop 的 MapReduce 通常可以在廉价硬件上运行,因为该技术并不需要光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/ 光环大数据光环大数据 http:/将一切都存储在内存中。MapReduce 具备极高的缩放潜力,生产环境中曾经出 现过包含数万个节点的应用。MapReduce 的学习曲线较为陡峭,虽然 Hadoop 生态系

      6、统的其他周边技术可 以大幅降低这一问题的影响,但通过 Hadoop 集群快速实现某些应用时依然需要 注意这个问题。围绕 Hadoop 已经形成了辽阔的生态系统,Hadoop 集群本身也经常被用作 其他软件的组成部件。很多其他处理框架和引擎通过与 Hadoop 集成也可以使用 HDFS 和 YARN 资源管理器。总结总结Apache Hadoop 及其 MapReduce 处理引擎提供了一套久经考验的批处理模 型,最适合处理对时间要求不高的非常大规模数据集。通过非常低成本的组件 即可搭建完整功能的 Hadoop 集群,使得这一廉价且高效的处理技术可以灵活应 用在很多案例中。与其他框架和引擎的兼容与集成能力使得 Hadoop 可以成为使 用不同技术的多种工作负载处理平台的底层基础。流处理系统流处理系统会对随时进入系统的数据进行计算。相比批处理模式,这是一 种截然不同的处理方式。流处理方式无需针对整个数据集执行操作,而是对通 过系统传输的每个数据项执行操作。流处理中的数据集是“无边界”的,这就产生了几个重要的影响:完整数据集只能代表截至目前已经进入到系统中的数据总量。工作数据集也许更相关,在

      7、特定时间只能代表某个单一数据项。处理工作是基于事件的,除非明确停止否则没有“尽头”。处理结果立刻 可用,并会随着新数据的抵达继续更新。流处理系统可以处理几乎无限量的数据,但同一时间只能处理一条(真正的 流处理)或很少量(微批处理,Micro-batch Processing)数据,不同记录间只维 持最少量的状态。虽然大部分系统提供了用于维持某些状态的方法,但流处理 主要针对副作用更少,更加功能性的处理(Functional processing)进行优化。功能性操作主要侧重于状态或副作用有限的离散步骤。针对同一个数据执 行同一个操作会或略其他因素产生相同的结果,此类处理非常适合流处理,因 为不同项的状态通常是某些困难、限制,以及某些情况下不需要的结果的结合光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/ 光环大数据光环大数据 http:/体。因此虽然某些类型的状态管理通常是可行的,但这些框架通常在不具备状 态管理机制时更简单也更高效。此类处理非常适合某些类型的工作负载。有近实时处理需求的任务很适合 使用流处理模式。分析、服务器或应用程序错误日志,以及其他基于时间的

      8、衡 量指标是最适合的类型,因为对这些领域的数据变化做出响应对于业务职能来 说是极为关键的。流处理很适合用来处理必须对变动或峰值做出响应,并且关 注一段时间内变化趋势的数据。ApacheApache StormStormApache Storm 是一种侧重于极低延迟的流处理框架,也许是要求近实时处 理的工作负载的最佳选择。该技术可处理非常大量的数据,通过比其他解决方 案更低的延迟提供结果。流处理模式流处理模式Storm 的流处理可对框架中名为 Topology(拓扑)的 DAG(Directed Acyclic Graph,有向无环图)进行编排。这些拓扑描述了当数据片段进入系统后,需要 对每个传入的片段执行的不同转换或步骤。拓扑包含:Stream:普通的数据流,这是一种会持续抵达系统的无边界数据。Spout:位于拓扑边缘的数据流来源,例如可以是 API 或查询等,从这里可 以产生待处理的数据。Bolt:Bolt 代表需要消耗流数据,对其应用操作,并将结果以流的形式进 行输出的处理步骤。Bolt 需要与每个 Spout 建立连接,随后相互连接以组成所 有必要的处理。在拓扑的尾部,可以使用最

      9、终的 Bolt 输出作为相互连接的其他 系统的输入。Storm 背后的想法是使用上述组件定义大量小型的离散操作,随后将多个 组件组成所需拓扑。默认情况下 Storm 提供了“至少一次”的处理保证,这意 味着可以确保每条消息至少可以被处理一次,但某些情况下如果遇到失败可能 会处理多次。Storm 无法确保可以按照特定顺序处理消息。为了实现严格的一次处理,即有状态处理,可以使用一种名为 Trident 的 抽象。严格来说不使用 Trident 的 Storm 通常可称之为 Core Storm。Trident 会对 Storm 的处理能力产生极大影响,会增加延迟,为处理提供状态,使用微 批模式代替逐项处理的纯粹流处理模式。光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/ 光环大数据光环大数据 http:/为避免这些问题,通常建议 Storm 用户尽可能使用 Core Storm。然而也要 注意,Trident 对内容严格的一次处理保证在某些情况下也比较有用,例如系 统无法智能地处理重复消息时。如果需要在项之间维持状态,例如想要计算一 个小时内有多少用户点击了某个链接,此时 Trident 将是你唯一的选择。尽管 不能充分发挥框架与生俱来的优势

      《0基础搭建Hadoop大数据处理经验分享_光环大数据培训》由会员gua****an分享,可在线阅读,更多相关《0基础搭建Hadoop大数据处理经验分享_光环大数据培训》请在金锄头文库上搜索。

      点击阅读更多内容
    TA的资源
    点击查看更多
    最新标签
    监控施工 信息化课堂中的合作学习结业作业七年级语文 发车时刻表 长途客运 入党志愿书填写模板精品 庆祝建党101周年多体裁诗歌朗诵素材汇编10篇唯一微庆祝 智能家居系统本科论文 心得感悟 雁楠中学 20230513224122 2022 公安主题党日 部编版四年级第三单元综合性学习课件 机关事务中心2022年全面依法治区工作总结及来年工作安排 入党积极分子自我推荐 世界水日ppt 关于构建更高水平的全民健身公共服务体系的意见 空气单元分析 哈里德课件 2022年乡村振兴驻村工作计划 空气教材分析 五年级下册科学教材分析 退役军人事务局季度工作总结 集装箱房合同 2021年财务报表 2022年继续教育公需课 2022年公需课 2022年日历每月一张 名词性从句在写作中的应用 局域网技术与局域网组建 施工网格 薪资体系 运维实施方案 硫酸安全技术 柔韧训练 既有居住建筑节能改造技术规程 建筑工地疫情防控 大型工程技术风险 磷酸二氢钾 2022年小学三年级语文下册教学总结例文 少儿美术-小花 2022年环保倡议书模板六篇 2022年监理辞职报告精选 2022年畅想未来记叙文精品 企业信息化建设与管理课程实验指导书范本 草房子读后感-第1篇 小数乘整数教学PPT课件人教版五年级数学上册 2022年教师个人工作计划范本-工作计划 国学小名士经典诵读电视大赛观后感诵读经典传承美德 医疗质量管理制度 2
    关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
    手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
    ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.