电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

Spark怎样超越Hadoop MapReduce _光环大数据培训

5页
  • 卖家[上传人]:gua****an
  • 文档编号:49833683
  • 上传时间:2018-08-03
  • 文档格式:DOCX
  • 文档大小:44.46KB
  • / 5 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 1、 光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/ 光环大数据光环大数据 http:/SparkSpark 怎样超越怎样超越 HadoopHadoop MapReduceMapReduce _ _光环大数据培训光环大数据培训光环大数据培训光环大数据培训认为,和 hadoop 一样,Spark 提供了一个 Map/Reduce API(分布式计算)和分布式存储。二者主要的不同点是,Spark 在集群的内存中 保存数据,而 Hadoop 在集群的磁盘中存储数据。本文选自SparkGraphX 实战。大数据对一些数据科学团队来说是 主要的挑战,因为在要求的可扩展性方 面单机没有能力和容量来运行大规模数据处 理。此外,即使专为大数据设计的 系统,如 Hadoop,由于一些数据的属性问题也很难有效地处理图数据,我们将 在本章的其他部分看到这方面的内容。Apache Spark 与 Hadoop 类似,数据分布式存储在服务器的集群或者是 “节点”上。 不同的是,Spark 将数据保存在内存(RAM)中,Hadoop 把数据保 存在磁盘(机械 硬盘或者 SSD 固态硬盘)中。定

      2、义 :在图和集群计算方面,“节点”这个词有两种截然不同的意思。 图数据由顶点和边组成,在这里“节点”与顶点的意思相近。在集群计算 方面, 组成集群的物理机器也被称为“节点”。为避免混淆,我们称图的 节点为顶点, 这也是 Spark 中的专有名词。而本书中的“节点”这个词我 们严格定义为集 群中的单个物理计算节点。大数据因为数据量大单机无法处理。Hadoop 和 Spark 都是把数据分布在 集群节点上的分 布式框架中。Spark 把分布式数据集存放在内存中,所以比 Hadoop 把数据存放在磁盘中 处理速度要快很多。除了将要计算的数据保存的位置不同(内存和磁盘),Spark 的 API 比 Hadoop 的 Map/Reduce API 更容易使用。Spark 使用简洁且表达力较好的 Scala 作为原生编程语言,写 Hadoop Map/Reduce 的 Java 代码行数与写 Spark 的 Scala 的代码行的数 量比一般是 10:1。虽然本书主要使用 Scala,但是你对 Scala 不熟悉也不用担心,我们在第 3 章提 供了快速入门,包括怪异、晦涩和简练的 Scala 语法

      3、。进一步熟悉 Java、C+、C#、 Python 等至少一门编程语言是必要的。模糊的大数据定义模糊的大数据定义光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/ 光环大数据光环大数据 http:/现在的“大数据”概念已经被很大程度地夸大了。大数据的概念可以追溯 到 Google 在 2003 年发表的 Google 文件系统的论文和 2004 年发表的 Map/Reduce 论文。大数据这个术语有多种不同的定义,并且有些定义已经失去了大数据所应 有的意 义。但是简单的核心且至关重要的意义是:大数据是因数据本身太大, 单机无法处理。数据量已经呈爆炸性增长。数据来自网站的点击、服务器日志和带有传感 器的 硬件等,这些称为数据源。有些数据是图数据(graph data),意味着由边 和顶点组成, 如一些协作类网站(属于“Web 2.0”的社交媒体的一种)。大的 图数据集实际上是 众包的,例如知识互相连接的 Wikipedia、Facebook 的朋 友数据、LinkedIn 的连接数 据,或者 Twitter 的粉丝数据。HadoopHadoop :SparkSpark

      4、 之前的世界之前的世界在讨论 Spark 之前,我们总结一下 Hadoop 是如何解决大数据问题的,因 为 Spark 是建立在下面将要描述的核心 Hadoop 概念之上的。Hadoop 提供了在集群机器中实现容错、并行处理的框架。Hadoop 有两个 关键 能力 :HDFSHDFS分布式存储分布式存储MapReduceMapReduce分布式计算分布式计算HDFS 提供了分布式、容错存储。NameNode 把单个大文件分割成小块,典 型 的块大小是 64MB 或 128MB。这些小块文件被分散在集群中的不同机器上。 容错性 是将每个文件的小块复制到一定数量的机器节点上(默认复制到 3 个不 同节点, 下图中为了表示方便,将复制数设置为 2)。假如一个机器节点失效, 致使这个机器上的 所有文件块不可用,但其他机器节点可以提供缺失的文件块。 这是 Hadoop 架构的 关键理念 :机器出故障是正常运作的一部分。三个分布式数据块通过 Hadoop 分布式文件系统(HDFS)保持两个副本。MapReduce 是提供并行和分布式计算的 Hadoop 并行处理框架,如下图 。MapReduce

      5、是被 Hadoop 和 Spark 都用到的一个数据处理范式。图中表示 计算服务器日 志文件中“error”出现的次数,这是一个 MapReduce 操作。通 常 Map 操作是一对一的 操作,对每一个源数据项生成一个相应的数据转换操 作。Reduce 是多对一的操作,聚合 Map 阶段的输出。Hadoop 和 Spark 都用 到了 MapReduce 范式。光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/ 光环大数据光环大数据 http:/用 MapReduce 框架,程序员写一个封装有 map 和 reduce 函数的独立代 码片段来处 理 HDFS 上的数据集。为取到数据位置,代码打包(jar 格式)分发 到数据节点, Map 操作就在这些数据节点上执行,这避免了集群的数据传输导 致消耗网络带宽。 对于 Reduce 聚合操作,Map 的结果被传输到多个 Reduce 节点上做 reduce 操作(称 之为 shuffling)。首先,Map 阶段是并行操作的, Hadoop 提供了一个弹性机制,当 一个机器节点或者一个处理过程失败时,计 算会在其他机器节

      6、点上重启。MapReduce 编程框架将数据集抽象为流式 key-value 键值对,然后处理这 些键 值对并写回到 HDFS。这是一个有局限的范式,但它已被用来解决许多数 据并行问题, 用链接在一起的 MapReduce 进行“读-处理-写”操作过程。对 于一些简单的任务,上图显示的是比较适合的场景。但是对于一些如机器学习 算法中的迭代计算算 法,用这种 MapReduce 范式就很痛苦,这也是选择使用 Spark 的原因。SparkSpark :内存中的:内存中的 MapReduceMapReduce 处理处理我们来看另一个可选的分布式处理系统,构建在 Hadoop 基础之上的 Spark。在这一小节你会了解到,在 Spark 处理图数据时扮演重要角色的弹性 分 布式数据集(RDD)导致 Hadoop 衰落的两类问题是 :交互式查询交互式查询迭代算法迭代算法Hadoop 很适合在一个大的数据集上做单次查询,而在许多实际场景中,一 旦有 了一个想要的答案,我们就想再问数据一个问题,这就是交互式查询。使 用 Hadoop 的话,就意味着要等待重新从磁盘中加载数据,再次处理数据。我 们不

      7、得不执行一 组相同的计算作为随后分析的前提,这不符合常理。迭代算法已经被广泛应用于机器学习任务,如随机梯度下降算法,以及之 后 会看到的 PageRank 这类图计算算法。迭代算法是在一个数据集上一遍又一 遍地做 一组计算,直到满足一个标准(循环结束条件)才结束迭代。 在 Hadoop 中实现这种算法,一般需要一系列加载数据的 MapReduce 任务,这些 MapReduce 任务要在 每一个迭代过程中重复运行。对于非常大的数据集,每个 迭代过程要花费 100 秒或 1000 秒,整个迭代过程非常耗时。下面你会看到 Spark 如何解决这些问题。如 Hadoop 一样,Spark 也是运 行在 一个常见的硬件配置的机器集群上。Spark 中的一个核心抽象是弹性分布 式数据集(RDD)。RDD 是由 Spark 应用创建的(在 Spark Driver 上),由集群管 理,如下图。光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/ 光环大数据光环大数据 http:/Spark 提供一个弹性分布式数据集,可以认为它是一个分布式的常驻内存 的数组。组成 RDD 分布式数

      8、据集的数据分区会被加载到集群的机器上。基于内存的数据处理基于内存的数据处理Spark 执行的大部分操作都是在随机访问内存中(RAM)进行。Spark 是基于 内 存的,而 Hadoop Map/Reduce 是顺序处理数据,所以 Spark 比 Hadoop 更 适合处理 随机访问的图数据。Spark 的关键好处在于交互式查询和迭代处理过程中在内存中缓存 RDD。 缓存 起来的 RDD 可以避免每次重新处理父 RDD 链,而只需要直接返回父 RDD 计算后 的缓存结果。自然的,这意味着要用到 Spark 的基于内存的计算处理特性,要求集群中 的机 器内存要足够大。要是可用内存不够,那么 Spark 就会优雅地溢出数据 到磁盘,以 保证 Spark 能继续运行。当然 Spark 集群也需要一个持久化存储数据的地方,而且还要是分布式存 储系 统才行,可选的有 HDFS、Cassandra 和亚马逊的 S3。为什么大家选择为什么大家选择光环大数据光环大数据!大数据培训、人工智能培训、Python 培训、大数据培训机构、大数据培训班、数据分析培训、大数据可视化培训,就选光环大数据!光环大数据,聘请专业的大数据领域知名讲师,确保教学的整体质量与教学水准。讲师团及时掌握时代潮流技术,将前沿技能融入教学中,确保学生所学知识顺应时代所需。通过深入浅出、通俗易懂的教学方式,指导学生更快的掌握技能知识,成就上万个高薪就业学子。【报名方式、详情咨询报名方式、详情咨询】光环大数据官方网站报名:光环大数据官方网站报名:http:/ 光环大数据光环大数据 http:/手机报名链接:手机报名链接:http:/http:/ /mobile/mobile/

      《Spark怎样超越Hadoop MapReduce _光环大数据培训》由会员gua****an分享,可在线阅读,更多相关《Spark怎样超越Hadoop MapReduce _光环大数据培训》请在金锄头文库上搜索。

      点击阅读更多内容
    TA的资源
    点击查看更多
    最新标签
    监控施工 信息化课堂中的合作学习结业作业七年级语文 发车时刻表 长途客运 入党志愿书填写模板精品 庆祝建党101周年多体裁诗歌朗诵素材汇编10篇唯一微庆祝 智能家居系统本科论文 心得感悟 雁楠中学 20230513224122 2022 公安主题党日 部编版四年级第三单元综合性学习课件 机关事务中心2022年全面依法治区工作总结及来年工作安排 入党积极分子自我推荐 世界水日ppt 关于构建更高水平的全民健身公共服务体系的意见 空气单元分析 哈里德课件 2022年乡村振兴驻村工作计划 空气教材分析 五年级下册科学教材分析 退役军人事务局季度工作总结 集装箱房合同 2021年财务报表 2022年继续教育公需课 2022年公需课 2022年日历每月一张 名词性从句在写作中的应用 局域网技术与局域网组建 施工网格 薪资体系 运维实施方案 硫酸安全技术 柔韧训练 既有居住建筑节能改造技术规程 建筑工地疫情防控 大型工程技术风险 磷酸二氢钾 2022年小学三年级语文下册教学总结例文 少儿美术-小花 2022年环保倡议书模板六篇 2022年监理辞职报告精选 2022年畅想未来记叙文精品 企业信息化建设与管理课程实验指导书范本 草房子读后感-第1篇 小数乘整数教学PPT课件人教版五年级数学上册 2022年教师个人工作计划范本-工作计划 国学小名士经典诵读电视大赛观后感诵读经典传承美德 医疗质量管理制度 2
    关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
    手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
    ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.