光环大数据培训_ spark学习 spark应用案例现场分享
6页1、 光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/ 光环大数据光环大数据 http:/光环大数据培训光环大数据培训_ _ sparkspark 学习学习 sparkspark 应用案例现场分享应用案例现场分享光环大数据培训机构光环大数据培训机构,近日,风靡西雅图、旧金山的 Datapalooza 登陆上海, 来自 IBM 的顶尖数据分析专家和中国业界数据分析带头人齐聚上海交通大学, 以精彩的演讲和深度解析为我们打开了 Spark 世界的大门!以下为来自上海交通大学 OMNILab 实验室的王海洋博士现场分享的 Spark 应用 案例。今天主要是以一个数据分析者的角度来与大家分享如何使用 spark 进行大数据 分析。我将分以下 4 部分为大家进行介绍。首先介绍 spark 的相关背景,包括基本概 念以及 spark 与 hadoop 的关系。接下来介绍如何使用 spark RDD 进行数据分析。 之后分享 spark 与大数据分析的关系,以及 spark 在大数据分析中所起到的作 用。最后,为大家分享一下我与四位小伙伴基于去年的 SODA 开放的交通数据做 的案例
2、:大型活动大规模人群的检测与疏散。spark 是一个快速易用的大规模数据计算框架,具有速度快、易使用、功能全 的特点,并且可以与 Hadoop 很好地集成。那么我们什么时候需要使用 spark 呢?首先,当我们需要处理的数据量超过了单 机尺度(比如我们的计算机有 4GB 的内存,而我们需要处理 100GB 以上的数据) 这时我们可以选择 spark 集群进行计算。有时我们可能需要处理的数据量并不 大,但是计算很复杂,需要大量的时间,这时我们也可以选择利用 spark 集群 强大的计算资源,并行化地计算。spark 可以提供了丰富的数据处理操作,包括在线的流式数据处理、离线的批 量数据处理、即席查询、机器学习。spark 也提供了多种编程 API 接口,供具有不同开发经验的数据分析者使用。spark 与 Hadoop 是什么关系呢? Hadoop 有两个核心模块,分布式存储模块 HDFS 和分布式计算模块 Mapreduce。spark 本身并没有提供分布式文件系统, 因此 spark 的分析大多依赖于 Hadoop 的分布式文件系统 HDFS。另一方面, Hadoop 的 Mapred
3、uce 与 spark 都可以进行数据计算,而相比于 Mapreduce,spark 的速度更快并且提供的功能更加丰富。下面来介绍如何使用 spark RDD 进行编程。光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/ 光环大数据光环大数据 http:/首先介绍一下 spark RDD,spark 建立在统一抽象的 RDD 之上,RDD 指的是一个 只读的可分区的分布式数据集。可以将它的全部或部分缓存在内存中,供多次 计算重用。而且 RDD 提供了多种友好的操作函数供数据分析者做数据处理。spark 为什么会在迭代计算中比 hadoop 快很多呢?Hadoop 进行迭代数据处理时, 需要把数据从 HDFS 中读出,分析,写回到 HDFS 中,再读出、分析、写回。在 此过程中进行了大量的磁盘 I/O 操作,消耗了大量的时间。而 spark 可以将数 据一次性地从 HDFS 读到内存中,并进行多次计算,因而减少了大量的开销。通过 spark RDD 进行编程可以理解为利用 RDD 提供的算子、结合实际需求,设 计一个数据处理的 pipeline,将原始数据转换成我们需
4、要得到的数据。RDD 算 子分为 transformation 和 action,transformation 是得到一个新的 RDD,并 且不会执行计算,直到遇到 action 算子的时候计算才会被触发。这是一些常用的 spark RDD 算子。下面来介绍如何使用 spark RDD 进行数据处理。总结起来可以分为以下三步:1.根据我们的目标定义好输入和输出数据的格式,并比较两者之间的差异;2.明确输入输出后我们根据 RDD 本身提供的算子以及自己定义的函数来设计 pipeline;3.选择一种 API 编程实现。我们以词频统计为例进行说明。我们希望对一段非结构化文本做词频统计,即 统计一段文本中每个单词出现的次数,并将单词按照字母 ASCII 顺序升序排列。 首先定义好我们的输入与输出数据格式,输入数据是一段介绍 spark 的文本, 输出是逗号分隔的词频统计。第二步设计算子 pipeline,首先将数据从 HDFS 中读取,通过 flatMap 算子、 map 算子和 reduceByKey 算子统计出每个单词出现的频次,通过 sortByKey 算 子将单词升序排列,再通过一个
《光环大数据培训_ spark学习 spark应用案例现场分享》由会员gua****an分享,可在线阅读,更多相关《光环大数据培训_ spark学习 spark应用案例现场分享》请在金锄头文库上搜索。
做运营60%靠思维,40%靠经验,你的思维跟得上吗_光环大数据培训
长沙BI大数据培训_BI大数据工程师需要具备哪些高薪技能_光环大数据培训
智慧交通大数据平台搭建过程及应用案例_光环大数据培训
在DevOps中以API看待共享数据库_光环大数据培训
怎样才能成为一个高级Java工程师 —光环java培训机构
这可能是一篇数据化运营的大纲_光环大数据培训
自学大数据能找到工作吗_光环大数据培训
长沙大数据公司有哪些 参加大数据培训有钱途吗_光环大数据培训
中国大数据成熟盈利模型尚未建立_光环大数据培训
针对 MySQL 大规模数据库的性能和伸缩性的优化_光环大数据培训
怎样做数据分析_数据分析方法大全
怎么学习数据分析_数据分析软件汇总
怎样成为数据分析师_光环数据分析师培训
在大数据迅猛发展的今天隐私保护成了难题_光环大数据推出AI智客计划送2000助学金
长沙cpda数据分析培训_cpda考试流程
运营之道,千变万化,存乎一心_光环大数据培训
在Hadoop上运行Docker容器的六大陷阱_光环大数据培训
云计算平台点兵 谁在用AWS 谁在用Azure_光环大数据培训
自学java编程语言和参加java培训哪个更有前途—光环java培训机构
最用心的运营数据指标解读_光环大数据培训
2020-11-03 46页
2020-06-14 4页
2020-06-14 4页
2020-06-14 3页
2020-06-14 4页
2020-06-14 5页
2020-06-14 6页
2020-06-14 4页
2020-06-14 3页
2020-06-14 3页