电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本
换一换
首页 金锄头文库 > 资源分类 > DOCX文档下载
分享到微信 分享到微博 分享到QQ空间

光环大数据培训_ spark学习 spark应用案例现场分享

  • 资源ID:51373986       资源大小:46.77KB        全文页数:6页
  • 资源格式: DOCX        下载积分:0金贝
快捷下载 游客一键下载
账号登录下载
微信登录下载
三方登录下载: 微信开放平台登录   支付宝登录   QQ登录  
二维码
微信扫一扫登录
下载资源需要0金贝
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
如填写123,账号就是123,密码也是123。
验证码:   换一换

 
账号:
密码:
验证码:   换一换
  忘记密码?
    
1、金锄头文库是“C2C”交易模式,即卖家上传的文档直接由买家下载,本站只是中间服务平台,本站所有文档下载所得的收益全部归上传人(卖家)所有,作为网络服务商,若您的权利被侵害请及时联系右侧客服;
2、如你看到网页展示的文档有jinchutou.com水印,是因预览和防盗链等技术需要对部份页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有jinchutou.com水印标识,下载后原文更清晰;
3、所有的PPT和DOC文档都被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;下载前须认真查看,确认无误后再购买;
4、文档大部份都是可以预览的,金锄头文库作为内容存储提供商,无法对各卖家所售文档的真实性、完整性、准确性以及专业性等问题提供审核和保证,请慎重购买;
5、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据;
6、如果您还有什么不清楚的或需要我们协助,可以点击右侧栏的客服。
下载须知 | 常见问题汇总

光环大数据培训_ spark学习 spark应用案例现场分享

光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/hadoop.aura.cn 光环大数据光环大数据 http:/hadoop.aura.cn光环大数据培训光环大数据培训_ _ sparkspark 学习学习 sparkspark 应用案例现场分享应用案例现场分享光环大数据培训机构光环大数据培训机构,近日,风靡西雅图、旧金山的 Datapalooza 登陆上海, 来自 IBM 的顶尖数据分析专家和中国业界数据分析带头人齐聚上海交通大学, 以精彩的演讲和深度解析为我们打开了 Spark 世界的大门!以下为来自上海交通大学 OMNILab 实验室的王海洋博士现场分享的 Spark 应用 案例。今天主要是以一个数据分析者的角度来与大家分享如何使用 spark 进行大数据 分析。我将分以下 4 部分为大家进行介绍。首先介绍 spark 的相关背景,包括基本概 念以及 spark 与 hadoop 的关系。接下来介绍如何使用 spark RDD 进行数据分析。 之后分享 spark 与大数据分析的关系,以及 spark 在大数据分析中所起到的作 用。最后,为大家分享一下我与四位小伙伴基于去年的 SODA 开放的交通数据做 的案例:大型活动大规模人群的检测与疏散。spark 是一个快速易用的大规模数据计算框架,具有速度快、易使用、功能全 的特点,并且可以与 Hadoop 很好地集成。那么我们什么时候需要使用 spark 呢?首先,当我们需要处理的数据量超过了单 机尺度(比如我们的计算机有 4GB 的内存,而我们需要处理 100GB 以上的数据) 这时我们可以选择 spark 集群进行计算。有时我们可能需要处理的数据量并不 大,但是计算很复杂,需要大量的时间,这时我们也可以选择利用 spark 集群 强大的计算资源,并行化地计算。spark 可以提供了丰富的数据处理操作,包括在线的流式数据处理、离线的批 量数据处理、即席查询、机器学习。spark 也提供了多种编程 API 接口,供具有不同开发经验的数据分析者使用。spark 与 Hadoop 是什么关系呢? Hadoop 有两个核心模块,分布式存储模块 HDFS 和分布式计算模块 Mapreduce。spark 本身并没有提供分布式文件系统, 因此 spark 的分析大多依赖于 Hadoop 的分布式文件系统 HDFS。另一方面, Hadoop 的 Mapreduce 与 spark 都可以进行数据计算,而相比于 Mapreduce,spark 的速度更快并且提供的功能更加丰富。下面来介绍如何使用 spark RDD 进行编程。光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/hadoop.aura.cn 光环大数据光环大数据 http:/hadoop.aura.cn首先介绍一下 spark RDD,spark 建立在统一抽象的 RDD 之上,RDD 指的是一个 只读的可分区的分布式数据集。可以将它的全部或部分缓存在内存中,供多次 计算重用。而且 RDD 提供了多种友好的操作函数供数据分析者做数据处理。spark 为什么会在迭代计算中比 hadoop 快很多呢?Hadoop 进行迭代数据处理时, 需要把数据从 HDFS 中读出,分析,写回到 HDFS 中,再读出、分析、写回。在 此过程中进行了大量的磁盘 I/O 操作,消耗了大量的时间。而 spark 可以将数 据一次性地从 HDFS 读到内存中,并进行多次计算,因而减少了大量的开销。通过 spark RDD 进行编程可以理解为利用 RDD 提供的算子、结合实际需求,设 计一个数据处理的 pipeline,将原始数据转换成我们需要得到的数据。RDD 算 子分为 transformation 和 action,transformation 是得到一个新的 RDD,并 且不会执行计算,直到遇到 action 算子的时候计算才会被触发。这是一些常用的 spark RDD 算子。下面来介绍如何使用 spark RDD 进行数据处理。总结起来可以分为以下三步:1.根据我们的目标定义好输入和输出数据的格式,并比较两者之间的差异;2.明确输入输出后我们根据 RDD 本身提供的算子以及自己定义的函数来设计 pipeline;3.选择一种 API 编程实现。我们以词频统计为例进行说明。我们希望对一段非结构化文本做词频统计,即 统计一段文本中每个单词出现的次数,并将单词按照字母 ASCII 顺序升序排列。 首先定义好我们的输入与输出数据格式,输入数据是一段介绍 spark 的文本, 输出是逗号分隔的词频统计。第二步设计算子 pipeline,首先将数据从 HDFS 中读取,通过 flatMap 算子、 map 算子和 reduceByKey 算子统计出每个单词出现的频次,通过 sortByKey 算 子将单词升序排列,再通过一个 map 算子转化成我们需要的目标格式,最后通 过 save 算子将处理好的结果写回到 HDFS 中。这是我们进行词频统计任务中使用的算子,包括 4 个 transformation 算子和一 个 action 算子。第三步我们来进行编程实现,在这里我们选择 python 进行编程。我们看到原本 很复杂的 pipeline,spark 只需要短短的几行代码就可以实现,可见 spark 的 强大功能以及对数据分析者提供的友好接口。下面和大家介绍 spark 与大数据分析的关系。光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/hadoop.aura.cn 光环大数据光环大数据 http:/hadoop.aura.cn数据分析一般需要进行两次创造。首先是第一次创造,即从整体上进行产品设 计,找到一个好的应用问题,并思考问题是否有意义,数据源是否可靠,现有 数据源可以解决该问题吗,是否需要其他数据源。在整体设计完成之后我们进 行第二次创造,即在细节上通过技术实现,这个过程是一个不断迭代往复的过 程。总结起来,数据分析,首先要找到正确的问题,然后再正确地分析数据。 当然两者并非完全独立,比如对数据的基本统计往往会帮助我们不断深入地理 解数据,进而发现问题。下面介绍数据流与应用问题之间的关系,以及不同的数据分析工具在其中所起 到的作用。在明确了应用问题,选择好了数据源之后,我们首先将原始数据转 化为中间数据。原始数据往往量巨大(几百 GB、TB 级别),并且多是未经清洗的 非结构化数据,因此我们需要用 HDFS 进行存储,使用大数据分析工具 spark 进 行清洗压缩编码,得到结构化的中间数据,我们以后大部分的分析都可以基于 中间数据进行。中间数据往往会比原始数据量小(几十 GB),但单机仍然难以处 理,因此也需要存储到 HDFS 中,使用 spark/Hive 进行进一步的处理,得到小 数据。小数据大多是一些统计结果、提取的特征等等,数据量也相对较小(几 MB 至几 GB),我们可以通过 python、R 语言等工具在单机上进行建模、分析, 并将分析结果进行可视化,可以选择 R 语言、python 绘制静态的统计图,也可 以选择 echarts、D3 等工具进行交互展示。通过这些可视化的结果发现 insight 进而解决实际问题。在大数据快速发展的今天,有多种多样的大数据分析工具应运而生,我们为什 么要选择 spark 作为我们的大数据分析工具?相比于其他分析工具,spark 具有 哪些优势?ETL、机器学习、即席查询是大数据分析中非常重要的操作。已经有 了一些大数据工具为此提供了解决方案,例如 hadoop mapreduce 解决大数据 ETL、mahout 解决大数据机器学习、hive 解决大数据即席查询。然而这给数据 分析者带来了不便,对于每一种大数据操作,都要学习一种新的技术,这带来 了很大的学习成本。那么我们会设想,会不会有一种工具,将常用的大数据分析功能统一起来呢?spark 经过近年来的飞速发展,已经做到“one stack to rule them all”, 通过 RDD 将三者统一在了一起。数据分析者可以通过 spark core 大数据 ETL, 通过 spark Mllib 进行大数据机器学习,通过 spark SQL 进行大数据即席查询。因此,数据分析者只需掌握 spark 一种工具,即可实现绝大多数的大数据分析 功能。最后,我来与大家分享一下我与其他 4 位小伙伴(上海交通大学的张宏伦、李铎、 杨皓天,同济大学的金建栋)使用去年 SODA 的开放交通数据进行案例分析的一 些结果:大型活动大规模人群的检测与疏散。光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/hadoop.aura.cn 光环大数据光环大数据 http:/hadoop.aura.cn上海经常会举办大型活动,例如大型演唱会、足球赛等。这些大型活动会聚集 大量的人群,有时会因为人数过多产生安全隐患,例如 2015 年新年上海外滩的 踩踏事件。这些活动举办的时间地点不固定,也难以得知全部活动的信息,如 果活动临时更改时间地点,也难以实时得到新的信息。这给政府带来了公共安全的隐患。对于参加活动的人,在活动结束时,往往地 铁已经停运,面对黑车的漫天要价,会面临回家难的问题。而现在市场上已经 出现了一些专用巴士公司,他们希望寻找更多的客源创造更多的利润。然而三 者之间联系脆弱、信息孤立。我们希望以开放数据为基础,利用 spark 大数据分析技术,使用算法模型,通 过交通数据识别出大型活动并提供疏散建议。为政府解决社会问题,为活动参 加者解决回家难的问题,同时为专用巴士公司提供更多客源,创造更多利润。我们选取了公交卡刷卡数据、出租车运行数据、地铁运行数据以及浦东公交车 实时数据、气象数据。其中使用最多的是一卡通乘客刷卡数据,包含了 2015 年 4 月上海市的所有公交卡刷卡记录,涵盖用户 1000 万以上,交易记录 2 亿 4 千万条以上。如此多的数据量单机难以处理,因此我们选择 spark 作为数据处理工具。这是 我们的整体架构,首先根据我们的目标进行数据集扩充,包括从非常票务网、 大麦网等票务网站爬取的各大活动的信息。之后进行数据预处理工作,包括数 据去噪、数据融合等。之后进行数据分析挖掘,包括时序分析、空间挖掘、个 体行为建模等,并将分析结果可视化。我们对多种交通工具的每天出行时间分布进行了统计,可以看到地铁和公交车 有着明显的早晚高峰,而出租车除了午夜时间一天的乘客数量较为平均。我们对每天的交通总流量进行了分析,发现交通流量稳定,并以周为单位呈周 期规律,而工作日的总流量要高于休息日。观察一周的总流量,周一到周四的 交通流量基本相同,周五流量要略高于周一至周四,而周六流量要低于工作日, 周日的流量为一周最低。在分析完每天的交通总流量之后,我们分析了一天中各个时段的流量。选取了 周一到周四工作日中的 2 天(一个晴天、一个雨天),工作日周五和工作日周六。 我们发现两个周一到周四工作日的流量曲线几乎重合,因此我们可以推测,周 一到周四的工作日不仅总流量稳定,而且各个时段的交通总流量稳定,且早晚 高峰显著。而观察周五的流量,我们发现在大约 10:00 之前,流量曲线几乎与 周一到周四的流量重合,而 10:00 以后几乎每个时段流量都会比平时高出一些, 这解释了为什么周五的总流量会高于周一到周四。而周六的流量没有早晚高峰, 但在空闲时段(如中午)流量要高于工作日。

注意事项

本文(光环大数据培训_ spark学习 spark应用案例现场分享)为本站会员(gua****an)主动上传,金锄头文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即阅读金锄头文库的“版权提示”【网址:https://www.jinchutou.com/h-59.html】,按提示上传提交保证函及证明材料,经审查核实后我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。

分享当前资源【光环大数据培训_ spark学习 spark应用案例现场分享】到朋友圈,您即可以免费下载此资源!
微信扫一扫分享到朋友圈
二维码
操作提示:任选上面一个二维码,打开微信,点击“发现”使用“扫一扫”,即可将选择的网页分享到朋友圈
您可能感兴趣的------------------------------------------------------------------------------------------------------



关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.