电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本
换一换
首页 金锄头文库 > 资源分类 > PPTX文档下载
分享到微信 分享到微博 分享到QQ空间

大数据处理技术简介

  • 资源ID:48365896       资源大小:6.43MB        全文页数:52页
  • 资源格式: PPTX        下载积分:10金贝
快捷下载 游客一键下载
账号登录下载
微信登录下载
三方登录下载: 微信开放平台登录   支付宝登录   QQ登录  
二维码
微信扫一扫登录
下载资源需要10金贝
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
如填写123,账号就是123,密码也是123。
支付方式: 支付宝    微信支付   
验证码:   换一换

 
账号:
密码:
验证码:   换一换
  忘记密码?
    
1、金锄头文库是“C2C”交易模式,即卖家上传的文档直接由买家下载,本站只是中间服务平台,本站所有文档下载所得的收益全部归上传人(卖家)所有,作为网络服务商,若您的权利被侵害请及时联系右侧客服;
2、如你看到网页展示的文档有jinchutou.com水印,是因预览和防盗链等技术需要对部份页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有jinchutou.com水印标识,下载后原文更清晰;
3、所有的PPT和DOC文档都被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;下载前须认真查看,确认无误后再购买;
4、文档大部份都是可以预览的,金锄头文库作为内容存储提供商,无法对各卖家所售文档的真实性、完整性、准确性以及专业性等问题提供审核和保证,请慎重购买;
5、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据;
6、如果您还有什么不清楚的或需要我们协助,可以点击右侧栏的客服。
下载须知 | 常见问题汇总

大数据处理技术简介

大数据处理技术简介大数据处理技术简介三、大数据开源软件HadoopHadoopHadoopHadoop简介二、大数据处理实现技术一、大数据背景目 录1. Hadoop 简介2. 实例演示1. 定义2. 数据的来源1. 分布式储存系统(GFS / HDFS)2. 分布式计算模型(MapReduce)一、大数据背景一、大数据背景我们正处在信息爆炸的年代我们正处在信息爆炸的年代2000年 数字数据只占全球数据量的1/42007年 所有数据中只有7%是存储在报纸、书籍、图片等媒介上的模拟数据,其余93%全是数字数据(二进制数据)Google 单日数据处理量超过 24 PBFacebook 单日照片更新量超过 1千万张淘宝网 单日数据产生量超过 5万 GB大数据背景 定义大大数据定义数据定义“大数据”是指一个数据集(Datasets),它的尺寸大到已经无法由传统的数据库软件去采集、储存、管理和分析。大数据背景 定义数据的分类数据的分类l l结构化数据:结构化数据:行数据,存储在数据库里,可以用二维表结构来逻辑表达实现的数据。例如:二维表l l半结构化数据:半结构化数据:自描述,数据结构和内容混杂在一起的数据。例如: XML、HTML等。l l非结构化数据:非结构化数据:除去以上两种类型例如:音视频、图片等。大数据背景 定义20002000年以后非结构化数据占绝大部分年以后非结构化数据占绝大部分大数据背景 数据的来源从非结构化数据到结构化数据从非结构化数据到结构化数据非非非非结结结结 构化数构化数构化数构化数 据据据据行行行行业业业业 技技技技术术术术结结结结构化构化构化构化 半半半半结结结结构构构构 化数据化数据化数据化数据视频、音视频、音 频识别技频识别技 术等术等大数据背景 数据的来源网页爬虫网页爬虫视频识别视频识别语音识别语音识别 等等大数据背景 数据的来源传统关系数据库,如传统关系数据库,如:OracleOracle、MYSQLMYSQLl无法储存几亿行长,几百万行宽的表格,巨大的数据直接导致数据库崩溃l半结构化数据和脏数据将会导致出错(类型不严格)传统方法失效传统方法失效 !如何解决?如何解决?大数据处理技术的解决办法:大数据处理技术的解决办法:存成文件(存成文件(FILE SYSTEMFILE SYSTEM)大数据背景 数据的来源某搜索引擎搜索日志某搜索引擎搜索日志大数据背景 数据的来源二、大数据处理实现技术二、大数据处理实现技术大数据处理技术面对的大数据处理技术面对的第一个问题第一个问题如何高效存储大规模文件?如何高效存储大规模文件?大数据处理实现技术 分布式储存系统GFS / HDFS数据数据读取问题读取问题1 T1 T100M100M/S/SOH NO ! OH NO ! 大数据处理实现技术 分布式储存系统GFS / HDFS2.52.5小时小时 谷歌文件系统(谷歌文件系统(谷歌文件系统(谷歌文件系统(GFSGFSGFSGFS)大数据处理实现技术 分布式储存系统GFS / HDFS分而治之分而治之大数据处理实现技术 分布式储存系统GFS / HDFS谷歌文件系统(谷歌文件系统(GFSGFS)解决方案解决方案.10G1 1分分3030秒秒100M/S大数据处理实现技术 分布式储存系统GFS / HDFS10G10G10G10G可靠性问题可靠性问题大数据处理实现技术 分布式储存系统GFS / HDFS大数据处理技术面对的大数据处理技术面对的第二个问题第二个问题99%*99%*99%*99%*99%=95%95%*95%*95%*95%*95%=76% 备份备份一份数据至少做三个备份一份数据至少做三个备份大数据处理实现技术 分布式储存系统GFS / HDFS谷歌谷歌解决方案解决方案10G10G10G10G10G10G10G10G10G10G10G10G10G10G心跳心跳(HeartBeatHeartBeat )MasterMaster(主管)(主管)Secondary Secondary mastermaster (副主管)(副主管)ClientClient(用户程序)(用户程序)读取元数据读取元数据读取数据读取数据云(云(云(云( Cloud Cloud Cloud Cloud )MasterMaster作用:作用:l l 储存元数据(数据位置信息)储存元数据(数据位置信息)l l 储存节点的日常维护储存节点的日常维护储存节点储存节点10G10G10G10G数据位置信息数据位置信息读取数据读取数据Google File SystemGoogle File System架构架构大数据处理实现技术 分布式储存系统GFS / HDFS大数据处理实现技术 分布式计算模型 MapReduce大数据处理技术面对的大数据处理技术面对的第三个问题第三个问题数据运算问题数据运算问题分布式计算(并行计算)分布式计算(并行计算)大数据处理实现技术 分布式储存系统GFS / HDFS谷歌谷歌解决方案解决方案谷歌提出谷歌提出谷歌提出谷歌提出 MAP / REDUCE MAP / REDUCE MAP / REDUCE MAP / REDUCE 模型模型模型模型大数据处理实现技术 分布式计算模型 MapReduceMMapap函数:函数:接受接受一个键值对一个键值对(key-value pairkey-value pair),),产生产生一组中间键值对一组中间键值对。mapmap 函数将中间键值对里键相同的值传递给函数将中间键值对里键相同的值传递给ReduceReduce函数。函数。R Reduceeduce函数:函数:接受接受一个键一个键,以及相关的,以及相关的一组值一组值,将这组值进行,将这组值进行合并合并产生产生一组一组 规模更小的值规模更小的值(通常只有一个或零个值)(通常只有一个或零个值)大数据处理实现技术 分布式计算模型 MapReduceKEY-VALUEKEY-VALUEKEY-VALUEKEY-VALUE(键(键(键(键- - - -值)模型值)模型值)模型值)模型键(键(KeyKey):):l l键必须是唯一的,而值并不一定是唯一的键必须是唯一的,而值并不一定是唯一的l l每个值必须与键关联,但键可以没有值每个值必须与键关联,但键可以没有值l l必须必须对键进行明确定义。他决定了计数是否区分大小写对键进行明确定义。他决定了计数是否区分大小写( (键由键由HashHash值唯一确定值唯一确定) )。键值对举例键值对举例 :l l通讯录中的姓名(通讯录中的姓名(KeyKey)和联系方式()和联系方式(ValueValue)l l计算机中各种根据文件名(计算机中各种根据文件名(KeyKey)访问各类文件,如文本、图片()访问各类文件,如文本、图片(ValueValue)l l年份(年份(KeyKey) 温度(温度(valuevalue)大数据处理实现技术 分布式计算模型 MapReduce气象站气象数据的处理(找出最高气温)气象站气象数据的处理(找出最高气温)气象站气象数据的处理(找出最高气温)气象站气象数据的处理(找出最高气温)大数据处理实现技术 分布式计算模型 MapReduceKeyKey(年份)(年份)ValueValue(温度)(温度)大数据处理实现技术 分布式计算模型 MapReduceMapReduce计算架构Map/ReduceMap/ReduceMap/ReduceMap/Reduce特点特点特点特点l l开发简单开发简单无需无需处理线程或提供精细的同步逻辑处理线程或提供精细的同步逻辑l l规模规模大大无需无需修改程序即可在任意规模机器上运行修改程序即可在任意规模机器上运行l l工作具备自动并行和分发功能工作具备自动并行和分发功能用户用户只需写好只需写好MapMap和和ReduceReduce函数即可函数即可l l高高容错容错失败失败任务在新节点任务在新节点上会重新上会重新运行运行大数据处理实现技术 分布式计算模型 MapReduceMapMapMapMap/ / / /ReduceReduceReduceReduce的局限的局限的局限的局限对迭代算法无能为力对迭代算法无能为力不是所有算法都能并行不是所有算法都能并行大数据处理实现技术 分布式计算模型 MapReduce三、大数据开源软件三、大数据开源软件HadoopHadoopHadoopHadoop简介简介谷歌技术开源实现谷歌技术开源实现GFSGFSMAPREDUCEMAPREDUCE开源实现大数据开源软件Hadoop简介HDFSHDFSMAPREDUCEMAPREDUCE20022002年年,Doug CuttingDoug Cutting从做开源从做开源Apache Apache NutchNutch引擎开始引擎开始20032003年年,DougDoug在在看到谷歌发表看到谷歌发表的的GFSGFS之后,开始开源实现之后,开始开源实现 NDFS ( NDFS ( NutchNutch D Distributed File System)istributed File System)。20042004年年, ,谷歌发表谷歌发表MapReduceMapReduce,20052005年,年,NutchNutch开发人员开源实现开发人员开源实现MapReduceMapReduce。20062006年,年,NutchNutch的的NDFSNDFS和和MapReduceMapReduce移出移出NutchNutch项目,独立形成独立项目,命项目,独立形成独立项目,命 名名HADOOPHADOOP。HadoopHadoop的得名(的得名( Doug Cutting Doug Cutting 的小孩给毛绒玩具象起的名字)的小孩给毛绒玩具象起的名字)20062006年,年, Doug CuttingDoug Cutting加入雅虎(聘请),雅虎开始资助加入雅虎(聘请),雅虎开始资助HadoopHadoop发展。发展。20082008年,年,1 1月月HadoopHadoop成为成为ApacheApache顶级项目,顶级项目,2 2月,雅虎宣布,月,雅虎宣布,HadoopHadoop应用在自应用在自 家搜素引擎中(其搜索引擎的索引建立在拥有家搜素引擎中(其搜索引擎的索引建立在拥有1 1万个内核的万个内核的HadoopHadoop集群上),集群上), 4 4月,月,HadoopHadoop在在900900个节点上运行个节点上运行1TB1TB排序测试仅需排序测试仅需209209秒,成为全球最快。秒,成为全球最快。大数据开源软件Hadoop简介Hadoop 分布式文件系统(HDFS)架构大数据开源软件Hadoop简介安装安装安装安装HadoopHadoopHadoopHadoop1.系统要求:Linux(Ubuntu/CentOS/)2.java运行环境(安装JDK)3.安装SSH4.安装Hadoop大数据开源软件Hadoop简介HADOOP启动HDFS演示大数据开源软件Hadoop简介 实例演示Hadoop云的实际操作1. 1.启动启动HDFSHDFS命令:命令:start-dfs.shstart-dfs.sh2. 2.在在eclipseeclipse中打开中打开HDFSHDFS目录(目录(eclipseeclipse需安装需安装Map/ReduceMap/Reduce插件)插件)MAP

注意事项

本文(大数据处理技术简介)为本站会员(豆浆)主动上传,金锄头文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即阅读金锄头文库的“版权提示”【网址:https://www.jinchutou.com/h-59.html】,按提示上传提交保证函及证明材料,经审查核实后我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.