电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

大数据处理技术简介

52页
  • 卖家[上传人]:豆浆
  • 文档编号:48365896
  • 上传时间:2018-07-14
  • 文档格式:PPTX
  • 文档大小:6.43MB
  • / 52 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 1、大数据处理技术简介大数据处理技术简介三、大数据开源软件HadoopHadoopHadoopHadoop简介二、大数据处理实现技术一、大数据背景目 录1. Hadoop 简介2. 实例演示1. 定义2. 数据的来源1. 分布式储存系统(GFS / HDFS)2. 分布式计算模型(MapReduce)一、大数据背景一、大数据背景我们正处在信息爆炸的年代我们正处在信息爆炸的年代2000年 数字数据只占全球数据量的1/42007年 所有数据中只有7%是存储在报纸、书籍、图片等媒介上的模拟数据,其余93%全是数字数据(二进制数据)Google 单日数据处理量超过 24 PBFacebook 单日照片更新量超过 1千万张淘宝网 单日数据产生量超过 5万 GB大数据背景 定义大大数据定义数据定义“大数据”是指一个数据集(Datasets),它的尺寸大到已经无法由传统的数据库软件去采集、储存、管理和分析。大数据背景 定义数据的分类数据的分类l l结构化数据:结构化数据:行数据,存储在数据库里,可以用二维表结构来逻辑表达实现的数据。例如:二维表l l半结构化数据:半结构化数据:自描述,数据结构和内容混杂

      2、在一起的数据。例如: XML、HTML等。l l非结构化数据:非结构化数据:除去以上两种类型例如:音视频、图片等。大数据背景 定义20002000年以后非结构化数据占绝大部分年以后非结构化数据占绝大部分大数据背景 数据的来源从非结构化数据到结构化数据从非结构化数据到结构化数据非非非非结结结结 构化数构化数构化数构化数 据据据据行行行行业业业业 技技技技术术术术结结结结构化构化构化构化 半半半半结结结结构构构构 化数据化数据化数据化数据视频、音视频、音 频识别技频识别技 术等术等大数据背景 数据的来源网页爬虫网页爬虫视频识别视频识别语音识别语音识别 等等大数据背景 数据的来源传统关系数据库,如传统关系数据库,如:OracleOracle、MYSQLMYSQLl无法储存几亿行长,几百万行宽的表格,巨大的数据直接导致数据库崩溃l半结构化数据和脏数据将会导致出错(类型不严格)传统方法失效传统方法失效 !如何解决?如何解决?大数据处理技术的解决办法:大数据处理技术的解决办法:存成文件(存成文件(FILE SYSTEMFILE SYSTEM)大数据背景 数据的来源某搜索引擎搜索日志某搜索引擎搜索日

      3、志大数据背景 数据的来源二、大数据处理实现技术二、大数据处理实现技术大数据处理技术面对的大数据处理技术面对的第一个问题第一个问题如何高效存储大规模文件?如何高效存储大规模文件?大数据处理实现技术 分布式储存系统GFS / HDFS数据数据读取问题读取问题1 T1 T100M100M/S/SOH NO ! OH NO ! 大数据处理实现技术 分布式储存系统GFS / HDFS2.52.5小时小时 谷歌文件系统(谷歌文件系统(谷歌文件系统(谷歌文件系统(GFSGFSGFSGFS)大数据处理实现技术 分布式储存系统GFS / HDFS分而治之分而治之大数据处理实现技术 分布式储存系统GFS / HDFS谷歌文件系统(谷歌文件系统(GFSGFS)解决方案解决方案.10G1 1分分3030秒秒100M/S大数据处理实现技术 分布式储存系统GFS / HDFS10G10G10G10G可靠性问题可靠性问题大数据处理实现技术 分布式储存系统GFS / HDFS大数据处理技术面对的大数据处理技术面对的第二个问题第二个问题99%*99%*99%*99%*99%=95%95%*95%*95%*95%*95%

      4、=76% 备份备份一份数据至少做三个备份一份数据至少做三个备份大数据处理实现技术 分布式储存系统GFS / HDFS谷歌谷歌解决方案解决方案10G10G10G10G10G10G10G10G10G10G10G10G10G10G心跳心跳(HeartBeatHeartBeat )MasterMaster(主管)(主管)Secondary Secondary mastermaster (副主管)(副主管)ClientClient(用户程序)(用户程序)读取元数据读取元数据读取数据读取数据云(云(云(云( Cloud Cloud Cloud Cloud )MasterMaster作用:作用:l l 储存元数据(数据位置信息)储存元数据(数据位置信息)l l 储存节点的日常维护储存节点的日常维护储存节点储存节点10G10G10G10G数据位置信息数据位置信息读取数据读取数据Google File SystemGoogle File System架构架构大数据处理实现技术 分布式储存系统GFS / HDFS大数据处理实现技术 分布式计算模型 MapReduce大数据处理技术面对的大数据处理技术面对的

      5、第三个问题第三个问题数据运算问题数据运算问题分布式计算(并行计算)分布式计算(并行计算)大数据处理实现技术 分布式储存系统GFS / HDFS谷歌谷歌解决方案解决方案谷歌提出谷歌提出谷歌提出谷歌提出 MAP / REDUCE MAP / REDUCE MAP / REDUCE MAP / REDUCE 模型模型模型模型大数据处理实现技术 分布式计算模型 MapReduceMMapap函数:函数:接受接受一个键值对一个键值对(key-value pairkey-value pair),),产生产生一组中间键值对一组中间键值对。mapmap 函数将中间键值对里键相同的值传递给函数将中间键值对里键相同的值传递给ReduceReduce函数。函数。R Reduceeduce函数:函数:接受接受一个键一个键,以及相关的,以及相关的一组值一组值,将这组值进行,将这组值进行合并合并产生产生一组一组 规模更小的值规模更小的值(通常只有一个或零个值)(通常只有一个或零个值)大数据处理实现技术 分布式计算模型 MapReduceKEY-VALUEKEY-VALUEKEY-VALUEKEY-VALUE(键(

      6、键(键(键- - - -值)模型值)模型值)模型值)模型键(键(KeyKey):):l l键必须是唯一的,而值并不一定是唯一的键必须是唯一的,而值并不一定是唯一的l l每个值必须与键关联,但键可以没有值每个值必须与键关联,但键可以没有值l l必须必须对键进行明确定义。他决定了计数是否区分大小写对键进行明确定义。他决定了计数是否区分大小写( (键由键由HashHash值唯一确定值唯一确定) )。键值对举例键值对举例 :l l通讯录中的姓名(通讯录中的姓名(KeyKey)和联系方式()和联系方式(ValueValue)l l计算机中各种根据文件名(计算机中各种根据文件名(KeyKey)访问各类文件,如文本、图片()访问各类文件,如文本、图片(ValueValue)l l年份(年份(KeyKey) 温度(温度(valuevalue)大数据处理实现技术 分布式计算模型 MapReduce气象站气象数据的处理(找出最高气温)气象站气象数据的处理(找出最高气温)气象站气象数据的处理(找出最高气温)气象站气象数据的处理(找出最高气温)大数据处理实现技术 分布式计算模型 MapReduceKeyKey

      7、(年份)(年份)ValueValue(温度)(温度)大数据处理实现技术 分布式计算模型 MapReduceMapReduce计算架构Map/ReduceMap/ReduceMap/ReduceMap/Reduce特点特点特点特点l l开发简单开发简单无需无需处理线程或提供精细的同步逻辑处理线程或提供精细的同步逻辑l l规模规模大大无需无需修改程序即可在任意规模机器上运行修改程序即可在任意规模机器上运行l l工作具备自动并行和分发功能工作具备自动并行和分发功能用户用户只需写好只需写好MapMap和和ReduceReduce函数即可函数即可l l高高容错容错失败失败任务在新节点任务在新节点上会重新上会重新运行运行大数据处理实现技术 分布式计算模型 MapReduceMapMapMapMap/ / / /ReduceReduceReduceReduce的局限的局限的局限的局限对迭代算法无能为力对迭代算法无能为力不是所有算法都能并行不是所有算法都能并行大数据处理实现技术 分布式计算模型 MapReduce三、大数据开源软件三、大数据开源软件HadoopHadoopHadoopHadoop简介简

      8、介谷歌技术开源实现谷歌技术开源实现GFSGFSMAPREDUCEMAPREDUCE开源实现大数据开源软件Hadoop简介HDFSHDFSMAPREDUCEMAPREDUCE20022002年年,Doug CuttingDoug Cutting从做开源从做开源Apache Apache NutchNutch引擎开始引擎开始20032003年年,DougDoug在在看到谷歌发表看到谷歌发表的的GFSGFS之后,开始开源实现之后,开始开源实现 NDFS ( NDFS ( NutchNutch D Distributed File System)istributed File System)。20042004年年, ,谷歌发表谷歌发表MapReduceMapReduce,20052005年,年,NutchNutch开发人员开源实现开发人员开源实现MapReduceMapReduce。20062006年,年,NutchNutch的的NDFSNDFS和和MapReduceMapReduce移出移出NutchNutch项目,独立形成独立项目,命项目,独立形成独立项目,命 名名HADOOPHADOOP

      9、。HadoopHadoop的得名(的得名( Doug Cutting Doug Cutting 的小孩给毛绒玩具象起的名字)的小孩给毛绒玩具象起的名字)20062006年,年, Doug CuttingDoug Cutting加入雅虎(聘请),雅虎开始资助加入雅虎(聘请),雅虎开始资助HadoopHadoop发展。发展。20082008年,年,1 1月月HadoopHadoop成为成为ApacheApache顶级项目,顶级项目,2 2月,雅虎宣布,月,雅虎宣布,HadoopHadoop应用在自应用在自 家搜素引擎中(其搜索引擎的索引建立在拥有家搜素引擎中(其搜索引擎的索引建立在拥有1 1万个内核的万个内核的HadoopHadoop集群上),集群上), 4 4月,月,HadoopHadoop在在900900个节点上运行个节点上运行1TB1TB排序测试仅需排序测试仅需209209秒,成为全球最快。秒,成为全球最快。大数据开源软件Hadoop简介Hadoop 分布式文件系统(HDFS)架构大数据开源软件Hadoop简介安装安装安装安装HadoopHadoopHadoopHadoop1.系统要求:Linux(Ubuntu/CentOS/)2.java运行环境(安装JDK)3.安装SSH4.安装Hadoop大数据开源软件Hadoop简介HADOOP启动HDFS演示大数据开源软件Hadoop简介 实例演示Hadoop云的实际操作1. 1.启动启动HDFSHDFS命令:命令:start-dfs.shstart-dfs.sh2. 2.在在eclipseeclipse中打开中打开HDFSHDFS目录(目录(eclipseeclipse需安装需安装Map/ReduceMap/Reduce插件)插件)MAP

      《大数据处理技术简介》由会员豆浆分享,可在线阅读,更多相关《大数据处理技术简介》请在金锄头文库上搜索。

      点击阅读更多内容
    最新标签
    信息化课堂中的合作学习结业作业七年级语文 发车时刻表 长途客运 入党志愿书填写模板精品 庆祝建党101周年多体裁诗歌朗诵素材汇编10篇唯一微庆祝 智能家居系统本科论文 心得感悟 雁楠中学 20230513224122 2022 公安主题党日 部编版四年级第三单元综合性学习课件 机关事务中心2022年全面依法治区工作总结及来年工作安排 入党积极分子自我推荐 世界水日ppt 关于构建更高水平的全民健身公共服务体系的意见 空气单元分析 哈里德课件 2022年乡村振兴驻村工作计划 空气教材分析 五年级下册科学教材分析 退役军人事务局季度工作总结 集装箱房合同 2021年财务报表 2022年继续教育公需课 2022年公需课 2022年日历每月一张 名词性从句在写作中的应用 局域网技术与局域网组建 施工网格 薪资体系 运维实施方案 硫酸安全技术 柔韧训练 既有居住建筑节能改造技术规程 建筑工地疫情防控 大型工程技术风险 磷酸二氢钾 2022年小学三年级语文下册教学总结例文 少儿美术-小花 2022年环保倡议书模板六篇 2022年监理辞职报告精选 2022年畅想未来记叙文精品 企业信息化建设与管理课程实验指导书范本 草房子读后感-第1篇 小数乘整数教学PPT课件人教版五年级数学上册 2022年教师个人工作计划范本-工作计划 国学小名士经典诵读电视大赛观后感诵读经典传承美德 医疗质量管理制度 2 2022年小学体育教师学期工作总结
    关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
    手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
    ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.