大数据处理技术简介
52页1、大数据处理技术简介大数据处理技术简介三、大数据开源软件HadoopHadoopHadoopHadoop简介二、大数据处理实现技术一、大数据背景目 录1. Hadoop 简介2. 实例演示1. 定义2. 数据的来源1. 分布式储存系统(GFS / HDFS)2. 分布式计算模型(MapReduce)一、大数据背景一、大数据背景我们正处在信息爆炸的年代我们正处在信息爆炸的年代2000年 数字数据只占全球数据量的1/42007年 所有数据中只有7%是存储在报纸、书籍、图片等媒介上的模拟数据,其余93%全是数字数据(二进制数据)Google 单日数据处理量超过 24 PBFacebook 单日照片更新量超过 1千万张淘宝网 单日数据产生量超过 5万 GB大数据背景 定义大大数据定义数据定义“大数据”是指一个数据集(Datasets),它的尺寸大到已经无法由传统的数据库软件去采集、储存、管理和分析。大数据背景 定义数据的分类数据的分类l l结构化数据:结构化数据:行数据,存储在数据库里,可以用二维表结构来逻辑表达实现的数据。例如:二维表l l半结构化数据:半结构化数据:自描述,数据结构和内容混杂
2、在一起的数据。例如: XML、HTML等。l l非结构化数据:非结构化数据:除去以上两种类型例如:音视频、图片等。大数据背景 定义20002000年以后非结构化数据占绝大部分年以后非结构化数据占绝大部分大数据背景 数据的来源从非结构化数据到结构化数据从非结构化数据到结构化数据非非非非结结结结 构化数构化数构化数构化数 据据据据行行行行业业业业 技技技技术术术术结结结结构化构化构化构化 半半半半结结结结构构构构 化数据化数据化数据化数据视频、音视频、音 频识别技频识别技 术等术等大数据背景 数据的来源网页爬虫网页爬虫视频识别视频识别语音识别语音识别 等等大数据背景 数据的来源传统关系数据库,如传统关系数据库,如:OracleOracle、MYSQLMYSQLl无法储存几亿行长,几百万行宽的表格,巨大的数据直接导致数据库崩溃l半结构化数据和脏数据将会导致出错(类型不严格)传统方法失效传统方法失效 !如何解决?如何解决?大数据处理技术的解决办法:大数据处理技术的解决办法:存成文件(存成文件(FILE SYSTEMFILE SYSTEM)大数据背景 数据的来源某搜索引擎搜索日志某搜索引擎搜索日
3、志大数据背景 数据的来源二、大数据处理实现技术二、大数据处理实现技术大数据处理技术面对的大数据处理技术面对的第一个问题第一个问题如何高效存储大规模文件?如何高效存储大规模文件?大数据处理实现技术 分布式储存系统GFS / HDFS数据数据读取问题读取问题1 T1 T100M100M/S/SOH NO ! OH NO ! 大数据处理实现技术 分布式储存系统GFS / HDFS2.52.5小时小时 谷歌文件系统(谷歌文件系统(谷歌文件系统(谷歌文件系统(GFSGFSGFSGFS)大数据处理实现技术 分布式储存系统GFS / HDFS分而治之分而治之大数据处理实现技术 分布式储存系统GFS / HDFS谷歌文件系统(谷歌文件系统(GFSGFS)解决方案解决方案.10G1 1分分3030秒秒100M/S大数据处理实现技术 分布式储存系统GFS / HDFS10G10G10G10G可靠性问题可靠性问题大数据处理实现技术 分布式储存系统GFS / HDFS大数据处理技术面对的大数据处理技术面对的第二个问题第二个问题99%*99%*99%*99%*99%=95%95%*95%*95%*95%*95%
4、=76% 备份备份一份数据至少做三个备份一份数据至少做三个备份大数据处理实现技术 分布式储存系统GFS / HDFS谷歌谷歌解决方案解决方案10G10G10G10G10G10G10G10G10G10G10G10G10G10G心跳心跳(HeartBeatHeartBeat )MasterMaster(主管)(主管)Secondary Secondary mastermaster (副主管)(副主管)ClientClient(用户程序)(用户程序)读取元数据读取元数据读取数据读取数据云(云(云(云( Cloud Cloud Cloud Cloud )MasterMaster作用:作用:l l 储存元数据(数据位置信息)储存元数据(数据位置信息)l l 储存节点的日常维护储存节点的日常维护储存节点储存节点10G10G10G10G数据位置信息数据位置信息读取数据读取数据Google File SystemGoogle File System架构架构大数据处理实现技术 分布式储存系统GFS / HDFS大数据处理实现技术 分布式计算模型 MapReduce大数据处理技术面对的大数据处理技术面对的
《大数据处理技术简介》由会员豆浆分享,可在线阅读,更多相关《大数据处理技术简介》请在金锄头文库上搜索。
小学数学开学第一课05223
大学英语 第一课
外科学第9版第57章运动系统畸形上
外研版六年级上Collecting stamps is my hobby ppt
四上语文始业教育
华东师大版八年级数学上册12.1.1同底数幂的乘法
北师大版数学七年级上册数轴课件
北师大版六年级上《扇形统计图》ppt
初等数学研究(第一讲)
初中英语开学第一课99495
初中地理开学第一课05818
初中化学绪言课件199643
初一上-画画你我他美术课件111
冀教版小学英语三年级上册第五课 课件
信息技术开学第一课(常规)05930
人教版高中英语必修一UNIT2Reading课件
九年级第1期英语周报(GZ)参考答案
二年级上册第一课《小蝌蚪找妈妈》(部编版)98317
中职英语开学第一课
中国美术简史之元代
2024-04-08 20页
2024-04-06 36页
2024-02-09 36页
2024-01-31 31页
2024-01-28 18页
2024-01-28 31页
2024-01-28 24页
2024-01-28 27页
2024-01-28 24页
2024-01-28 25页