云计算与BigData大数据数据挖掘
115页1、云计算与数据挖掘云计算与数据挖掘云计算概念与现状Google文件系统Google MapReduceGoogle Bigtable大云数据挖掘系统内 容 提 纲云计算概念与现状云计算的起源云计算发展的驱动因素云计算的定义云计算是一种商业计算模型。它 将计算任务分布在大量计算机构成的 资源池上,使各种应用系统能够根据 需要获取计算力、存储空间和信息服 务。云计算技术体系结构Google云计算关键技术Google文件系统GFS(Google File System) 并行数据处理MapReduce 结构化数据表BigTable 分布式锁管理ChubbyMapReduceMapReduceBigTableBigTableGFSGFSChubbyChubby微软的节能措施Google云计算原理分布式文件系统GFS Google File System12Google需要一个支持海量存储的文件系统 购置昂贵的分布式文件系统与硬件?Google设计GFS的动机是否可以在一堆廉价且不可靠的硬件上构建 可靠的分布式文件系统?13为什么不使用当时现存的文件系统? Google所面临的问题与众不同 不同的
2、工作负载,不同的设计优先级(廉价、不可靠的硬件 ) 需要设计与Google应用和负载相符的文件系统Google设计GFS的动机14GFS的假设与目标硬件出错是正常而非异常 系统应当由大量廉价、易损的硬件组成 必须保持文件系统整体的可靠性主要负载是流数据读写 主要用于程序处理批量数据,而非与用户的交互或随机读 写 数据写主要是“追加写”,“插入写”非常少需要存储大尺寸的文件 存储的文件尺寸可能是GB或TB量级,而且应当能支持存 储成千上万的大尺寸文件15将文件划分为若干块(Chunk)存储 每个块固定大小(64M)通过冗余来提高可靠性 每个数据块至少在3个数据块服务器上冗余 数据块损坏概率?通过单个master来协调数据访问、元数据存储 结构简单,容易保持元数据一致性无缓存 Why?GFS的设计思路16单一Master, 若干ChunkServerGFS的架构GFS的架构有什么问题吗 ?1718分布式系统设计告诉我们: 这是单点故障 这是性能瓶颈GFS的解决办法 单点故障问题单一Master问题采用多个(如3个)影子Master节点进行热备,一 旦主节点损坏,立刻选举一个新的主节点服务1
3、9GFS的解决办法 性能瓶颈问题单一Master问题尽可能减少数据存取中Master的参与程度不使用Master读取数据,仅用于保存元数据客户端缓存元数据采用大尺寸的数据块(64M)数据修改顺序交由Primary Chunk Server完成Simple, and good enough!20存储元数据文件系统目录管理与加锁与ChunkServer进行周期性通信 发送指令,搜集状态,跟踪数据块的完好性数据块创建、复制及负载均衡 对ChunkServer的空间使用和访问速度进行负载均衡,平 滑数据存储和访问请求的负载 对数据块进行复制、分散到ChunkServer上 一旦数据块冗余数小于最低数,就发起复制操作Master节点的任务21垃圾回收 在日志中记录删除操作,并将文件改名隐藏 缓慢地回收隐藏文件 与传统文件删除相比更简单、更安全陈旧数据块删除 探测陈旧的数据块,并删除Master节点的任务22采用中心服务器模式 可以方便地增加Chunk Server Master掌握系统内所有Chunk Server的情况,方便进行 负载均衡 不存在元数据的一致性问题GFS架构的特点23不缓存数据
4、 GFS的文件操作大部分是流式读写,不存在大量的重复读 写,使用Cache对性能提高不大 Chunk Server上的数据存取使用本地文件系统,如果某 个Chunk读取频繁,文件系统具有Cache 从可行性看,Cache与实际数据的一致性维护也极其复杂GFS架构的特点?24在用户态下实现 直接利用Chunk Server的文件系统存取Chunk,实现简 单 用户态应用调试较为简单,利于开发 用户态的GFS不会影响Chunk Server的稳定性提供专用的访问接口 未提供标准的POSIX访问接口 降低GFS的实现复杂度GFS架构的特点25GFS的容错方法GFS的容错机制 Chunk Server容错 每个Chunk有多个存储副本(通常是3个),分别存储于不通 的服务器上 每个Chunk又划分为若干Block(64KB),每个Block对应一 个32bit的校验码,保证数据正确(若某个Block错误,则转 移至其他Chunk副本)26GFS的性能27Google云计算原理并行数据处理模型MapReduce摩尔定律 集成电路芯片上所集成的电路的数目, 每隔18个月就翻一番,同时性能也提升 一
《云计算与BigData大数据数据挖掘》由会员n****分享,可在线阅读,更多相关《云计算与BigData大数据数据挖掘》请在金锄头文库上搜索。
项目二财务管理价值观念
山东省安全生产风险分级管控与隐患排查治理信息化系统交流材料-2018.9.26
人教版高中地理必修3第一章地理环境与区域发展第二节《地理信息技术在区域地理环境研究中的应用》
第三章2房地产抵押贷款-固定利率抵押贷款
第八章工程质量法律制度
第25讲家庭电路与安全用电
餐厅点餐系统项目
项目7水箱水位控制
框架完整个人年度工作总结范文模板
科目名称-国土交通省
金融工程09课件
高校自主招生之结构化面试
房地产私募股权投资基金(PE)专题研究.
房地产基础知识培训2012
第一章食品检测技术基础知识
第10章网站设计与建设综合实例
第5章尝试迷人的机器人项目机器人灭火项目
自考英语二unit3
企业人力资源管理师第六章劳动法与劳动关系管理
第三章市场营销宏观环境分析
2023-11-20 52页
2023-09-09 54页
2023-09-09 98页
2023-09-09 101页
2023-09-09 95页
2023-09-09 127页
2023-09-09 59页
2023-09-09 50页
2023-09-09 139页
2023-09-09 131页