好文档就是一把金锄头！

电子文档交易市场

安卓APP | ios版本

电子文档交易市场

安卓APP | ios版本

您所在位置：网站首页 > 机械/制造/汽车 > 汽车技术分布式数据库HBase

分布式数据库HBase

7页

卖家[上传人]：公****

文档编号：469719568

上传时间：2023-04-29

文档格式：DOC

文档大小：241.01KB

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

15 金贝

/ 7 举报版权申诉马上下载

文本预览

下载提示

1、HBase概念HBase Hadoop Database，是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。HBase是Google Bigtable的开源实现，类似Google Bigtable利用GFS作为其文件存储系统，HBase利用Hadoop HDFS作为其文件存储系统；Google运行MapReduce来处理Bigtable中的海量数据，HBase同样利用Hadoop MapReduce来处理HBase中的海量数据；Google Bigtable利用 Chubby作为协同服务，HBase利用Zookeeper作为对应。上图描述了Hadoop EcoSystem中的各层系统，其中HBase位于结构化存储层，Hadoop HDFS为HBase提供了高可靠性的底层存储支持，Hadoop MapReduce为HBase提供了高性能的计算能力，Zookeeper为HBase提供了稳定服务和failover机制。此外，Pig和Hive还为HBase提供了高层语言支持，使得在HBase上进行数据统计处理变的非

2、常简单。 Sqoop则为HBase提供了方便的RDBMS数据导入功能，使得传统数据库数据向HBase中迁移变的非常方便。HBase访问接口1. Native Java API，最常规和高效的访问方式，适合Hadoop MapReduce Job并行批处理HBase表数据2. HBase Shell，HBase的命令行工具，最简单的接口，适合HBase管理使用3. Thrift Gateway，利用Thrift序列化技术，支持C+，PHP，Python等多种语言，适合其他异构系统在线访问HBase表数据4. REST Gateway，支持REST 风格的Http API访问HBase, 解除了语言限制5. Pig，可以使用Pig Latin流式编程语言来操作HBase中的数据，和Hive类似，本质最终也是编译成MapReduce Job来处理HBase表数据，适合做数据统计6. Hive，当前Hive的Release版本尚没有加入对HBase的支持，但在下一个版本Hive 0.7.0中将会支持HBase，可以使用类似SQL语言来访问HBaseHBase数据模型Table & Column

3、 FamilyRow KeyTimestampColumn FamilyURIParserr1t3title=天天特价t2host=t1r2t5content=每天t4host=Row Key: 行键，Table的主键，Table中的记录按照Row Key排序Timestamp: 时间戳，每次数据操作对应的时间戳，可以看作是数据的version numberColumn Family：列簇，Table在水平方向有一个或者多个Column Family组成，一个Column Family中可以由任意多个Column组成，即Column Family支持动态扩展，无需预先定义Column的数量以及类型，所有Column均以二进制格式存储，用户需要自行进行类型转换。Table & Region当Table随着记录数不断增加而变大后，会逐渐分裂成多份splits，成为regions，一个region由startkey,endkey)表示，不同的region会被Master分配给相应的RegionServer进行管理：-ROOT- & .META. TableHBase中有两张特殊的Table，

4、-ROOT-和.META. .META.：记录了用户表的Region信息，.META.可以有多个regoin -ROOT-：记录了.META.表的Region信息，-ROOT-只有一个region Zookeeper中记录了-ROOT-表的locationClient访问用户数据之前需要首先访问zookeeper，然后访问-ROOT-表，接着访问.META.表，最后才能找到用户数据的位置去访问，中间需要多次网络操作，不过client端会做cache缓存。MapReduce on HBase在HBase系统上运行批处理运算，最方便和实用的模型依然是MapReduce，如下图：HBase Table和Region的关系，比较类似HDFS File和Block的关系，HBase提供了配套的TableInputFormat和TableOutputFormat API，可以方便的将HBase Table作为Hadoop MapReduce的Source和Sink，对于MapReduce Job应用开发人员来说，基本不需要关注HBase系统自身的细节。HBase系统架构ClientHBase Cl

5、ient使用HBase的RPC机制与HMaster和HRegionServer进行通信，对于管理类操作，Client与HMaster进行RPC；对于数据读写类操作，Client与HRegionServer进行RPCZookeeperZookeeper Quorum中除了存储了-ROOT-表的地址和HMaster的地址，HRegionServer也会把自己以Ephemeral方式注册到 Zookeeper中，使得HMaster可以随时感知到各个HRegionServer的健康状态。此外，Zookeeper也避免了HMaster的单点问题，见下文描述HMasterHMaster没有单点问题，HBase中可以启动多个HMaster，通过Zookeeper的Master Election机制保证总有一个Master运行，HMaster在功能上主要负责Table和Region的管理工作：1. 管理用户对Table的增、删、改、查操作2. 管理HRegionServer的负载均衡，调整Region分布3. 在Region Split后，负责新Region的分配4. 在HRegionServer停

6、机后，负责失效HRegionServer 上的Regions迁移HRegionServerHRegionServer主要负责响应用户I/O请求，向HDFS文件系统中读写数据，是HBase中最核心的模块。 HRegionServer内部管理了一系列HRegion对象，每个HRegion对应了Table中的一个Region，HRegion中由多个HStore组成。每个HStore对应了Table中的一个Column Family的存储，可以看出每个Column Family其实就是一个集中的存储单元，因此最好将具备共同IO特性的column放在一个Column Family中，这样最高效。 HStore存储是HBase存储的核心了，其中由两部分组成，一部分是MemStore，一部分是StoreFiles。MemStore是 Sorted Memory Buffer，用户写入的数据首先会放入MemStore，当MemStore满了以后会Flush成一个StoreFile（底层实现是HFile），当StoreFile文件数量增长到一定阈值，会触发Compact合并操作，将多个StoreFi

7、les合并成一个StoreFile，合并过程中会进行版本合并和数据删除，因此可以看出HBase其实只有增加数据，所有的更新和删除操作都是在后续的compact过程中进行的，这使得用户的写操作只要进入内存中就可以立即返回，保证了HBase I/O的高性能。当StoreFiles Compact后，会逐步形成越来越大的StoreFile，当单个StoreFile大小超过一定阈值后，会触发Split操作，同时把当前 Region Split成2个Region，父Region会下线，新Split出的2个孩子Region会被HMaster分配到相应的HRegionServer 上，使得原先1个Region的压力得以分流到2个Region上。下图描述了Compaction和Split的过程：在理解了上述HStore的基本原理后，还必须了解一下HLog的功能，因为上述的HStore在系统正常工作的前提下是没有问题的，但是在分布式系统环境中，无法避免系统出错或者宕机，因此一旦HRegionServer意外退出，MemStore中的内存数据将会丢失，这就需要引入HLog了。每个HRegionSe

8、rver中都有一个HLog对象，HLog是一个实现Write Ahead Log的类，在每次用户操作写入MemStore的同时，也会写一份数据到HLog文件中（HLog文件格式见后续），HLog文件定期会滚动出新的，并删除旧的文件（已持久化到StoreFile中的数据）。当HRegionServer意外终止后，HMaster会通过Zookeeper感知到，HMaster首先会处理遗留的 HLog文件，将其中不同Region的Log数据进行拆分，分别放到相应region的目录下，然后再将失效的region重新分配，领取到这些region的HRegionServer在Load Region的过程中，会发现有历史HLog需要处理，因此会Replay HLog中的数据到MemStore中，然后flush到StoreFiles，完成数据恢复。HBase存储格式HBase中的所有数据文件都存储在Hadoop HDFS文件系统上，主要包括上述提出的两种文件类型：1. HFile， HBase中KeyValue数据的存储格式，HFile是Hadoop的二进制格式文件，实际上StoreFile就是

9、对HFile做了轻量级包装，即StoreFile底层就是HFile2. HLog File，HBase中WAL（Write Ahead Log）的存储格式，物理上是Hadoop的Sequence FileHFile下图是HFile的存储格式：首先HFile文件是不定长的，长度固定的只有其中的两块：Trailer和FileInfo。正如图中所示的，Trailer中有指针指向其他数据块的起始点。File Info中记录了文件的一些Meta信息，例如：AVG_KEY_LEN, AVG_VALUE_LEN, LAST_KEY, COMPARATOR, MAX_SEQ_ID_KEY等。Data Index和Meta Index块记录了每个Data块和Meta块的起始点。 Data Block是HBase I/O的基本单元，为了提高效率，HRegionServer中有基于LRU的Block Cache机制。每个Data块的大小可以在创建一个Table的时候通过参数指定，大号的Block有利于顺序Scan，小号Block利于随机查询。每个Data块除了开头的Magic以外就是一个个KeyValue对拼接而成, Magic内容就是一些随机数字，目的是防止数据损坏。后面会详细介绍每个KeyValue对的内部构造。 HFile里面的每个KeyValue对就是一个简单的byte数组。但是这个byte数组里面包含了很多项，并且有固定的结构。我们来看看里面的具体结构：开始是两个固定长度的数值，分别表示Key的长度和Value的长度。紧接着是Key，开始是固定长度的数值，表示RowKey的长度，紧接着是 RowKey，然后是固定长度的数值，表示Family的长度，然后是Family，接

《分布式数据库HBase》由会员公****分享，可在线阅读，更多相关《分布式数据库HBase》请在金锄头文库上搜索。

点击阅读更多内容

TA的资源

三年级上学期班级读书总结

三年级上学期班级读书总结

异麦芽酮糖项目申请报告写作参考模板

异麦芽酮糖项目申请报告写作参考模板

立体仓库需求书范本

立体仓库需求书范本

施工现场成本控制计划

施工现场成本控制计划

好用的租赁合同模板7篇

好用的租赁合同模板7篇

物理实验探究专题14_滑轮组机械效率

物理实验探究专题14_滑轮组机械效率

内墙饰面砖粘贴工程

内墙饰面砖粘贴工程

六年级毕业试题(一)

六年级毕业试题(一)

绿规考试内容

绿规考试内容

2023年生产专员岗位职责 15篇

2023年生产专员岗位职责 15篇

砂采石场生产安全事故应急处置预案

砂采石场生产安全事故应急处置预案

旅游局十一黄金周工作总结经典范文

旅游局十一黄金周工作总结经典范文

四月份主题活动实施方案

四月份主题活动实施方案

2022期末考试没考好反思检讨书6篇

2022期末考试没考好反思检讨书6篇

卫生间洁具安装施工工艺

卫生间洁具安装施工工艺

19生物入侵者学

19生物入侵者学

四年级四则混合运算练习题

四年级四则混合运算练习题

2015年小针车间GMP自检计划

2015年小针车间GMP自检计划

（精品模板）2022房屋租赁合同模板汇总9篇

（精品模板）2022房屋租赁合同模板汇总9篇

饮料罐装生产流水线的PLC控制

饮料罐装生产流水线的PLC控制

点击查看更多

新上传的WORD文档

塔吊基础施工方案83259 食品药品安全优秀工作总结十篇药店店员培训消化系统疾病常用药物好用的贷款承诺书汇总8篇精品资料（2021-2022年收藏的）电子商务技师鉴定理论垃圾分类工作计划. 精心设计练习--提高课堂效率工作总结年终个人工作总结作文军训感言700字精品资料2022年收藏江西省交通建设工程现场检测和工程材料试验收费项目及标准立体仓库需求书范本巡察座谈会谈话提纲社会服务基地活动记录公司职代会职工代表选举方案（草案）.doc 2023年甘肃注册会计师（CPA）考试模拟卷

最新标签

监控施工信息化课堂中的合作学习结业作业七年级语文发车时刻表长途客运入党志愿书填写模板精品庆祝建党101周年多体裁诗歌朗诵素材汇编10篇唯一微庆祝智能家居系统本科论文心得感悟雁楠中学 20230513224122 2022 公安主题党日部编版四年级第三单元综合性学习课件机关事务中心2022年全面依法治区工作总结及来年工作安排入党积极分子自我推荐世界水日ppt 关于构建更高水平的全民健身公共服务体系的意见空气单元分析哈里德课件 2022年乡村振兴驻村工作计划空气教材分析五年级下册科学教材分析退役军人事务局季度工作总结集装箱房合同 2021年财务报表 2022年继续教育公需课 2022年公需课 2022年日历每月一张名词性从句在写作中的应用局域网技术与局域网组建施工网格薪资体系运维实施方案硫酸安全技术柔韧训练既有居住建筑节能改造技术规程建筑工地疫情防控大型工程技术风险磷酸二氢钾 2022年小学三年级语文下册教学总结例文少儿美术-小花 2022年环保倡议书模板六篇 2022年监理辞职报告精选 2022年畅想未来记叙文精品企业信息化建设与管理课程实验指导书范本草房子读后感-第1篇小数乘整数教学PPT课件人教版五年级数学上册 2022年教师个人工作计划范本-工作计划国学小名士经典诵读电视大赛观后感诵读经典传承美德医疗质量管理制度 2

收藏店铺

相关文档更多>

电子硬盘(DOM盘)和固态硬盘(SSD盘)

电子硬盘(DOM盘)和固态硬盘(SSD盘)

2023-03-28 2页

机械原理第一次作业

机械原理第一次作业

2024-02-15 3页

无线传感器网络研究现状与应用

无线传感器网络研究现状与应用

2023-06-15 5页

欧盟ERP能效要求-增加网络待机功率要求

欧盟ERP能效要求-增加网络待机功率要求

2022-10-30 3页

循环水浓缩倍率提高系统终稿

循环水浓缩倍率提高系统终稿

2022-11-19 7页

机械运动基础知识复习

机械运动基础知识复习

2023-07-04 3页

给水用UPVC管道系统的连接方式

给水用UPVC管道系统的连接方式

2023-09-07 2页

ASPEN详细算例之《化工过程数学模型与计算机模拟》

ASPEN详细算例之《化工过程数学模型与计算机模拟》

2023-12-15 26页

万能型电视遥控器代码表

万能型电视遥控器代码表

2022-11-29 17页

计算机控制系统原理框图

计算机控制系统原理框图

2023-07-31 8页

最近下载

印刷知识及出菲林的问题

印刷知识及出菲林的问题

YCT三级试卷(打印版)

YCT三级试卷(打印版)

本科计算机毕业论文设计附代码完整版

本科计算机毕业论文设计附代码完整版

机械制图实训指导

机械制图实训指导

高一数学组尖子生培养计划(修改)

高一数学组尖子生培养计划(修改)

（冀教版）五年级数学下册教案分数除法应用问题

（冀教版）五年级数学下册教案分数除法应用问题

菲林输出的常见问题

菲林输出的常见问题

《信号与系统》西安电子科技大学（陈生潭）版课后答案

《信号与系统》西安电子科技大学（陈生潭）版课后答案

西安交大射频专题实验报告

西安交大射频专题实验报告

装配图习题

装配图习题

中班幼儿分享行为的培养策略研究资料

中班幼儿分享行为的培养策略研究资料

烟台大学 PPT模板

烟台大学 PPT模板

关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们

手机版 | 川公网安备 51140202000112号 | 经营许可证（蜀ICP备13022795号）
©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.