好文档就是一把金锄头!
欢迎来到金锄头文库![会员中心]
电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

存储能力详细方案-参考.docx

7页
  • 卖家[上传人]:博****1
  • 文档编号:514749138
  • 上传时间:2022-09-15
  • 文档格式:DOCX
  • 文档大小:56.03KB
  • / 7 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 1.1.1.1.1.1 Hadoop存储能力详细方案Hadoop采用HDFS作为其底层文件存储方式HDFS是分布式文件系统,适合于存储大数据文件,通过将大数据文件切分成多个小数据文件,并且分散存放在多台DataNode效劳器,同时提供数据冗余机制保证数据平安本次Hadoop存储节点为:300台DataNode效劳节点存储数据平安与分配机制:采用3备份机制保证数据平安,同时为系统保存10%的临时数据交换空间,当数据量超过集群总容量的90%时,建议增加节点存储总容量:300台数据节点,每个节点36T的磁盘容量,除去10%的临时数据交换空间,同时HDFS中一份数据存放着3份备份;最终存储容量公式如下可用存储容量=节点数*单节点磁盘容量*〔1-临时数据交换空间比例〕÷HDFS文件备份数量;即:可用存储容量=300×36×〔1-10%〕÷3=3240T;目录规划:针对不同的数据用途和支撑方式进展存储容量划分,存放在HDFS中的数据分为接口层,处理层,共享层接口层主要为原始数据,处理层为存放在HDFS中数据经Hive映射之后数据,共享层为经数据深度沉淀之后存放在HBase中接口层:总容量*50%处理层:总容量*30%共享层:总容量*20%1.1.1.1.1.2 Storm存储能力详细方案Storm流数据处理采用linux文件系统作为其存储,数据盘采用raid5保证数据平安。

      存储总容量为:30台效劳器,每台36T,采用Raid5磁盘阵列之后,数据容量为原来的75%,并建议预留10%的空间;最终可用存储计算公式如下:可用存储容量=节点数*单节点磁盘容量*Raid5后的磁盘容量比例*〔1-临时数据交换空间比例〕;即:可用存储容量=30×36×75%×〔1-10%〕=729T;1.1.1.1.1.3 Redis 存储能力详细方案Redis包含平台Redis存数据库和前置Redis存数据库,平台Redis存数据库集群用于存放Storm处理后数据,对外提供低延迟数据效劳;前置Redis存数据库存放应用级数据对外提供效劳平台Redis存数据库集群:集群通过一台路由效劳器根据一套算法将表的Key值打算后分散存放到7个Redis Master效劳器中,同时每一个Master节点对应一个Slave节点保证数据平安,通过路由效劳器实现高可用存储容量为:14台数据效劳器,7个Master节点,对应7个Slave节点,每一节点存为512G,为保证KV查询的高效性,建议预留30%的空间;最终可用存储计算公式如下:可用存储容量=节点数÷热备*单节点存容量*〔1-预留空间比例〕;即:可用存储容量=14÷2×512×〔1-30%〕=2508.8G;前置Redis存数据库:前置Redis存数据库中,数据表分别分别存放在不同的节点,同时存中数据定期备份到本地和远程磁盘,通过该方式在保证了数据平安的同时针对多租户的场景实现了资源隔离。

      存储容量为:前置数据效劳器,每一节点存为512G,为保证KV查询的高效性,建议预留30%的空间,最终可用存储计算公式如下:可用存储容量=节点数÷热备*单节点存容量*〔1-预留空间比例〕;即:可用存储容量=4×512×〔1-30%〕=1433.6;1.1.1.1.1.4 Mysql 存储能力详细方案Mysql关系型数据库存储放深度汇总模型数据,支撑能力封装组件,为上层应用提供数据效劳器;其中支撑业务数据节点数为8台,管控数据节点数为2台业务数据MySql数据库:Mysql效劳器的数据存储将采用Raid5磁盘阵列划分,以满足数据平安与高可用性效劳器存储容量:8台MySql效劳器,每台24T,采用Raid5磁盘阵列,存储量变为原来的75%;最终可用存储计算公式如下:可用存储容量=节点数*单节点存储容量*Raid5后的磁盘容量比例;即:可用存储容量=8×24×75% 单位/T管控数据MySql数据库:Mysql效劳器的数据存储将采用Raid5磁盘阵列划分,以满足数据平安与高可用性效劳器存储容量:2台MySql效劳器,每台24T,采用Raid5磁盘阵列,存储量变为原来的75%;最终可用存储计算公式如下:可用存储容量=节点数*单节点存储容量*Raid5后的磁盘容量比例;即:可用存储容量=2×24×75% 单位/T大数据处理实现大数据的处理是使用Hadoop2.x体系进展处理。

      将ETL清洗后数据放入HDFS中进展存储,依靠HDFS的数据底层存储上部署MapReduce引擎,MapReduce通过把对数据集的大规模操作分发给网络上的每个节点实现可靠性;Hive是建立在 Hadoop 上的数据仓库根底构架Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进展运行,十分适合数据仓库的统计分析 Pig 是一个高级过程语言,适合于使用 Hadoop 和 MapReduce 平台来查询大型半结构化数据集通过允许对分布式数据集进展类似 SQL 的查询,简化Hadoop的使用HBase是一个分布式的、面向列的开源数据库,是一个适合于非结构化数据存储的列存数据库数据效劳〔Data Service〕大数据能力产品与应用平台既要保证部数据产品的平安性,还要满足外部平台的灵活使用,为了实现以上目标,在平台架构中引入统一的数据效劳,实现对效劳能力的统一管理和支撑,提供数据效劳的封装能力,形成统一、标准化的跨平台、跨应用的数据效劳接口,可对〔外〕部平台提供数据效劳通过效劳封装实现平台效劳能力的开放,形成如下的效劳支撑能力:q 统一外部效劳开发标准和程序调用能力平台通过对自身数据进展程序化封装,实现并对外提供标准化的SDK开发软件包,供外部平台和其他应用开发人员进展调用与接入。

      优点:此类方式具备灵活、简便,并且易于管理,数据平安可靠的优点缺点:此类效劳需要开发实现,过程较复杂适用于:RTB中DSP数据响应、精准移动营销等业务q 开放特定应用的数据查询访问能力平台通过开放一定的数据访问权限和接口,提供应某些合作伙伴的特定应用进展有限的一定围的数据访问与查询接口优点:实现方便,快速支撑缺点:数据平安级别不高适用于:数据咨询报告等产品业务q 开放应用级的程序封装接入能力平台通过对于平台数据进展某些主题级的组织和加工后,形成统一的应用支撑界面,按照模块功能授权模式为合作伙伴和外部客户提供平台的数据产品和效劳价值优点:效劳系统化,用户感知度高,数据价值显现化缺点:实现难度较大,流程复杂适用于:选址分析、可视化应用等对外产品业务q 对外提供挖掘需求的统一响应与接入效劳能力平台提供基于根底设施和数据平台的统一能力封装,为合作伙伴和外部客户的数据挖掘请求提供平台级支持和功能级响应优点:实现资源运营效劳化,对外效劳深入支撑缺点:实现难度高,需求与响应模式复杂,平台风险级别较高适用于:平台资源能力的封装产品q 提供直接的数据文件导出效劳模式能力平台针对某些对外业务效劳的特定需求,提供将平台分析结果数据进展直接文件导出,直接提供应合作伙伴或外部客户,便于其自行封装与使用。

      优点:实现简单,方案不便于管理缺点:管理不便,规程度差,数据平安级别低适用于:二次放号等数据产品业务模式q 部署前置节点对外提供数据查询效劳能力平台需满足特定区域的高速数据查询要求,所以需在查询发起地部署查询前置节点,查询前置节点实现的功能包括:定期推送标签数据给数据效劳、记录效劳使用清单,并推送回总部平台、RTB查询请求与返回优点:数据响应效率高,效劳方式灵活缺点:部署实现难度大,系统投入较大 适用于:RTB等互联网数据产品业务模式分布式ETL〔Distributed ETL〕能力平台所需的的根底数据来源于集团大数据会聚平台、外部互联网以与未来第三方合作伙伴,一是数据量巨大,二是数据类型复杂多样能力平台首先要解决的是大量结构化和非结构化数据的快速抽取、转换、加载工作为了实现上述目标,引入分布式ETL,实现计算分布式与抽取、加载分布式,可以快速清洗来源于多个系统的同构、异构多种数据,数据的导入、转换、加载完全可视化,实现快速开发部署能力,有效降低操作门槛,提升工作效率分布式ETL对于能力平台的构建提供了如下的能力支撑:q 支撑能力平台的分布式运行和多类计算任务的统一管控分布式ETL对平台所构建的分布式环境是必不可缺的支撑根底,对于各个集群上的分布式处理任务提供统一的管理,并对计算运行过程进展实时监控和异常预警,实现平台计算任务的统一工作台管理支撑。

      q 提供底层数据处理技术的统一封装与能力支撑分布式ETL提供了一套可视化的通用的数据处理组件,通过流程化的运算逻辑定义、封装和调度管理,为开发实现提供了一套高效易用的数据处理支撑框架,降低了技术人员对于底层技术的掌握门槛,便于支撑面向业务应用的快速效劳与响应数据容量估算本期工程各类数据规模如下表所示,总计原始用户数据容量约为6588TB数据分类数据类型数据容要求数据容量〔单周期原始数据量,TB〕数据容量〔15年底系统保存数据需求,TB〕备注当前15年底接口/整合层模型应用层小计网络数据移动DPI、移动AAA数据容详见《中国电信移动分组域数据信息采集设备技术要求〔发布版本)》294614264141840移动DPI清单率设为50%设备配置推算Hadoop分布式集群建议采用本地存储方式〔数据存储在各PC效劳器本地磁盘上〕,对照可参考案例,对于常规数据分析,Hadoop平台数据处理平台节点需求数主要由数据处理量需要的存储节点数量,同时考虑计算节点能力需求详细计算过程如下表所示:存储能力测算系统数据容量6558TB压缩比0.5备份数3空间冗余1.20所需存储容量=系统数据容量*压缩比*备份数*空间冗余11858.42TB存储节点需求单节点挂载存储量36TB所需存储节点数=所需存储容量/单节点挂载存储量330 台计算能力测算日增量〔G〕149923.84日数据*1024忙时集中系数0.10忙时数据量〔GB/时〕14992.38每秒数据量〔GB/秒〕4.16峰值数据量计算节点需求每台效劳器每秒入库〔Mb〕20.002C6核配置所需计算节点数=每秒数据量/每台效劳器每秒入库214台 / 。

      点击阅读更多内容
      关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
      手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
      ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.