您所在位置：网站首页 > 机械/制造/汽车 > 电气技术大数据平台概要设计说明书

大数据平台概要设计说明书

32页

卖家[上传人]：桔****

文档编号：471614894

上传时间：2023-09-04

文档格式：DOCX

文档大小：526.99KB

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

20 金贝

/ 32 举报版权申诉马上下载

文本预览

下载提示

常见问题

1、计算平台概要设计说明书文件编号受控编号版次1.0密级内部公开总页数42附录日期：2013-01-28日期：日期：所有，翻版必究）文件修改记录修改日期修改状态修改页码与条款修改人审核人批准人目录1.引言41.1 编写目的41.2 术语与缩略词51.3对象与X围81.4 参考资料82. 系统总体设计82.1 需求规定 8 数据导入错误!未定义书签。数据运算错误!未定义书签。运算结果导出错误!未定义书签。系统监控错误!未定义书签。调度功能错误!未定义书签。自动化安装部署与维护错误!未定义书签。2.2 运行环境82.3 基本设计思路和处理流程 92.4 系统结构10大数据运算系统架构图 10 hadoop 体系各组件之间关系图错误!未定义书签计算平台系统功能图1 1 系统功能图逻辑说明1 1 计算平台业务流程图错误!未定义书签。2.5 尚未解决的问题123. 模块/功能设计 123.1 计算驱动模块 15设计思路15流程图17处理逻辑 183.2 调度模块13设计思路 13流程图 14处理逻辑 143.3 自动化安装部署模块错误!未定义书签。设计思路错误!未定义书签。处理逻辑错

2、误!未定义书签。3.4 调度模块与计算驱动模块交互流程错误!未定义书签。处理流程图错误!未定义书签。处理逻辑错误!未定义书签。hadoop 驱动模块调用驱动接口错误!未定义书签。调度模块接收 hadoop 执行状态接口错误!未定义书签。3.5调度模块与kettle交互流程错误!未定义书签。处理流程图错误!未定义书签。处理逻辑错误!未定义书签。3.6 对调度任务运行过程进行监控流程错误!未定义书签。处理流程图错误!未定义书签。处理逻辑错误!未定义书签。3.7对hadoop驱动任务运行过程进行监控流程错误!未定义书签。处理流程图错误!未定义书签。处理逻辑错误!未定义书签。3.8对操作系统/应用程序监控流程19处理流程图 19处理逻辑 193.9监控报警模块20设计思路 20流程图 21处理逻辑 214.系统数据结构设计 224.1 数据实体关系图224.2 数据逻辑结构22驱动任务设置表错误!未定义书签。驱动设置表错误!未定义书签。驱动任务执行明细表错误!未定义书签。调度任务表错误!未定义书签。调度步骤表 23 调度步骤执行记录表 24 操作系统监控数据表错误!未定义书

3、签。应用程序监控数据表错误!未定义书签。监控系统配置表错误!未定义书签。业务数据记录表错误!未定义书签。4.3 数据物理结构 315. 安全设计 316. 容错设计 316.1 挽救措施316.2 系统维护设计317. 日志设计 311. 引言1.1编写目的大数据泛指巨量的数据集，因可从中挖掘出有价值的信息而受到重视。华尔街日报将大数据时代、智能化生产和无线网络革命称为引领未来繁荣的三大技术变革。麦肯锡公司的报告指出数据是一种生产资料，大数据是下一个创新、竞争、生产力提高的前沿。世界经济论坛的报告认定大数据为新财富，价值堪比石油。因此，发达国家纷纷将开发利用大数据作为夺取新一轮竞争制高点的重要抓手。互联网特别是移动互联网的发展，加快了信息化向社会经济各方面、大众日常生活的渗透。有资料显示，1998年全球网民平均每月使用流量是1MB （兆字节），2000年是10MB, 2003年是100MB，2008年是1GB （1GB等于1024MB），2014年将是10GB。全网流量累计达到1EB （即10亿GB或1000PB）的时间在2001年是一年，在2004年是一个月，在 2

4、007年是一周，而2013年仅需一天，即一天产生的信息量可刻满1.88亿XDVD光盘。我国网民数居世界之首，每天产生的数据量也位于世界前列。淘宝每天有超过数千万笔交易，单日数据产生量超过50TB （1TB等于1000GB）,存储量40PB（1PB等于1000TB）。百度公司目前数据总量接近1000PB，存储网页数量接近1万亿页，每天大约要处理60亿次搜索请求，几十PB数据。一个8Mbps （兆比特每秒）的摄像头一小时能产生3.6GB数据，一个城市若安装几十万个交通和安防摄像头，每月产生的数据量将达几十PB。医院也是数据产生集中的地方。现在，一个病人的CT影像数据量达几十GB,而全国每年门诊人数以数十亿计，并且他们的信息需要长时间保存。总之，大数据存在于各行各业，一个大数据时代正在到来。信息爆炸不自今日起，但近年来人们更加感受到大数据的来势迅猛。一方面，网民数量不断增加，另一方面，以物联网和家电为代表的联网设备数量增长更快。 2007 年全球有 5 亿个设备联网，人均0.1个；2013年全球将有500亿个设备联网，人均70 个。随着宽带化的发展，人均网络接入带宽和流量

5、也迅速提升。全球新产生数据年增 40%，即信息总量每两年就可以翻番，这一趋势还将持续。目前，单一数据集容量超过几十TB甚至数PB已不罕见，其规模大到无法在容许的时间内用常规软件工具对其内容进行抓取、管理和处理。数据规模越大，处理的难度也越大，但对其进行挖掘可能得到的价值更大，这就是大数据热的原因。鉴于越来越大的数据规模，采用常规基于DBMS的数据分析工具和方法已经无法满足大规模数据分析的需求，目前一些大型互联网公司采用hadoop体系进行大规模数据的运算，结合 hadoop 体系结构与实际的运算需求结合，采用 hadoop 体系结构的分布式运算模型，通过集群的方式实现大数据运算，为企业提供大数据的价值。为适应大数据计算的要求，同时提供大数据运算平台的系统设计的依据，特制定计算平台的系统概要设计文档，为后期的系统详细设计和实现提供依据。1.2术语与缩略词列术语、定义和缩略语适用于本标准：术语与缩略词解释备注NamenodeHDFS采用 master/slave架构。一个 HDFS集群是由一个 Name node 和一定数目的 Data nodes 组成。Name node

6、是一个中心服务器，负责管理文件系统的名字空间(namespace)以与客户端对文件的访问。Name node执行文件系统的名字空间操作，比如打开、关闭、重命名文件或目录。它也负责确定数据块到具体Data node节点的映射Datanode集群中的Datanode 一般是一个节点一个，负责管理它所在节点上的存储。HDFS暴露了文件系统的名字空间，用户能够以文件的形式在上面存储数据。从内部看，一个文件其实被分成一个或多个数据块，这些块存储在一组Datanode上。Datanode负责处理文件系统客户端的读与请求。在Namenode的统一调度下进行数据块的创建、删除和复制Secondnamenode光从字面上来理解，很容易让一些初学者先入为主的认为： SecondaryNameNode （snn）就是 NameNode （nn）的热备进程。其实不是。snn是HDFS架构中的一个组成部分，但是经常由于名字而被人误解它真正的用途，其实它真正的用途，是用来保存namenode中对 HDFS metadata的信息的备份，并减少 namenode重启的时间JobtrackerJ

7、obTracker是MapReduce框架中最主要的类之一，所有job的执行都由它来调度，而且Hadoop系统中只配置一个JobTracker 应用。它们都是由一个mas ter服务JobTracker和多个运行于多个节点的slaver服务TaskTracker两个类提供的服务调度的。mas ter负责调度job的每一个子任务task运行于slave 上,并监控它们，如果发现有失败的task就重新运行它，slave 则负责直接执行每一个taskTaskTrackerTaskTracker都需要运行在HDFS的DataNode上，而JobTracker则不需要，一般情况应该把JobTracker部署在单独的机器上HBaseHBase是一个分布式的、面向列的开源数据库，该技术来源于Chang et al所撰写的Google论文“Bigtable :个结构化数据的分布式存储系统”。就像Bigtable利用了 Google文件系统（File System）所提供的分布式数据存储一样，HBase在Hadoop之上提供了类似于Bigtable的能力。HBase是Apache的Hado

8、op项目的子项目。HBase不同于一般的关系数据库，它是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式。Hivehive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一 X数据库表，并提供完整的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低，可以通过类 SQL语句快速实现简单的MapReduce统计，不必开发专门的MapReduce 应用，十分适合数据仓库的统计分析。StormStorm为分布式实时计算提供了一组通用原语，可被用于“流处理”之中，实时处理消息并更新数据库。这是管理队列与工作者集群的另一种方式。Storm也可被用于“连续计算”(continuous computation ),对数据流做连续查询，在计算时就将结果以流的形式输出给用户。它还可被用于“分布式RPC”，以并行的方式运行昂贵的运算。FlumeFlume是Cloudera提供的一个咼可用的，咼可靠的，分布式的海量日志采集、聚合和传输的系统， Flume支持在日志系统中定制各类数据发送方，用于收集数据；

9、同时，Flume提供对数据进行简单处理，并写到各种数据接受方(可定制)的能力。ETLETL是数据抽取(Extract )、清洗(Cleaning )、转换(Transform )、装载(Load)的过程。是构建数据仓库的重要一环，用户从数据源抽取出所需的数据，经过数据清洗，最终按照预先定义好的数据仓库模型，将数据加载到数据仓库中去。KettleKettle是一款国外开源的ETL工具，纯java编写，可以在Window、Linux、Unix上运行，绿色无需安装，数据抽取咼效稳定。MySQLMySQL是一个开放源码的小型关联式数据库管理系统，开发者为瑞典MySQL AB公司。目前MySQL被广泛地应用在Internet上的中小型中。由于其体积小、速度快、总体拥有成本低，尤其是开放源码这一特点，许多中小型为了降低总体拥有成本而选择了 MySQL作为数据库。MongoDBMongoDB是一个介于关系数据库和非关系数据库之间的产品，是非关系数据库当中功能最丰富，最像关系数据库的。他支持的数据结构非常松散，是类似json的bson格式，因此可以存储比较复杂的数据类型。Mongo最大的特点是他支持的查询语言非常强大，其语法有点类似于面向对象的查询语言，几乎可以实现类似关系数据库单表查询的绝大部分功能,而且还支持对数据建立索引。1、开发人员、DBA、测试人员;2、研发主管领导、产品人员；1.4参考资料1、大数据处理体系架构2、HBase The Definitive Guide3、4、Programming_Hive2. 系

《大数据平台概要设计说明书》由会员桔****分享，可在线阅读，更多相关《大数据平台概要设计说明书》请在金锄头文库上搜索。

点击阅读更多内容

TA的资源