电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

大数据平台概要设计说明书

32页
  • 卖家[上传人]:桔****
  • 文档编号:471614894
  • 上传时间:2023-09-04
  • 文档格式:DOCX
  • 文档大小:526.99KB
  • / 32 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 1、计算平台概要设计说明书文件编号受控编号版次1.0密级内部公开总页数42附录日期:2013-01-28日期:日期:所有,翻版必究)文件修改记录修改日期修改状态修改页码与条款修改人审核人批准人目录1.引言41.1 编写目的41.2 术语与缩略词51.3对象与X围81.4 参考资料82. 系统总体设计82.1 需求规定 8 数据导入错误!未定义书签。 数据运算错误!未定义书签。 运算结果导出错误!未定义书签。 系统监控错误!未定义书签。 调度功能错误!未定义书签。 自动化安装部署与维护错误!未定义书签。2.2 运行环境82.3 基本设计思路和处理流程 92.4 系统结构10大数据运算系统架构图 10 hadoop 体系各组件之间关系图错误!未定义书签 计算平台系统功能图1 1 系统功能图逻辑说明1 1 计算平台业务流程图错误!未定义书签。2.5 尚未解决的问题123. 模块/功能设计 123.1 计算驱动模块 15设计思路15流程图17处理逻辑 183.2 调度模块13设计思路 13流程图 14处理逻辑 143.3 自动化安装部署模块错误!未定义书签。 设计思路错误!未定义书签。 处理逻辑错

      2、误!未定义书签。3.4 调度模块与计算驱动模块交互流程错误!未定义书签。 处理流程图错误!未定义书签。 处理逻辑错误!未定义书签。hadoop 驱动模块调用驱动接口错误!未定义书签。 调度模块接收 hadoop 执行状态接口错误!未定义书签。3.5调度模块与kettle交互流程错误!未定义书签。处理流程图错误!未定义书签。 处理逻辑错误!未定义书签。3.6 对调度任务运行过程进行监控流程错误!未定义书签。处理流程图错误!未定义书签。 处理逻辑错误!未定义书签。3.7对hadoop驱动任务运行过程进行监控流程错误!未定义书签。 处理流程图错误!未定义书签。 处理逻辑错误!未定义书签。3.8对操作系统/应用程序监控流程19处理流程图 19处理逻辑 193.9监控报警模块20设计思路 20流程图 21处理逻辑 214.系统数据结构设计 224.1 数据实体关系图224.2 数据逻辑结构22驱动任务设置表错误!未定义书签。 驱动设置表错误!未定义书签。 驱动任务执行明细表错误!未定义书签。 调度任务表错误!未定义书签。调度步骤表 23 调度步骤执行记录表 24 操作系统监控数据表错误!未定义书

      3、签。 应用程序监控数据表错误!未定义书签。 监控系统配置表错误!未定义书签。 业务数据记录表错误!未定义书签。4.3 数据物理结构 315. 安全设计 316. 容错设计 316.1 挽救措施316.2 系统维护设计317. 日志设计 311. 引言1.1编写目的大数据泛指巨量的数据集,因可从中挖掘出有价值的信息而受到重视。华尔街日报将大 数据时代、智能化生产和无线网络革命称为引领未来繁荣的三大技术变革。麦肯锡公司的报 告指出数据是一种生产资料,大数据是下一个创新、竞争、生产力提高的前沿。世界经济论 坛的报告认定大数据为新财富,价值堪比石油。因此,发达国家纷纷将开发利用大数据作为 夺取新一轮竞争制高点的重要抓手。互联网特别是移动互联网的发展,加快了信息化向社会经济各方面、大众日常生活的 渗透。有资料显示,1998年全球网民平均每月使用流量是1MB (兆字节),2000年是10MB, 2003年是100MB,2008年是1GB (1GB等于1024MB),2014年将是10GB。全网流量累 计达到1EB (即10亿GB或1000PB)的时间在2001年是一年,在2004年是一个月,在 2

      4、007年是一周,而2013年仅需一天,即一天产生的信息量可刻满1.88亿XDVD光盘。我 国网民数居世界之首,每天产生的数据量也位于世界前列。淘宝每天有超过数千万笔交易, 单日数据产生量超过50TB (1TB等于1000GB),存储量40PB(1PB等于1000TB)。百度公 司目前数据总量接近1000PB,存储网页数量接近1万亿页,每天大约要处理60亿次搜索请 求,几十PB数据。一个8Mbps (兆比特每秒)的摄像头一小时能产生3.6GB数据,一个城 市若安装几十万个交通和安防摄像头,每月产生的数据量将达几十PB。医院也是数据产生 集中的地方。现在,一个病人的CT影像数据量达几十GB,而全国每年门诊人数以数十亿 计,并且他们的信息需要长时间保存。总之,大数据存在于各行各业,一个大数据时代正在 到来。信息爆炸不自今日起,但近年来人们更加感受到大数据的来势迅猛。一方面,网民数量 不断增加,另一方面,以物联网和家电为代表的联网设备数量增长更快。 2007 年全球有 5 亿个设备联网,人均0.1个;2013年全球将有500亿个设备联网,人均70 个。随着宽带化 的发展,人均网络接入带宽和流量

      5、也迅速提升。全球新产生数据年增 40%,即信息总量每 两年就可以翻番,这一趋势还将持续。目前,单一数据集容量超过几十TB甚至数PB已不 罕见,其规模大到无法在容许的时间内用常规软件工具对其内容进行抓取、管理和处理。数据规模越大,处理的难度也越大,但对其进行挖掘可能得到的价值更大,这就是大数 据热的原因。鉴于越来越大的数据规模,采用常规基于DBMS的数据分析工具和方法已经 无法满足大规模数据分析的需求,目前一些大型互联网公司采用hadoop体系进行大规模数 据的运算,结合 hadoop 体系结构与实际的运算需求结合,采用 hadoop 体系结构的分布式 运算模型,通过集群的方式实现大数据运算,为企业提供大数据的价值。为适应大数据计算的要求,同时提供大数据运算平台的系统设计的依据,特制定计算平 台的系统概要设计文档,为后期的系统详细设计和实现提供依据。1.2术语与缩略词列术语、定义和缩略语适用于本标准:术语与缩略词解释备注NamenodeHDFS采用 master/slave架构。一个 HDFS集群是由一个 Name node 和一定数目的 Data nodes 组成。Name node

      6、是一个 中心服务器,负责管理文件系统的名字空间(namespace)以与客 户端对文件的访问。Name node执行文件系统的名字空间操作, 比如打开、关闭、重命名文件或目录。它也负责确定数据块到具体Data node节点的映射Datanode集群中的Datanode 一般是一个节点一个,负责管理它所在节点 上的存储。HDFS暴露了文件系统的名字空间,用户能够以文件 的形式在上面存储数据。从内部看,一个文件其实被分成一个 或多个数据块,这些块存储在一组Datanode上。Datanode负责 处理文件系统客户端的读与请求。在Namenode的统一调度下进 行数据块的创建、删除和复制Secondnamenode光从字面上来理解,很容易让一些初学者先入为主的认为: SecondaryNameNode (snn)就是 NameNode (nn)的热备进程。 其实不是。snn是HDFS架构中的一个组成部分,但是经常由于 名字而被人误解它真正的用途,其实它真正的用途,是用来保 存namenode中对 HDFS metadata的信息的备份,并减少 namenode重启的时间JobtrackerJ

      7、obTracker是MapReduce框架中最主要的类之一,所有job的 执行都由它来调度,而且Hadoop系统中只配置一个JobTracker 应用。它们都是由一个mas ter服务JobTracker和多个运行于 多个节点的slaver服务TaskTracker两个类提供的服务调度 的。mas ter负责调度job的每一个子任务task运行于slave 上,并监控它们,如果发现有失败的task就重新运行它,slave 则负责直接执行每一个taskTaskTrackerTaskTracker都需要运行在HDFS的DataNode上,而JobTracker则 不需要,一般情况应该把JobTracker部署在单独的机器上HBaseHBase是一个分布式的、面向列的开源数据库,该技术来源于Chang et al所撰写的Google论文“Bigtable :个结构化数据的分布式存储系 统”。就像Bigtable利用了 Google文件系统(File System)所提供的分 布式数据存储一样,HBase在Hadoop之上提供了类似于Bigtable的能 力。HBase是Apache的Hado

      8、op项目的子项目。HBase不同于一般的 关系数据库,它是一个适合于非结构化数据存储的数据库。另一个不 同的是HBase基于列的而不是基于行的模式。Hivehive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件 映射为一 X数据库表,并提供完整的sql查询功能,可以将sql语句 转换为MapReduce任务进行运行。其优点是学习成本低,可以通过类 SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce 应用,十分适合数据仓库的统计分析。StormStorm为分布式实时计算提供了一组通用原语,可被用于“流 处理”之中,实时处理消息并更新数据库。这是管理队列与工作者集群的另一种方式。Storm也可被用于“连续计算”(continuous computation ),对数据流做连续查询,在计算时就将结果以流的形式输出给用户。它还可被用于“分布式RPC”,以并行的方式运行昂贵的运算。FlumeFlume是Cloudera提供的一个咼可用的,咼可靠 的,分布式的海量日志采集、聚合和传输的系统, Flume支持在日志系统中定制各类数据发送方,用于 收集数据;

      9、同时,Flume提供对数据进行简单处理, 并写到各种数据接受方(可定制)的能力。ETLETL是数据抽取(Extract )、清洗(Cleaning )、转换(Transform )、装载(Load)的过程。是构建数据仓库的重 要一环,用户从数据源抽取出所需的数据,经过数据清洗,最终按照预先定义好的数据仓库模型,将数据加载到数据仓 库中去。KettleKettle是一款国外开源的ETL工具,纯java编写,可以在Window、Linux、Unix上运行,绿色无需安装,数据抽取咼 效稳定。MySQLMySQL是一个开放源码的小型关联式数据库管理系 统,开发者为瑞典MySQL AB公司。目前MySQL被广泛地 应用在Internet上的中小型中。由于其体积小、速度快、总 体拥有成本低,尤其是开放源码这一特点,许多中小型为了 降低总体拥有成本而选择了 MySQL作为数据库。MongoDBMongoDB是一个介于关系数据库和非关系数据库之间的产 品,是非关系数据库当中功能最丰富,最像关系数据库的。 他支持的数据结构非常松散,是类似json的bson格式,因 此可以存储比较复杂的数据类型。Mongo最大的特点是他支 持的查询语言非常强大,其语法有点类似于面向对象的查询 语言,几乎可以实现类似关系数据库单表查询的绝大部分功 能,而且还支持对数据建立索引。1、开发人员、DBA、测试人员;2、研发主管领导、产品人员;1.4参考资料1、大数据处理体系架构2、HBase The Definitive Guide3、4、Programming_Hive2. 系

      《大数据平台概要设计说明书》由会员桔****分享,可在线阅读,更多相关《大数据平台概要设计说明书》请在金锄头文库上搜索。

      点击阅读更多内容
    最新标签
    监控施工 信息化课堂中的合作学习结业作业七年级语文 发车时刻表 长途客运 入党志愿书填写模板精品 庆祝建党101周年多体裁诗歌朗诵素材汇编10篇唯一微庆祝 智能家居系统本科论文 心得感悟 雁楠中学 20230513224122 2022 公安主题党日 部编版四年级第三单元综合性学习课件 机关事务中心2022年全面依法治区工作总结及来年工作安排 入党积极分子自我推荐 世界水日ppt 关于构建更高水平的全民健身公共服务体系的意见 空气单元分析 哈里德课件 2022年乡村振兴驻村工作计划 空气教材分析 五年级下册科学教材分析 退役军人事务局季度工作总结 集装箱房合同 2021年财务报表 2022年继续教育公需课 2022年公需课 2022年日历每月一张 名词性从句在写作中的应用 局域网技术与局域网组建 施工网格 薪资体系 运维实施方案 硫酸安全技术 柔韧训练 既有居住建筑节能改造技术规程 建筑工地疫情防控 大型工程技术风险 磷酸二氢钾 2022年小学三年级语文下册教学总结例文 少儿美术-小花 2022年环保倡议书模板六篇 2022年监理辞职报告精选 2022年畅想未来记叙文精品 企业信息化建设与管理课程实验指导书范本 草房子读后感-第1篇 小数乘整数教学PPT课件人教版五年级数学上册 2022年教师个人工作计划范本-工作计划 国学小名士经典诵读电视大赛观后感诵读经典传承美德 医疗质量管理制度 2
    关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
    手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
    ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.