电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本
换一换
首页 金锄头文库 > 资源分类 > DOCX文档下载
分享到微信 分享到微博 分享到QQ空间

PB级海量数据服务平台架构设计实践_光环大数据培训

  • 资源ID:49769825       资源大小:459.29KB        全文页数:18页
  • 资源格式: DOCX        下载积分:0金贝
快捷下载 游客一键下载
账号登录下载
微信登录下载
三方登录下载: 微信开放平台登录   支付宝登录   QQ登录  
二维码
微信扫一扫登录
下载资源需要0金贝
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
如填写123,账号就是123,密码也是123。
验证码:   换一换

 
账号:
密码:
验证码:   换一换
  忘记密码?
    
1、金锄头文库是“C2C”交易模式,即卖家上传的文档直接由买家下载,本站只是中间服务平台,本站所有文档下载所得的收益全部归上传人(卖家)所有,作为网络服务商,若您的权利被侵害请及时联系右侧客服;
2、如你看到网页展示的文档有jinchutou.com水印,是因预览和防盗链等技术需要对部份页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有jinchutou.com水印标识,下载后原文更清晰;
3、所有的PPT和DOC文档都被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;下载前须认真查看,确认无误后再购买;
4、文档大部份都是可以预览的,金锄头文库作为内容存储提供商,无法对各卖家所售文档的真实性、完整性、准确性以及专业性等问题提供审核和保证,请慎重购买;
5、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据;
6、如果您还有什么不清楚的或需要我们协助,可以点击右侧栏的客服。
下载须知 | 常见问题汇总

PB级海量数据服务平台架构设计实践_光环大数据培训

光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/hadoop.aura.cn 光环大数据光环大数据 http:/hadoop.aura.cnPBPB 级海量数据服务平台架构设计实践级海量数据服务平台架构设计实践_ _光环大数据培训光环大数据培训光环大数据培训机构,基于 PB 级海量数据实现数据服务平台,需要从各个不同 的角度去权衡,主要包括实践背景、技术选型、架构设计,我们基于这三个方 面进行了架构实践,下面分别从这三个方面进行详细分析讨论:实践背景实践背景该数据服务平台架构设计之初,实践的背景可以从三个维度来进行说明:当前 现状、业务需求、架构需求,分别如下所示:当前现状当前现状收集了当前已有数据、分工、团队的一些基本情况,如下所示:数据收集和基础数据加工有专门的 Team 在做,我们是基于收集后并进 行过初步加工的基础数据,结合不同行业针对特定数据的需求进行二次 加工的。数据二次加工,会集成基础数据之外的其它有业务属性的数据,比如引 入第三方 POI 数据等。原始数据每天增量大约 3040TB 左右。计算集群采用 Spark on YARN 部署模式,大约 400 个节点。所有数据各种属性、行为信息,都是围绕大约 40 亿的移动设备 ID 进行 很多倍膨胀,比如每天使用微信 App 的设备的行为信息。光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/hadoop.aura.cn 光环大数据光环大数据 http:/hadoop.aura.cn参与该平台的研发人员,对实际数据业务需求了解不会非常深入,因为跨多个行业及其不同数据需求的变化较快。业务需求业务需求另外,实现的该数据服务平台,需要满足当前的基本数据业务需求,主要包括 使用平台的人员特点,需要支撑的各种基本数据需求,经过梳理,如下所示:平台初期面向内部业务人员使用,几乎没有技术背景。40 亿+的移动设备大表,包含各类设备 ID 及其设备属性,需要提供批量 匹配功能:给定一类或多类设备 ID 的批量文件,从大表中获取到匹配上 的设备信息(ID 及多个属性信息)。对 PB 级数据进行各种快速探索,输入各种过滤条件,如地域(国家/省/ 市/区)、地理围栏(地图圈选/上传文件/直接输入)、使用的 App 及分 类(安装/活跃)、时间范围(日/周/月)、POI 及分类等等,理论上不 限制条件个数,经验值最多在 56 个左右。输出主要包括明细信息、多维度统计(画像)、图表(热力图)等。平台提供的数据服务,都是批量模式的计算,所以需要为用户提交的数据作业,给予准确的状态变化反馈。有小部分面向开发人员的需求:将在数据平台 Web 系统操作进行的数据 匹配、提取、探索等操作,进行服务化以供其他系统中的服务调用。架构需求架构需求在未来业务模式变化的情况下,能够非常容易地扩展,并尽量复用大部分核心 组件。同时,还要面向开发人员复用数据平台的数据业务服务,以增加平台利 用率,间接产出数据价值。考虑如下一些当前需要以及未来可能演变的架构需 求:光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/hadoop.aura.cn 光环大数据光环大数据 http:/hadoop.aura.cn定义作业和任务的概念:作业是用户为满足一次业务需要而提交的数据获取请求,最终输出想要的数据结果;任务是为满足输出一个作业结果, 从逻辑上拆分成的基本计算单元。一个作业由多个任务的计算组合而完 成。对于一个作业输入的多个过滤条件,如果作为一个单独的计算任务,根本无法在 PB 量级的数据上输出结果,所以需要将作业拆分成多个任务 进行分别计算,最后输出结果。对用户作业状态的管理,具有一定的业务含义,基本不能在公司级别进 行复用,具体涉及内容包括:排队、组成作业的任务列表管理、作业优 先级管理。任务是最基本的计算单位,设计能够协调整个任务计算的架构,可以分 离出任何业务状态,实现为无状态的任务计算架构,在公司级别可以复 用,比如大量基于 Spark 的计算可以抽象为任务计算。由于时间范围条件跨度需要支持几年(如 13 年),计算依赖的数据量 级在 TB 甚至 PB 级别,所以一定要通过预计算的方式压缩数据,并能提 供支持快速计算的方式。预计算可以使用 Spark 计算集群,每天通过控制计算所需资源进行大规 模 ETL 处理。ETL 处理,迫切需要一个简单、轻量的 ETL 作业调度系统,可以从开源 产品中甄选。采用原生 Spark 计算基本无法为平台上用户提供快速计算的体验,可能 会考虑列式分布式数据库,或基于 Bitmap 结构的分布式计算系统。面向开发人员,部分涉及业务相关内容的模块,第一阶段可以通过硬编 码方式处理业务逻辑,后续第二阶段可以基于对业务流程的熟悉来进行 改造,抽取通用业务逻辑规则,构建能够快速交付业务功能的模块。对平台架构进行分解,分离有状态和无状态模块,分离带业务属性和不 带业务属性的模块,保持模块轻量易于随架构演进进行改造、升级、维 护。技术选型技术选型光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/hadoop.aura.cn 光环大数据光环大数据 http:/hadoop.aura.cn技术选型,主要从如下几个方面进行考虑:数据存储数据存储原始数据存储数据量级达到 PB 级,所以,作为整个数据服务平台的最初输入数据,我们称为 数据服务平台的原始数据,后续简称原始数据,这些原始数据是直接存储在 HDFS 文件系统中,根据时间的维度,分为小时数据、日数据、月数据。这样, 可以根据数据计算需要,按照小时、日、月进行加工处理,能够在可允许的计 算资源配额和计算时间范围内完成处理。另外,根据每天大约 3040TB 的增量数据,原始数据采用 parquet 格式压缩存 储,我们进行二次加工的输出仍然是以 parquet 格式存储。分布式关系数据存储对于 PB 级的数据,想要在数据服务平台中快速为用户提供数据服务,根据业务 特点,存储在适合快速加载、快速计算的分布式数据存储系统中。快速加载,必然要对数据进行特殊格式处理,并在一定程度上压缩数据,这样 才能减少数据加载时间。可以很容易想到,使用支持列式存储的分布式数据库。 比如 Vertica 分布式数据库就是一款支持列式存储的 MPP 数据库。Vertica 是 HP 开发的商用分布式数据库,同时也发布了开源的免费社区版本,不过社版本 有一定限制:只支持 1TB 原始数据、3 节点集群规模。如果变通一些,可以通 过 Vertica 社区版本进行改造以支持解除 3 个节点集群规模和 1TB 存储的限制, 不过要在分片逻辑控制、分片数据一致性方面做更多工作,尤其是面向上层应 用提供单一的统一存取视图是非常必要的。因为列式存储支持计算时只加载用 于计算的列,故而能够达到快速加载的目的。光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/hadoop.aura.cn 光环大数据光环大数据 http:/hadoop.aura.cn快速计算,首先要求计算能够并行化,那么数据就应该分片存储,使数据计算 本地化。Vertica 自然能够实现数据的并行计算,我们在前期使用过程中验证 了,对于从 40 亿+的大表中批量匹配出任意信息(匹配 ID,以及 ID 对应的关 联表中的其它明细信息),效率非常好,基本分钟级便可以输出匹配结果。我们也对开源不久的 MPP 数据库 Greenplum 进行了调研,它原生支持分布式架 构,支持列式和行式两种存储,自然具有 Vertica 对应的列式存储的优势,又 不需要手动对分片进行管理控制,但性能要比 Vertica 差一些。然而, Greenplum 数据库能够支持数组类型,支持多种编程语言的 UDF,结合我们之前 做过很多有关 Bitmap 的实践,采用开源的 RoaringBitmap,能够很好的基于 Greenplum 实现快速的 Bitmap 计算。消息存储消息存储,主要是用来解耦后台多个较重的系统之间的通信。因为本身这类系 统比较重,如果采用 RPC 调用的方式进行通信,某个系统进行升级,会导致依 赖于该系统提供服务的其它系统管理更多的特殊情况处理。而采用消息机制, 使得各个系统之间不需要关注交互系统处理状态,而对消息交换只需要关注消 息的生成和消费。这样,我们可以随时对系统进行改造、升级、Bug 修复重启等操作,而不会使 整个平台陷入不可控的状态。消息中间件,我们选择使用 RabbitMQ。数据处理数据处理数据处理,主要包括原始数据 ETL 处理、应用数据计算两大类:原始数据 ETL 处理光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/hadoop.aura.cn 光环大数据光环大数据 http:/hadoop.aura.cn基于 HDFS 存储的数据,最方便最高效的技术方案,自然是使用 Spark 计算集群来对数据进行 ETL 处理。我们基于原生的 Scala 编程语言来开发各种 ETL 程序, 实现数据清洗、抽取、转换操作。应用数据计算数据服务平台中,面向用户的应用数据计算,基于 Greenplum 数据库支持的SQL 语言来实现数据处理,并基于 Java 编程语言来实现整个应用服务的开发。ETLETL 作业调度作业调度数据处理需要进行大量的 ETL 计算,管理各种计算任务之间的依赖关系及其调 度,我们采用了非常轻量的 Azkaban 调度系统。业务元数据管理业务元数据管理业务元数据,主要用于支撑数据服务平台 Web UI 上面的各种业务条件选项,比 如,常用的有如下一些:移动设备机型、品牌、运营商、网络、价格范围、设备物理特性应用名称、包名、哈希值应用分类地域信息,如国家、省份、城市、区县POI 名称、地址POI 分类,包括一级分类、二级分类光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/hadoop.aura.cn 光环大数据光环大数据 http:/hadoop.aura.cn这些元数据,有些来自于基础数据部门提供的标准库,比如品牌、价格范围等,可以从对应的数据表中同步或直接读取;而有些具有时间含义的元数据,需要 每天通过 ETL 处理生成,比如应用信息;POI 数据需要从外部抓取,并进行处 理,一般每个月更新一次。这些元数据,为支撑应用计算使用,被存储在 MySQL 数据库中;而对于填充页 面上对应的条件选择的数据,则使用 Redis 存储,每天/月会根据 MySQL 中的数 据进行加工处理,生成易于快速查询的键值对类数据,存储到 Redis 中。数据服务数据服务数据服务,主要支撑后台的数据应用,全平台采用标准的 REST 接口风格来定义, 主要使用 Spring Boot 来快速开发对应的接口。离线批量服务进行 REST 接口封装还有一点我们需要遵循的是,任何具有复杂的数据处理逻辑的服务,都通过一层 REST 接口进行封装,将全部的离线批量服务后置。这样得到一个聚合服务的 REST 接口层,该层主要负责定义和管理接口的各个请求、

注意事项

本文(PB级海量数据服务平台架构设计实践_光环大数据培训)为本站会员(gua****an)主动上传,金锄头文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即阅读金锄头文库的“版权提示”【网址:https://www.jinchutou.com/h-59.html】,按提示上传提交保证函及证明材料,经审查核实后我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。

分享当前资源【PB级海量数据服务平台架构设计实践_光环大数据培训】到朋友圈,您即可以免费下载此资源!
微信扫一扫分享到朋友圈
二维码
操作提示:任选上面一个二维码,打开微信,点击“发现”使用“扫一扫”,即可将选择的网页分享到朋友圈
您可能感兴趣的------------------------------------------------------------------------------------------------------



关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.