您所在位置：网站首页 > IT计算机/网络 > 数据挖掘与识别PB级海量数据服务平台架构设计实践_光环大数据培训

PB级海量数据服务平台架构设计实践_光环大数据培训

18页

卖家[上传人]：gua****an

文档编号：49769825

上传时间：2018-08-02

文档格式：DOCX

文档大小：459.29KB

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

0 金贝

/ 18 举报版权申诉马上下载

文本预览

下载提示

常见问题

1、光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/ 光环大数据光环大数据 http:/PBPB 级海量数据服务平台架构设计实践级海量数据服务平台架构设计实践_ _光环大数据培训光环大数据培训光环大数据培训机构，基于 PB 级海量数据实现数据服务平台，需要从各个不同的角度去权衡，主要包括实践背景、技术选型、架构设计，我们基于这三个方面进行了架构实践，下面分别从这三个方面进行详细分析讨论：实践背景实践背景该数据服务平台架构设计之初，实践的背景可以从三个维度来进行说明：当前现状、业务需求、架构需求，分别如下所示：当前现状当前现状收集了当前已有数据、分工、团队的一些基本情况，如下所示：数据收集和基础数据加工有专门的 Team 在做，我们是基于收集后并进行过初步加工的基础数据，结合不同行业针对特定数据的需求进行二次加工的。数据二次加工，会集成基础数据之外的其它有业务属性的数据，比如引入第三方 POI 数据等。原始数据每天增量大约 3040TB 左右。计算集群采用 Spark on YARN 部署模式，大约 400 个节点。所有数据各种属性、行为信息，都是围绕大约

2、 40 亿的移动设备 ID 进行很多倍膨胀，比如每天使用微信 App 的设备的行为信息。光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/ 光环大数据光环大数据 http:/参与该平台的研发人员，对实际数据业务需求了解不会非常深入，因为跨多个行业及其不同数据需求的变化较快。业务需求业务需求另外，实现的该数据服务平台，需要满足当前的基本数据业务需求，主要包括使用平台的人员特点，需要支撑的各种基本数据需求，经过梳理，如下所示：平台初期面向内部业务人员使用，几乎没有技术背景。40 亿+的移动设备大表，包含各类设备 ID 及其设备属性，需要提供批量匹配功能：给定一类或多类设备 ID 的批量文件，从大表中获取到匹配上的设备信息（ID 及多个属性信息）。对 PB 级数据进行各种快速探索，输入各种过滤条件，如地域（国家/省/ 市/区）、地理围栏（地图圈选/上传文件/直接输入）、使用的 App 及分类（安装/活跃）、时间范围（日/周/月）、POI 及分类等等，理论上不限制条件个数，经验值最多在 56 个左右。输出主要包括明细信息、多维度统计（画像）、图表（热力图）等。平

3、台提供的数据服务，都是批量模式的计算，所以需要为用户提交的数据作业，给予准确的状态变化反馈。有小部分面向开发人员的需求：将在数据平台 Web 系统操作进行的数据匹配、提取、探索等操作，进行服务化以供其他系统中的服务调用。架构需求架构需求在未来业务模式变化的情况下，能够非常容易地扩展，并尽量复用大部分核心组件。同时，还要面向开发人员复用数据平台的数据业务服务，以增加平台利用率，间接产出数据价值。考虑如下一些当前需要以及未来可能演变的架构需求：光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/ 光环大数据光环大数据 http:/定义作业和任务的概念：作业是用户为满足一次业务需要而提交的数据获取请求，最终输出想要的数据结果；任务是为满足输出一个作业结果，从逻辑上拆分成的基本计算单元。一个作业由多个任务的计算组合而完成。对于一个作业输入的多个过滤条件，如果作为一个单独的计算任务，根本无法在 PB 量级的数据上输出结果，所以需要将作业拆分成多个任务进行分别计算，最后输出结果。对用户作业状态的管理，具有一定的业务含义，基本不能在公司级别进行复用，具体涉及内容包括

4、：排队、组成作业的任务列表管理、作业优先级管理。任务是最基本的计算单位，设计能够协调整个任务计算的架构，可以分离出任何业务状态，实现为无状态的任务计算架构，在公司级别可以复用，比如大量基于 Spark 的计算可以抽象为任务计算。由于时间范围条件跨度需要支持几年（如 13 年），计算依赖的数据量级在 TB 甚至 PB 级别，所以一定要通过预计算的方式压缩数据，并能提供支持快速计算的方式。预计算可以使用 Spark 计算集群，每天通过控制计算所需资源进行大规模 ETL 处理。ETL 处理，迫切需要一个简单、轻量的 ETL 作业调度系统，可以从开源产品中甄选。采用原生 Spark 计算基本无法为平台上用户提供快速计算的体验，可能会考虑列式分布式数据库，或基于 Bitmap 结构的分布式计算系统。面向开发人员，部分涉及业务相关内容的模块，第一阶段可以通过硬编码方式处理业务逻辑，后续第二阶段可以基于对业务流程的熟悉来进行改造，抽取通用业务逻辑规则，构建能够快速交付业务功能的模块。对平台架构进行分解，分离有状态和无状态模块，分离带业务属性和不带业务属性的模块，保持模块轻量易于

5、随架构演进进行改造、升级、维护。技术选型技术选型光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/ 光环大数据光环大数据 http:/技术选型，主要从如下几个方面进行考虑：数据存储数据存储原始数据存储数据量级达到 PB 级，所以，作为整个数据服务平台的最初输入数据，我们称为数据服务平台的原始数据，后续简称原始数据，这些原始数据是直接存储在 HDFS 文件系统中，根据时间的维度，分为小时数据、日数据、月数据。这样，可以根据数据计算需要，按照小时、日、月进行加工处理，能够在可允许的计算资源配额和计算时间范围内完成处理。另外，根据每天大约 3040TB 的增量数据，原始数据采用 parquet 格式压缩存储，我们进行二次加工的输出仍然是以 parquet 格式存储。分布式关系数据存储对于 PB 级的数据，想要在数据服务平台中快速为用户提供数据服务，根据业务特点，存储在适合快速加载、快速计算的分布式数据存储系统中。快速加载，必然要对数据进行特殊格式处理，并在一定程度上压缩数据，这样才能减少数据加载时间。可以很容易想到，使用支持列式存储的分布式数据库。比如 V

6、ertica 分布式数据库就是一款支持列式存储的 MPP 数据库。Vertica 是 HP 开发的商用分布式数据库，同时也发布了开源的免费社区版本，不过社版本有一定限制：只支持 1TB 原始数据、3 节点集群规模。如果变通一些，可以通过 Vertica 社区版本进行改造以支持解除 3 个节点集群规模和 1TB 存储的限制，不过要在分片逻辑控制、分片数据一致性方面做更多工作，尤其是面向上层应用提供单一的统一存取视图是非常必要的。因为列式存储支持计算时只加载用于计算的列，故而能够达到快速加载的目的。光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/ 光环大数据光环大数据 http:/快速计算，首先要求计算能够并行化，那么数据就应该分片存储，使数据计算本地化。Vertica 自然能够实现数据的并行计算，我们在前期使用过程中验证了，对于从 40 亿+的大表中批量匹配出任意信息（匹配 ID，以及 ID 对应的关联表中的其它明细信息），效率非常好，基本分钟级便可以输出匹配结果。我们也对开源不久的 MPP 数据库 Greenplum 进行了调研，它原生支持分布式架

7、构，支持列式和行式两种存储，自然具有 Vertica 对应的列式存储的优势，又不需要手动对分片进行管理控制，但性能要比 Vertica 差一些。然而， Greenplum 数据库能够支持数组类型，支持多种编程语言的 UDF，结合我们之前做过很多有关 Bitmap 的实践，采用开源的 RoaringBitmap，能够很好的基于 Greenplum 实现快速的 Bitmap 计算。消息存储消息存储，主要是用来解耦后台多个较重的系统之间的通信。因为本身这类系统比较重，如果采用 RPC 调用的方式进行通信，某个系统进行升级，会导致依赖于该系统提供服务的其它系统管理更多的特殊情况处理。而采用消息机制，使得各个系统之间不需要关注交互系统处理状态，而对消息交换只需要关注消息的生成和消费。这样，我们可以随时对系统进行改造、升级、Bug 修复重启等操作，而不会使整个平台陷入不可控的状态。消息中间件，我们选择使用 RabbitMQ。数据处理数据处理数据处理，主要包括原始数据 ETL 处理、应用数据计算两大类：原始数据 ETL 处理光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌h

8、ttp:/ 光环大数据光环大数据 http:/基于 HDFS 存储的数据，最方便最高效的技术方案，自然是使用 Spark 计算集群来对数据进行 ETL 处理。我们基于原生的 Scala 编程语言来开发各种 ETL 程序，实现数据清洗、抽取、转换操作。应用数据计算数据服务平台中，面向用户的应用数据计算，基于 Greenplum 数据库支持的SQL 语言来实现数据处理，并基于 Java 编程语言来实现整个应用服务的开发。ETLETL 作业调度作业调度数据处理需要进行大量的 ETL 计算，管理各种计算任务之间的依赖关系及其调度，我们采用了非常轻量的 Azkaban 调度系统。业务元数据管理业务元数据管理业务元数据，主要用于支撑数据服务平台 Web UI 上面的各种业务条件选项，比如，常用的有如下一些：移动设备机型、品牌、运营商、网络、价格范围、设备物理特性应用名称、包名、哈希值应用分类地域信息，如国家、省份、城市、区县POI 名称、地址POI 分类，包括一级分类、二级分类光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/ 光环大数据光环大数据 http:/这些元数据，有些来自于基础数据部门提供的标准库，比如品牌、价格范围等，可以从对应的数据表中同步或直接读取；而有些具有时间含义的元数据，需要每天通过 ETL 处理生成，比如应用信息；POI 数据需要从外部抓取，并进行处理，一般每个月更新一次。这些元数据，为支撑应用计算使用，被存储在 MySQL 数据库中；而对于填充页面上对应的条件选择的数据，则使用 Redis 存储，每天/月会根据 MySQL 中的数据进行加工处理，生成易于快速查询的键值对类数据，存储到 Redis 中。数据服务数据服务数据服务，主要支撑后台的数据应用，全平台采用标准的 REST 接口风格来定义，主要使用 Spring Boot 来快速开发对应的接口。离线批量服务进行 REST 接口封装还有一点我们需要遵循的是，任何具有复杂的数据处理逻辑的服务，都通过一层 REST 接口进行封装，将全部的离线批量服务后置。这样得到一个聚合服务的 REST 接口层，该层主要负责定义和管理接口的各个请求、

《PB级海量数据服务平台架构设计实践_光环大数据培训》由会员gua****an分享，可在线阅读，更多相关《PB级海量数据服务平台架构设计实践_光环大数据培训》请在金锄头文库上搜索。

点击阅读更多内容

TA的资源