好文档就是一把金锄头!
欢迎来到金锄头文库![会员中心]
电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

数据仓库建设思路整理.docx

4页
  • 卖家[上传人]:m****
  • 文档编号:391885708
  • 上传时间:2023-04-16
  • 文档格式:DOCX
  • 文档大小:46.97KB
  • / 4 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 数据仓库建设思路整理1. 建设背景:目前我行数据缺失、历史数据查询困难、各部门数据提取依赖 SQL 脚本实时查询而效率低下、正确性不高等问题在这种背景下我行数 据仓库建设显得尤为重要2. 数仓系统功能模型:当前同业主流数据仓库系统功能模型大体如图 1.0 所示:IDS层FDS层L客户维丿I罐户维 账户维/数据调 度平台数据分发数据分发ETLETL[银行卡I账I〔中间业务I r渠道|时间维,文件卸载区文件备份区文件数据 字典 管理FTP服务器IC3 C3 CJ CJETLVFTP获取FTP数据传输图 1.0主要分以下几个模块:源数据:主要是下发的核心业务、ECIF、信贷系统、财务系统,支付系统等数据以及第三方提供并为我行使用的数据FTP服务器:主要负责接下发数据或通过调用接口等形式获取 第三方源数据文件文件卸载区:负责从 FTP 服务器获取当前需要更新到数据仓 库的数据文件备份区:负责将进入数据仓库的数据文件进行备份管理ODS (Operational Data Store):操作型数据存储,仅对源数 据增加源系统和数据日期作为区分存储起来 可以用于明细和 流水等原始记录查询FDS (Fundational Data Strore):基础数据存储,按客户、存 款、贷款、公共、银行卡、总账、中间业务、渠道八个主题对数 据进行汇总和计算。

      IDS(Integrated Data Store) :集成数据存储,对数据按客户维、 账户维、时间维、机构维、产品维等维度对数据进行集成应用系统:主要负责展示、分析和使用数据仓库数据 数据仓库管理平台:主要负责作业调度, 元数据管理,系统 监控等功能3. 数据仓库技术模型:根据数据仓库个模块的不同特性总结各层级所用到的技术或 者软件如下图2.0 所示批量采集数据采集商业:DATASTAGE (IBM产 品)、INFORMATICA(INFORMATICA 产品);开源:SQOOP, KETTLE,关 系型数据库以及HADOOP自带 的文件导出和导入功能MPP数据库数据储存/计算商业:TERADATA(TERADATA 公司产品)、Oracle Exadata (Oracle 产品), NETEZZA(IBM产品);开源:GREENPLUM (目前腾讯 云的TIBASE、阿里云的 HybridDB for PostgreSQL都 是基干GREENPLUM优化的)批量接口数据服务商业:DATASTAGE(IBM产 品)、INFORMATICA(INFORMATICA产品);开源:SQOOP, KETTLE。

      调度平台:数仓实现技术实时采集商业:GOLDENGATE (ORACLE 产品)、InfoSphere Change Data Capture (IBM)产品;开源:KETTLE (需要在源表 增加时间戳字段)查询数据流采集商业:MQ (IBM产品);开源:KAFKA, ROCKETQUEUE, FLUMEHADOOP平台商业:华为、星环科技有商 业版本;开源:CLOUDERA、 HortonWOrks 版本Hbase(HADOOP生态产品)、 查询接口商业:CONTROL-M(IBM产品)、MOIA (先进数通公司产品);开源: Azkaban, OOZIE,自建’运维监控:ETL工具、MPP数据库以及HADOOP体系软件都带有监控工具图 3.0上图每层实现技术区分商业和开源实现方案,其中商业软件实时同步商业:MQ(IBM产品);开源:KAFKA、 ROCKETQUEUE性能好、服务支持好,但是因为都是国外大型公司产品,产品价 格高;而开源方案在性能方面不如商业软件, 同时需要投入较 多较多时间,人力进行整合建设过程中可以结合数据规模,数 据储存时间, 实际访问需求量等方面综合考虑,采用不同的技 术实现方案。

      点击阅读更多内容
      关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
      手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
      ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.