数据仓库模型建设规范10
20页1、数据仓库模型建设规范1. 概述数据仓库不同于日常的信息系统开发,除了遵循其他系统开发的需求、分析、设计、测试等通常的软件生命周期之外,它还涉及到企业信息数据的集成,大容量数据的阶段处理和分层存储,数据仓库的模式选择等等,因此数据仓库的模型设计异常重要,这也是关系到数据仓库项目成败的关键。物理模型就像大厦的基础架构,就是通用的业界标准,无论是一座摩天大厦也好,还是茅草房也好,在架构师的眼里,他只是一所建筑,地基层层建筑封顶,这样的工序一样也不能少,关系到住户的安全,房屋的建筑质量也必须得以保证,唯一的区别是建筑的材料,地基是采用钢筋水泥还是石头,墙壁采用木质还是钢筋水泥或是砖头;当然材料和建筑细节还是会有区别的,视用户给出的成本而定;还有不可忽视的一点是,数据仓库的数据从几百GB到几十TB不等,即使支撑这些数据的RDBMS无论有多么强大,仍不可避免地要考虑数据库的物理设计。 数据仓库建模的设计目标是模型的稳定性、自适应性和可扩展性。为了做到这一点,必须坚持建模的相对独立性、业界先进性原则。2. 数聚模型架构在数聚项目实施过程,我们一般将数据仓库系统的数据划分为如下图所示几个层次。2.1.
2、 数据架构图2.2. 架构工作方法规范数据类型抽取方式转换方式加载方式表类型变化类型加载过程1.有时间戳2.数据量巨大3.交易事务表4.周期数据处 理增量变化抽取落地TMP区清洗转换标识增删改落地DCI区增量变化加载维表新增新增代理键。插入记录修改如果须保留历史,新增代理键。插入记录 如果无须保留历史,根据代理键修改记录。删除若为逻辑删除,可等同修改,或在抽取时过滤。 若为物理删除,则增量抽取无法判断被删除。事实表新增根据流水号删除目标表数据,查找代理键, 然后再加载增量变化数据. 修改删除 一般来说,事实表数据不物理删除,如果物理删除,增量抽取方式无法判断出来。1.无时间戳2.数据量小的表3.代码表4.主数据表5.初始数据加载全量抽取落地TMP区清洗转换落地DCI区全量加载维表 只适合系统初始化数据加载,不区分增删改事实表 查找对应代理键,全部加载,适合数据量小的场合,ETL简单快捷。清洗转换获取增量标识增删改添加时间戳落地DCI区增量变化加载维表新增 新增代理键。插入记录修改如果须保留历史,新增代理键。插入记录 如果无须保留历史,根据代理键修改记录删除 维表不处理被删除的维度记录。
3、事实表新增 根据事务流水号,删除目标表。 查找代理键,直接插入目标表。修改删除 根据事务流水号,删除目标表.可以处理物理删除现象。2.3. 准备层L02.3.1. 主要数据结构临时表:从数据源抽取,直接落地到临时表。临时表总是保存这次抽取的数据,不保留历史数据。也就是说,如果是全量抽取的话,就是源系统整个表的数据,如果是增量抽取的话,就是自从上次修改后的数据。接口表:从临时表,经过清洗、转换到达接口表。接口表保存历史数据,也就是说,如果是全量抽取的话,就是源系统整个表的数据,如果是增量抽取的话。 接口表里面也是源系统整个表的数据。转换表:为了进行清洗和转换建立的中间辅助表。2.3.2. 命名规范临时表:L0_TMP_源系统_具体业务 或 L0_TMP_业务主题_具体业务(对单一源) 举例:L0_TMP_POS_SALESORDER接口表:L0_DCI_业务主题_具体业务表 举例:L0_DCI_SALES_SALESORDER转换表:L0_MAP_具体业务表 举例:L0_MAP_SALES2.3.3. 开发工作l 开发数据抽取接口,落地TMP区 l 开发数据清洗转换程序,落地DCI区,多
4、源系统进行合并l 开发数据装载程序,装载到L1层2.4. 原子层L12.4.1. 主要数据结构维 度 表:整个数据仓库一致的维度代 码 表:维度属性,非维度代码等。原子事实表:根据业务主题,形成原子事实表汇总事实表:根据分析主题,业务主题形成合并或汇总的事实表。2.4.2. 命名规范维 度 表:DW_DIM_维度。 举例:组织维 DW_DIM_ORG 日期维 DW_DIM_DATE.代 码 表:DW_CODE_代码。举例:性别 DW_CODE_GENDER原子事实表:L1_DW_FACT_分析主题_具体分析汇总事实表:L1_DM_FACT_分析主题_具体分析2.4.3. 开发工作l 维护聚集。l 衍生计算,二次指标计算。2.5. 应用层L22.5.1. 主要数据结构宽 表: 根据需求,从L1层抽取成宽表,表现形式为固定报表,仪表盘等等。立 方 体: 根据分析主题,从L1生成OLAP立方体。视 图: 根据需要,从L1,L0层产生L2层的视图。前端应用,不仅仅可以利用L2层的数据结构,还可以利用L1层的数据结构。对于源系统,还可以利用L0层的DCI区数据,可以做详单和明细查询。2.5.2.
《数据仓库模型建设规范10》由会员206****923分享,可在线阅读,更多相关《数据仓库模型建设规范10》请在金锄头文库上搜索。
人教版小学英语单词分类记忆汇总表excel版
人教版九年级全一册英语词汇
2019年开展垃圾分类的工作总结报告【五篇】
六年级英语绘本教案
外研版小学英语单词表全带音标(一年级起点1-12册)
最新国家开放大学电大投资学网络核心课形考网考作业及答案
初中人教版七年级下册生物复习提纲
高中英语语法大全高中英语语法系统全解word版
☆初中英语语法专项练习习题以及答案
初中英语常考近义词同义词辨析
高中物理选修3-5全套教案(人教版) (1)
英语绘本《WeatherReport》教学设计
防护功能平战转换设计专篇各专业
初中人教版七年级上册下册全册生物复习提纲21页 (1)
商务星球版七年级上册地理知识点归纳总结
初中人教版七年级上册下册全册生物复习提纲21页 (2)
高中高考语文作文词汇句型优美句子万能语句大全
中考地理选择题专项复习550题含答案
北师大版七年级数学上册第四章基本平面图形单元测试题含解析
人教版七年级数学上册第一章有理数单元检测题解析版
2024-04-17 2页
2024-04-17 2页
2024-04-17 2页
2024-04-17 2页
2024-04-17 2页
2024-04-17 2页
2024-04-17 2页
2024-04-17 2页
2024-04-17 2页
2024-04-17 2页