SAP BI 学习手册--精选文档
8页1、SAP BW 顾问靠手 ETL 数据抽取、转化、加载数据仓库的一个重要功能就是对不同来源的数据进行归集和处理。不同类型的数据对象可以用来存储这些数据或者实现数据的联合视图。这些对象相对而言是静态的。但是,对数据的转换和处理就需要在数据的流转过程中进行定义。数据从来源系统或者一个数据对象中被读取出来,经过一定的转换和处理,再存储到另一个数据对象中。这一过程实现了对数据的加工,真正体现了数据仓库的价值,是数据仓库模型中动态的部分。企业如何通过各种技术手段,把数据转换为信息、知识已经成了提高其核心竞争力的主要瓶颈。数据抽取、转换、加载(Extract ,Transform, Load, ETL) 技术正是解决这一问题的一把利刃。数据仓库的架构大体可以分为三部分:后台是数据存储和计算引擎:前端是数据展现分析的用户界面:还有一个重要的部分就是ETL 。ETL 的作用ETL 所完成的工作主要包括3 方面:1) 在数据仓库和业务系统之间搭建起一座桥梁,确保新的业务数据源源不断地进入数据仓库:2) 用户的分析和应用也能反映出最新的业务动态,虽然ETL 在数据仓库架构的三部分中技术含量并不算高,但其涉及
2、到大量的业务逻辑和异构环境,因此在一般的数据仓库项目中ETL 部分往往也是牵扯精力最多的:3) 如果从整体角度来看, ETL 主要作用在于屏蔽了复杂的业务逻辑,从而为各种基于数据仓库的分析和应用提供了统一的数据接口,这也是构建数据仓库最重要的意义所在。作为BI/DW 的核心和灵魂,能够按照统一的规则集成并提高数据的价值,是负责完成数据从数据源向目标数据仓库转化的过程,是实施数据仓库的重要步骤。数据转化为信息绝不是没有价值的任务。由于不能很好地提供数据,让用户可以容易地使用数据进行分析,数据仓库经常被放弃。实际上,如果不对数据进行转换,这些提供的数据是无用的。因为它既不能被管理,也不能被利用。这样项目是个极大的风险,因此,明确数据仓库项目的实际目的特别重要:提供决策支持或支持管理的决策。数据仓库必须以可用信息的形式向目标群提供存储的数据。如果说数据仓库的模型设计是一座大厦的设计蓝图,数据是砖瓦的话,那么ETL 就是建设大厦的过程。在整个项目中最难部分是用户需求分析和模型设计,而ETL 规则设计和实施则是工作量最大的,约占整个项目的60% -80% ,这是从国内外众多实践中得到的普遍共识。
3、ETL 的体系结构一个成熟的ETL 体系结构,一般包含以下组件,它也体现了主流ETL 产品框架的主要组成部分。1) ETL 设计:提供一个图形化的映射环境,让开发者定义从源到目标的映射关系、转换、处理流程。设计过程的各对象的逻辑定义存储在一个元数据资源库中。2) 元数据管理:提供一个关于ETL 设计和运行处理等相关定义、管理信息的元数据资料库。ETL 引擎在运行时和其他应用都可参考此资料库中的元数据。3) 数据抽取:通过接口提取源数据,例如ODBC、专用数据库接口和平面文件提取器,并参照元数据来决定数据的提取及其提取方式。4) 数据转换:允许用户将提取的数据,按照业务需要转换为目标数据结构,并实现汇总。5) 数据加载:加载经转换和汇总的数据到目标数据仓库中,可实现批量加载。6) 数据传输进程:利用网络协议或文件协议,在源和目标系统之间移动数据,利用内存在ETL 处理的各组件中移动数据。7) 管理和操作平台:可让管理员基于事件和时间进行调度、运行、监测ETL 作业、管理错误信息、从失败中恢复和调节从源系统的输出。ETL 过程在很大程度上受企业对源数据的理解程度的影响,也就是说从业务的角度
4、看数据集成非常重要。基于这样的体系结构, ETL 工具的不同组件各自实现着不同的作用,实现不同的功能。当系统功能改变时,应用程序只需要进行很少修改就可适应变化,可扩展性强。ETL 工具的质量控制一个好的ETL 工具,应该能够从技术方面保证对数据质量的自动检验,屏蔽掉烦琐的技术细节,使用户可以把更多的精力花在业务逻辑的设计上面。在ETL 转换过程中,对数据质量的控制可以从以下6 个方面着手。1) 空值处理:系统可捕获字段空值,进行加载或替换为其他含义数据,并可根据字段空值实现分流加载到不同目标库。2) 规范化数据格式:可实现字段格式约束定义,对于数据源中时间、数值、字符等数据,可自定义加载格式。3) 拆分数据:可以依据业务需求对字段可进行分解。例如,对电话号码可进行区域码和市话号码的分解。4) 验证数据正确性:系统在数据加载时可以自动利用查询相关的主数据表或字典表,对新数据进行数据验证口5) 数据替换:对于因业务因素,可实现无效数据、缺失数据的替换。能缺失数据通过子查询,并返回用其他手段获取的缺失字段,保证字段完整性。6) 建立ETL 过程的主外键约束:对无依赖性的非法数据,可替换或导出
《SAP BI 学习手册--精选文档》由会员壹****1分享,可在线阅读,更多相关《SAP BI 学习手册--精选文档》请在金锄头文库上搜索。
新学期心理咨询室工作计划
财务部门工作总结参考样本(9篇)
运动健身知识指南知识讲解
高中教科室工作计划
昆虫记每章读后感3篇《昆虫记》每章的读后感-
2023年06月黑龙江哈尔滨工业大学双创中心勤工助学岗位招考聘用笔试参考题库附答案详解
VR产业园项目投资价值分析报告_参考范文
重力式挡土墙分类
2023年度校园消防安全计划标准范本(二篇)
钳工培训教材
教学反思怎么写
朗读是一件既有意义而又愉快的事情
化工企业动火应落实的安全技术措施简易版
离婚后夫妻共同财产分割协议书经典版(八篇).doc
发酵豆粕的方法及功能
2023年工会财务工作总结
跳槽的辞职报告模板锦集9篇
全球变化生态学
高一政治下册第一单元复习教案5篇.doc
项目技术员工作心得
2023-08-11 5页
2023-10-13 69页
2023-10-27 6页
2023-09-08 14页
2023-02-16 16页
2022-12-06 4页
2023-10-26 5页
2023-10-13 15页
2023-08-07 22页
2023-03-23 5页