数据仓库与数据挖掘原理及应用(第二版) 教学课件 ppt 作者 王丽珍 周丽华 陈红梅 第2章
59页1、1,第二章 数据仓库中的ETL和元数据,2,第二章 目录,2.1 ETL 2.2 元数据 2.3 外部数据 2.4 本章小结,3,2.1 ETL 2.1.1 ETL概念(1),在构建数据仓库的过程中,占据大量工作时间、在日常运行中经常出现问题并且问题最多的一个工作就是从业务数据库向数据仓库抽取、转换、加载数据。究其原因,是因为源数据往往来自于各种不同种类和形式的业务系统。为了保证数据仓库中数据的质量,需要一种支持多种数据源,具有数据“净化提炼”功能、数据加工功能和自动运行功能的抽取类程序。ETL正是这样的抽取程序。 数据仓库的ETL系统是数据仓库中数据整理阶段的一个主要工具,它与元数据管理相结合,提供对不同数据源的数据进行抽取、转换和加载的功能。ETL是数据从业务系统抽取转化到数据仓库的过程,具体包括了如下6个子过程:数据提取(Data Extract)、数据验证(Data Verification)、数据清理(Data Cleaning)、数据集成(Data Integration)、数据聚集(Data Aggregation)和数据加载(Data Load)。6个子过程之间的关系以
2、及ETL过程中数据和元数据的流动见图2.1。,4,通常而言,开发一个数据仓库项目包括了三个主要步骤:需求/建模,ETL开发和前端开发。其中,ETL是构建数据仓库的重要一环,同时也是构建数据仓库的基础与前提,是数据仓库从业务系统获得数据的必经之路。用户从数据源抽取出所需的数据,经过数据清洗和转换,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去。,2.1.1 ETL概念(2),5,在数据仓库建设的业务需求和数据分析阶段,我们将创建许多种数据映射信息。ETL 数据映射表是指导ETL过程设计的最佳方式,可以将该表用作与业务客户就数据映射和ETL过程问题进行交流的方式。ETL数据映射表有不同的级别,如实体级别和属性级别。每个级别中都具有不同级别的详细数据映射信息。表2.1是一个实体级别的ETL数据映射表的简化例子。该表中的每个“X”表示到操作细节或较低级数据映射文档的链接。,2.1.1 ETL概念(3),6,1. 数据提取(Data Extract) 数据提取是捕获源数据的过程。有两种捕获数据的主要方法: 完全刷新 增量更新 完全刷新,顾名思义,是对移入数据仓库的数据进行完全复制。该
3、复制可能替换数据仓库中的内容,及时在新的时间点上添加完整的新副本,或者与目标数据进行比较,以便在目标中生成一条修改记录。增量更新的关注重点是只捕获源数据中修改的数据。 数据的提取须既能满足决策的需要,又不影响业务系统的性能,所以进行数据提取时应制定相应的策略,包括提取方式、提取时机、提取周期等内容。 在制定提取策略时,需要对数据的种类、数据的特征以及数据内容等各项因素综合考虑。通常情况下,流水型增长且数据量大的数据适合采用增量更新的方式;经常变化更新的数据适合采用完全刷新的方式;对于两者结合的数据,优先考虑增量更新方式,其次才考虑完全刷新的方式。 对于提取周期要考虑实际业务的需要和提取进行的系统代价,在可能的情况下,尽量缩短提取周期。,2.1.1 ETL概念(4),7,2. 数据验证(Data Verification) 数据验证是一个处理不尽人意(less-than-perfect)的数据的过程。 在数据仓库建设的业务数据分析阶段,一般产生了一组数据质量假设。这些假设将指定客户和仓库建设者双方在数据质量问题上的职责。仓库建设者通常通过数据清理和增强等方法保证仓库的质量,而客户则可以从
4、数据源本身出发,来有效地解决数据质量问题,这常常是保证数据质量的关键问题。例如: 丢失的数据恢复。 模糊的数据转换。 业务操作应用程序带来的数据质量问题 只能从应用程序本身解决的数据质量问题。 一般应该在数据仓库建设的合同文档中包含数据质量假设,因为如果没有用正确的方法及时解决业务数据的质量问题,它可能严重影响数据仓库建设的时间表。数据质量假设可能是与客户进行时间表协商的一个重要条件。,2.1.1 ETL概念(5),8,即使假设客户将承担其责任,解决他们业务数据源中的数据质量问题,但将来仍然可能在业务数据源中再次产生质量较差的数据。在那些数据对后面的ETL过程产生负面影响之前,实现数据验证,用ETL的数据验证模块来拒绝它们就显得十分重要。数据验证包含许多检查,其中主要包括: 属性的有效值(域检查)。 属性在剩余行的环境中是有效的。 属性在该表或其他表中相关的环境中是有效的。 关系在该表和其他表中的行间是有效的(外键检查)。 这并非是一个详尽的列表。它仅仅强调了数据验证的一些基本概念。,2.1.1 ETL概念(6),9,3. 数据清理(Data Cleaning) 数据清理是清理有效数据
《数据仓库与数据挖掘原理及应用(第二版) 教学课件 ppt 作者 王丽珍 周丽华 陈红梅 第2章》由会员E****分享,可在线阅读,更多相关《数据仓库与数据挖掘原理及应用(第二版) 教学课件 ppt 作者 王丽珍 周丽华 陈红梅 第2章》请在金锄头文库上搜索。
逍遥游复习 知识点整理
近现代法德关系史 高三展示课3稿
当代大学生人生信仰及追求的调查研究
长相思 纳兰性德-ppt课件
课件:危机意识 一
英语ppt演讲关于阿甘正传
发达国家基础教育改革的动向与趋势 修改版
中国民间美术 课件.ppt
生物质发电技术与系统 课程ppt 第1章 生物质发电技术现状及发展趋势 2学时 -----2016
现代信号处理思考题 含答案
执业药师继续教育 抑郁症的药物治疗 100分
小学生的成长档案模板不用修改 万能型
增订六版 现代汉语 上册 第二章文字 思考与练习答案
国家财政ppt课件
加拿大英语介绍
六年级统计图的选择课件
中学生成长档案ppt
中国现代文学史期末复习整理
lohi和hihilo训练对女子赛艇运动员运动能力影响的比较研究
风雨贾平凹阅读答案
2024-04-11 25页
2024-04-11 37页
2024-04-11 28页
2024-04-11 31页
2024-04-11 36页
2024-04-11 29页
2024-04-11 22页
2024-04-11 27页
2024-04-11 34页
2024-04-11 32页