好文档就是一把金锄头!
欢迎来到金锄头文库![会员中心]
电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

数据仓库技术苍松书苑.ppt

45页
  • 卖家[上传人]:cl****1
  • 文档编号:579673850
  • 上传时间:2024-08-27
  • 文档格式:PPT
  • 文档大小:3.70MB
  • / 45 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 数据库新技术                                                                                                                                                                         数据仓库技术1专业课堂 数据库新技术                                                                                                                                                                         数据仓库技术•数据库数据库:: 将数据堆积如山将数据堆积如山•数据仓库数据仓库:对数据库的数据进行清洗,堆积:对数据库的数据进行清洗,堆积 成更大的数据山成更大的数据山•OLAP:: 从不同的角度对数据山进行观察从不同的角度对数据山进行观察•数据挖掘数据挖掘:从数据山中挖掘出有用的商业知识:从数据山中挖掘出有用的商业知识2专业课堂 数据库新技术                                                                                                                                                                         数据仓库技术数据仓库技术1.数据仓库产生背景数据仓库产生背景2.数据仓库概念数据仓库概念3.数据仓库系统数据仓库系统4.ETL(Extract、、Transform、、Load)5.操作数据存储操作数据存储6.数据仓库设计数据仓库设计7.数据仓库的发展现状和趋势数据仓库的发展现状和趋势3专业课堂 数据库新技术                                                                                                                                                                         数据仓库技术1、数据仓库产生背景、数据仓库产生背景企业数据处理分为两大类:企业数据处理分为两大类:操作型处理也叫事务处理:操作型处理也叫事务处理:是指对数据库是指对数据库联机的日常操作,通常是对一个或一组联机的日常操作,通常是对一个或一组记录的查询和修改,主要是为企业的特记录的查询和修改,主要是为企业的特定应用服务的,人们关心的是响应时间、定应用服务的,人们关心的是响应时间、数据的安全性和完整性;数据的安全性和完整性;分析型处理:分析型处理:主要是对历史数据进行分析主要是对历史数据进行分析和推理,为决策提供依据。

      和推理,为决策提供依据4专业课堂 数据库新技术                                                                                                                                                                         数据仓库技术1、数据仓库产生背景、数据仓库产生背景二者的区别二者的区别操作型操作型分析型分析型处理数据处理数据 当前数据当前数据历史数据历史数据支持技术支持技术 事务处理技术事务处理技术大量数据分析大量数据分析用户群体用户群体 大量一般人员大量一般人员少量管理人员少量管理人员处理特性处理特性 响应时间快响应时间快CPU均衡均衡响应时间随意响应时间随意CPU占有不定占有不定5专业课堂 数据库新技术                                                                                                                                                                         数据仓库技术2、数据仓库概念、数据仓库概念数据仓库定义数据仓库定义•“数据仓库之父数据仓库之父” William H.Inmon在在“Building the Data Warehouse”一书中一书中的的定定义义::“数数据据仓仓库库是是在在企企业业管管理理和和决决策策中中面面向向主主题题的的、、集集成成的的、、 时时变变的的 ((随随时时间间变变化化的的)) 、、非非易易失失的的((不不可可修修改改的的))数数据集合据集合”。

      6专业课堂 数据库新技术                                                                                                                                                                         数据仓库技术2、数据仓库概念、数据仓库概念面向主题的面向主题的•主主题题是是一一个个抽抽象象的的概概念念,,是是在在较较高高层层次次上上将将企企业业信信息息系系统统中中的的数数据据综综合合、、归归类类并并进进行行分分析析利利用用的的抽抽象象,,能能完完整整、、统统一一地地刻刻画画各各个个分分析析对对象象所所涉涉及及的的企企业业的的各各项数据项数据 一些主题,如顾客、供应商、产品一些主题,如顾客、供应商、产品 7专业课堂 数据库新技术                                                                                                                                                                         数据仓库技术2、数据仓库概念、数据仓库概念集成的集成的 在在数数据据进进入入数数据据仓仓库库之之前前,,必必然然要要经经过过统统一一与与综综合合,,这这一一步步是是数数据据仓仓库库建建设设中中最关键、最复杂的一步。

      最关键、最复杂的一步如数据一致化、综合计算如数据一致化、综合计算 等等8专业课堂 数据库新技术                                                                                                                                                                         数据仓库技术2、数据仓库概念、数据仓库概念时变的(随时间变化的)时变的(随时间变化的)(1) (1) 随时间变化不断增加新的数据内容随时间变化不断增加新的数据内容2) (2) 随时间变化不断删去旧的数据内容随时间变化不断删去旧的数据内容 (3) 数数据据仓仓库库中中包包含含有有大大量量的的综综合合数数据据,,这这些些综综合合数数据据中中数数据据很很多多跟跟时时间间有有关关,,如如数数据据经经常常按按照照时时间间段段进进行行综综合合,,或或隔隔一一定定的的时时间间片片进进行行抽抽样样等等等等这这些些数数据据要要随随时时间间的的变变化化不不断断地进行重新综合地进行重新综合。

      9专业课堂 数据库新技术                                                                                                                                                                         数据仓库技术2、数据仓库概念、数据仓库概念非易失的(不可修改的非易失的(不可修改的 )) 数据仓库反映的是历史数据内容,而不是联机数据仓库反映的是历史数据内容,而不是联机数据,主要供企业决策分析之用,数据,主要供企业决策分析之用, 所涉及的数所涉及的数据操作主要是数据查询,据操作主要是数据查询, 数据仓库的数据并不数据仓库的数据并不进行修改操作进行修改操作 10专业课堂 数据库新技术                                                                                                                                                                         数据仓库技术2、数据仓库概念、数据仓库概念数据仓库与一般数据库的比较数据仓库与一般数据库的比较数据仓库系统数据仓库系统数据库系统数据库系统管理层使用管理层使用一线人员使用一线人员使用战略性价值战略性价值策略性价值策略性价值支持战略制定支持战略制定支持日常操作支持日常操作用于联机分析用于联机分析用于事务处理用于事务处理面向主题面向主题面向应用程序面向应用程序存储历史数据存储历史数据仅存储当前数据仅存储当前数据不可预测查询模型不可预测查询模型可预测查询模型可预测查询模型11专业课堂 数据库新技术                                                                                                                                                                         数据仓库技术3、、 数据仓库系统数据仓库系统仓库的结构、粒度与分割仓库的结构、粒度与分割仓库的结构、粒度与分割仓库的结构、粒度与分割早期细节级早期细节级早期细节级早期细节级当前细节级当前细节级当前细节级当前细节级轻度综合级轻度综合级轻度综合级轻度综合级高度综合级高度综合级高度综合级高度综合级元元元元数数数数据据据据操作型转换操作型转换操作型转换操作型转换12专业课堂 数据库新技术                                                                                                                                                                         数据仓库技术矛盾:矛盾:粒度越低,细节程度越高,回答查询的种类就越多。

      粒度越低,细节程度越高,回答查询的种类就越多粒度越低,细节程度越高,回答查询的种类就越多粒度越低,细节程度越高,回答查询的种类就越多 例如例如回回回回答答答答“ “张张张张三三三三在在在在某某某某时时时时某某某某地地地地是是是是否否否否给给给给李李李李四四四四打打打打过过过过电电电话话话? ? ? ?” ”这这这这样样样样细细细细节的问题但这必然造成数据仓库中数据的大量堆积节的问题但这必然造成数据仓库中数据的大量堆积节的问题但这必然造成数据仓库中数据的大量堆积节的问题但这必然造成数据仓库中数据的大量堆积回回回回答答答答“ “张张张张三三三三去去去去年年年年共共共共打打打打了了了了几几几几次次次次长长长长途途途途电电电话话话? ? ? ?” ”这这这这样样样样的的的的综综综综合合合合性性性性问问问问题题题题时时时时,,,,要要要要从从从从大大大大量量量量细细细细节节节节数数数数据据据据中中中中综综综综合合合合并并并并计计计计算算算算答答答答案案案案,,,,效效效效率率率率将十分低下将十分低下将十分低下将十分低下粒度越高,查询效率越高粒度越高,查询效率越高粒度越高,查询效率越高粒度越高,查询效率越高。

      3、、 数据仓库系统数据仓库系统粒度与分割粒度与分割粒度与分割粒度与分割13专业课堂 数据库新技术                                                                                                                                                                         数据仓库技术3、、 数据仓库系统数据仓库系统元数据:元数据:元数据:元数据:关于数据的数据关于数据的数据关于数据的数据关于数据的数据 •数据仓库结构的描述数据仓库结构的描述•操作源数据的描述操作源数据的描述•汇总用的数据描述汇总用的数据描述•由操作环境到数据仓库的映射由操作环境到数据仓库的映射•关于系统性能的数据关于系统性能的数据•商商务务元元数数据据,,包包括括商商务务术术语语和和定定义义、、数数据据拥有者信息等等拥有者信息等等 14专业课堂 数据库新技术                                                                                                                                                                         数据仓库技术1)1)简单堆积文件简单堆积文件 2)2)轮转综合文件轮转综合文件 3)3)简单直接文件简单直接文件 4) 连续文件连续文件 3、、 数据仓库系统数据仓库系统数据组织数据组织数据组织数据组织15专业课堂 数据库新技术                                                                                                                                                                         数据仓库技术3、、 数据仓库系统数据仓库系统简单堆积文件简单堆积文件 将每日由数据库中提取并加工的数据逐天累积地存储起来将每日由数据库中提取并加工的数据逐天累积地存储起来将每日由数据库中提取并加工的数据逐天累积地存储起来将每日由数据库中提取并加工的数据逐天累积地存储起来 操作型数据每日事务处理每日综合2月1日2月2日2月3日     。

      3月1日3月2日3月3日     1月1日1月2日1月3日     16专业课堂 数据库新技术                                                                                                                                                                         数据仓库技术3、、 数据仓库系统数据仓库系统轮转综合文件轮转综合文件 数据存储单位被分为日、周、月、年等几个级别数据存储单位被分为日、周、月、年等几个级别数据存储单位被分为日、周、月、年等几个级别数据存储单位被分为日、周、月、年等几个级别 每日事务处理每日综合操作型数据第1天 第2天 第3天…第7天第1周 第2周第3周…第5周第1月 第2月 第3月…第12月第1年 第2年第3年…第n年17专业课堂 数据库新技术                                                                                                                                                                         数据仓库技术 它类似于简单堆积文件,但它是间隔一定它类似于简单堆积文件,但它是间隔一定时间的数据库时间的数据库快照快照,比如每隔一星期或一,比如每隔一星期或一个月作一次。

      简单直接文件也可以认为是个月作一次简单直接文件也可以认为是按一定的时间间隔对数据库的采样按一定的时间间隔对数据库的采样 3、、 数据仓库系统数据仓库系统简单直接文件简单直接文件简单直接文件简单直接文件1月份彩电销售海尔         68长虹         100东芝         20熊猫         10 ……    ……2月份彩电销售海尔         150长虹         90东芝         40熊猫         30……    ……18专业课堂 数据库新技术                                                                                                                                                                         数据仓库技术3、、 数据仓库系统数据仓库系统连续文件连续文件连续文件连续文件1 11月份彩电销售海尔         68长虹         100东芝         20熊猫         10 ……  ……2月份彩电销售海尔         150长虹         90东芝         40熊猫         30……  ……海尔         1月份至今       218长虹         1月份至今       190东芝         1月份至今       60熊猫         1月份至今       40……   ……             ……19专业课堂 数据库新技术                                                                                                                                                                         数据仓库技术3、、 数据仓库系统数据仓库系统连续文件连续文件连续文件连续文件2 2连续文件3月份彩电销售海尔         75长虹         60东芝         80熊猫         40……    ……海尔         1月份至今       293长虹         1月份至今       250东芝         1月份至今       140熊猫         1月份至今       80……    ……             ……海尔         1月份至今       218长虹         1月份至今       190东芝         1月份至今       60熊猫         1月份至今       40……    ……             ……20专业课堂 数据库新技术                                                                                                                                                                         数据仓库技术 是一个小型的数据仓库,是针对企业中的某是一个小型的数据仓库,是针对企业中的某个或是几个部门提出的数据仓库解决方案,个或是几个部门提出的数据仓库解决方案,一般是为部门一级的管理人员提供决策支持一般是为部门一级的管理人员提供决策支持的信息。

      的信息 数据集市具备的特性包括:规模小、面向特数据集市具备的特性包括:规模小、面向特定的应用、面向部门定的应用、面向部门/工作组、快速实现、投工作组、快速实现、投资规模小、易使用、全面支持异构平台等资规模小、易使用、全面支持异构平台等 数据集市一般只注意企业的一个较狭窄的范数据集市一般只注意企业的一个较狭窄的范围,它通常只包含一个主题区域或一种分析围,它通常只包含一个主题区域或一种分析 3、、 数据仓库系统数据仓库系统数据集市(数据集市(数据集市(数据集市(Data MartData Mart ))))21专业课堂 数据库新技术                                                                                                                                                                         数据仓库技术3、、 数据仓库系统数据仓库系统数据仓库体系结构数据仓库体系结构[ [Pieter ,1998Pieter ,1998] ]SourceDatabasesData Extraction,Transformation, loadWarehouseAdmin.ToolsExtract, Transformand LoadDataModelingToolCentralMetadataArchitectedData MartsData Accessand AnalysisEnd-UserDW ToolsCentral DataWarehouseCentral DataWarehouseMid-TierMid-TierDataMartDataMartLocal MetadataLocal MetadataLocal MetadataMetadataExchangeMDBDataCleansingToolRelationalAppl. PackageLegacyExternalRDBMSRDBMS22专业课堂 数据库新技术                                                                                                                                                                         数据仓库技术   数据仓库 MRDB MDDB信息发布系统操作型数据和外界数据 数据集市报表,查询, EIS工具OLAP 工具数据挖掘工具管理平台元数据管理平台数据仓库体系结构23专业课堂 数据库新技术                                                                                                                                                                         数据仓库技术4、、 ETL(抽取、转换和加载)(抽取、转换和加载) (((( Extract, Transform and Load ))))在数据仓库构建过程中,作业量最大、日常运行中在数据仓库构建过程中,作业量最大、日常运行中问题最多的是将数据从业务数据库向数据仓库移问题最多的是将数据从业务数据库向数据仓库移动的过程。

      动的过程由于数据仓库是一个独立的数据环境,它需要通过由于数据仓库是一个独立的数据环境,它需要通过抽取过程将数据从联机事务处理系统、外部数据抽取过程将数据从联机事务处理系统、外部数据源、脱机的数据存储介质中导入数据仓库源、脱机的数据存储介质中导入数据仓库需经过抽取、转换、清洗、加载和汇总等几个步骤需经过抽取、转换、清洗、加载和汇总等几个步骤24专业课堂 数据库新技术                                                                                                                                                                         数据仓库技术4、、 ETL(抽取、转换和加载)(抽取、转换和加载)抽取抽取1)1)要访问源数据库中哪些文件或表?要访问源数据库中哪些文件或表?2)2)从源数据库中可以提取哪些字段?从源数据库中可以提取哪些字段?3)3)在产生的结果中,要调用的字段是什么?在产生的结果中,要调用的字段是什么?4)4)什么是输出的目标和输出的数据库格式?什么是输出的目标和输出的数据库格式?5)5)应该按照什么时间表重复提取?应该按照什么时间表重复提取?25专业课堂 数据库新技术                                                                                                                                                                         数据仓库技术4、、 ETL(抽取、转换和加载)(抽取、转换和加载)转换转换就是对从多个不同业务数据库所抽取的数据,进行就是对从多个不同业务数据库所抽取的数据,进行数据项名称的统一、位数的统一、编码的统一和数据项名称的统一、位数的统一、编码的统一和度量标准的统一,消除数据之间的不一致性以及度量标准的统一,消除数据之间的不一致性以及消除重复数据。

      消除重复数据如:一个存储的数据值为如:一个存储的数据值为“男男”和和“女女”,而另一,而另一个为为个为为“M”和和“F”这两个数据源的值都是正这两个数据源的值都是正确的确的 26专业课堂 数据库新技术                                                                                                                                                                         数据仓库技术4、、 ETL(抽取、转换和加载)(抽取、转换和加载)清洗清洗对进入数据仓库的数据进行全面检查并使它们尽可对进入数据仓库的数据进行全面检查并使它们尽可能无差错能无差错 包括在数据源里丢失数据和有错误数据:包括在数据源里丢失数据和有错误数据:包括两个或多个数据源里的不一致数据和冲突数据包括两个或多个数据源里的不一致数据和冲突数据 27专业课堂 数据库新技术                                                                                                                                                                         数据仓库技术4、、 ETL(抽取、转换和加载)(抽取、转换和加载)加载加载通常指数据从存储源数据库的计算机到数据仓库的计算机之间的物理移动。

      通常指数据从存储源数据库的计算机到数据仓库的计算机之间的物理移动通常指数据从存储源数据库的计算机到数据仓库的计算机之间的物理移动通常指数据从存储源数据库的计算机到数据仓库的计算机之间的物理移动 是以最高效和最及时的方式把数据加载到数据仓库是以最高效和最及时的方式把数据加载到数据仓库中数据加载可以使用加载程序来进行数据加载可以使用加载程序来进行加载程序要求:加载程序要求:关闭日志记录的能力关闭日志记录的能力关闭日志记录的能力关闭日志记录的能力按索引对文件进行预排序按索引对文件进行预排序按索引对文件进行预排序按索引对文件进行预排序数据类型转换和操作数据类型转换和操作数据类型转换和操作数据类型转换和操作数据统计数据统计数据统计数据统计 28专业课堂 数据库新技术                                                                                                                                                                         数据仓库技术4、、 ETL(抽取、转换和加载)(抽取、转换和加载)汇总汇总 汇总数据是数据仓库里数据的一个层次,一旦加汇总数据是数据仓库里数据的一个层次,一旦加载了数据,它就有可能创建这些汇总数据。

      在每载了数据,它就有可能创建这些汇总数据在每次次增量更新增量更新以后,都通常应重新创建汇总数据,以后,都通常应重新创建汇总数据,因为基本数据的任何变化都会对它们产生影响因为基本数据的任何变化都会对它们产生影响 29专业课堂 数据库新技术                                                                                                                                                                         数据仓库技术示例:GenBank记录(平面文件)AccNumCrossRef30专业课堂 数据库新技术                                                                                                                                                                         数据仓库技术5、操作数据存储、操作数据存储((((Operational Data StoreOperational Data Store,,,,ODSODS)))) 在实际工作中,存在着大量的对企业进行日在实际工作中,存在着大量的对企业进行日常管理和控制决策的问题。

      这类问题并不是常管理和控制决策的问题这类问题并不是联机事务处理,又算不上高层决策分析解联机事务处理,又算不上高层决策分析解决这类问题需要企业全局一致的、细节的、决这类问题需要企业全局一致的、细节的、当前或接近当前的数据,又需要面向主题、当前或接近当前的数据,又需要面向主题、集成的数据环境正是因为在两种处理类型集成的数据环境正是因为在两种处理类型之间存在着这么一个中间层次,才要求在之间存在着这么一个中间层次,才要求在DB-DW两层体系结构的基础上再增加一个两层体系结构的基础上再增加一个新的层次新的层次ODS,从而形成,从而形成DB-ODS-DW的三的三层体系结构层体系结构 31专业课堂 数据库新技术                                                                                                                                                                         数据仓库技术5、操作数据存储、操作数据存储ODSODSODSODS中中中中数数数数据据据据的的的的四四四四个个个个基基基基本本本本特特特特点点点点是是是是面面面面向向向向主主主主题题题题的的的的、、、、集集集集成成成成的的的的、、、、可更新的、可更新的、可更新的、可更新的、 当前或接近当前的。

      当前或接近当前的当前或接近当前的当前或接近当前的•其中面向主题和集成的特点与其中面向主题和集成的特点与其中面向主题和集成的特点与其中面向主题和集成的特点与DWDWDWDW是极为相似的是极为相似的是极为相似的是极为相似的•可可可可更更更更新新新新的的的的是是是是指指指指可可可可以以以以进进进进行行行行联联联联机机机机改改改改变变变变的的的的,,,,包包包包括括括括增增增增、、、、删删删删、、、、更新等操作更新等操作更新等操作更新等操作•当前的是指,数据在存取时刻是最新的;当前的是指,数据在存取时刻是最新的;当前的是指,数据在存取时刻是最新的;当前的是指,数据在存取时刻是最新的;•而而而而接接接接近近近近当当当当前前前前的的的的则则则则是是是是指指指指,,,,存存存存取取取取的的的的数数数数据据据据是是是是最最最最近近近近一一一一段段段段时时时时间间间间之前得到的之前得到的之前得到的之前得到的 32专业课堂 数据库新技术                                                                                                                                                                         数据仓库技术5、操作数据存储、操作数据存储ODSODS可可以以进进行行企企业业级级操操作作型型信信息息处处理理((包包括括日日常常决决策策支支持持))。

      一一方方面面 ,,当当数数据据准准备备移移入入ODSODS中中时时,,须须进进行行数数据据转转换换,,按按照照企企业业模模式式集集成成 另另一方面,一方面,ODSODS中的数据是可以更新的中的数据是可以更新的 支持支持ODSODS有效工作的技术是有效工作的技术是动态切换动态切换 这里的这里的动态切换是指技术在信息模式与操作型模式之动态切换是指技术在信息模式与操作型模式之间切换所谓信息模式就是只有查询操作的工间切换所谓信息模式就是只有查询操作的工作模式(非排它型的),而操作型模式则指含作模式(非排它型的),而操作型模式则指含有更新操作的工作模式(排它型的)有更新操作的工作模式(排它型的) 33专业课堂 数据库新技术                                                                                                                                                                         数据仓库技术操作数据库、操作数据存储、数据仓库三者之间的比较操作数据库、操作数据存储、数据仓库三者之间的比较操作数据库操作数据库操作数据存储操作数据存储数据仓库数据仓库数据内容数据内容当前值当前值当前和最近的值当前和最近的值存档、归纳数据和经存档、归纳数据和经计算得出的数据计算得出的数据数据组织数据组织面向应用程序面向应用程序根据主体域根据主体域----数据集成数据集成面向主题面向主题数据性质数据性质动态动态(经常变化经常变化)动态动态(经常变化经常变化)静态静态(刷新时除外刷新时除外)数据结构格式数据结构格式复杂:适于操作型计算复杂:适于操作型计算复杂到简单复杂到简单简单:适于商业分析简单:适于商业分析访问概率访问概率高高高到中高到中中到低中到低数据更新数据更新按字段更新按字段更新可更新可更新没有直接地更新没有直接地更新数据访问数据访问每个事务访问几条记录每个事务访问几条记录每个事务访问几条记录每个事务访问几条记录每个事务访问多条记录每个事务访问多条记录用途用途高度结构化、重复处理高度结构化、重复处理和事务处理和事务处理高度结构化、重复处理高度结构化、重复处理和事务处理和交互式和事务处理和交互式分析处理分析处理响应时间要求响应时间要求低于低于1 1秒到秒到2~32~3秒秒低于低于1 1秒到秒到2~32~3秒秒几秒到几分,几小时几秒到几分,几小时对性能的要求对性能的要求高高中到高中到高中中34专业课堂 数据库新技术                                                                                                                                                                         数据仓库技术6、数据仓库设计、数据仓库设计数据仓库的焦点问题-数据的获得、存储和使用数据的获得、存储和使用RelationalPackageLegacyExternalsourceDataCleanToolDataStagingEnterprise DataWarehouse DatamartDatamartRDBMSROLAPRDBMSEnd-UserToolEnd-UserToolMDBEnd-UserToolEnd-UserToolvv数据仓库和集市的加载能力至关重要数据仓库和集市的加载能力至关重要vv数据仓库和集市的查询输出能力至关重要数据仓库和集市的查询输出能力至关重要35专业课堂 数据库新技术                                                                                                                                                                         数据仓库技术6、数据仓库设计、数据仓库设计创建数据仓库需要强调的问题创建数据仓库需要强调的问题创建数据仓库需要强调的问题创建数据仓库需要强调的问题• •需需需需求求求求第第第第一一一一 是是是是否否否否有有有有进进进进行行行行数数数数据据据据分分分分析析析析的的的的需需需需要要要要,,,,还还还还是是是是简简简简单单单单的的的的进进进进行行行行一一一一些些些些日日日日常常常常统统统统计计计计、、、、制制制制作作作作报报报报表表表表工工工工作作作作。

      数数数数据据据据仓仓仓仓库库库库技技技技术术术术的的的的主主主主要要要要目目目目的的的的是是是是帮帮帮帮助助助助决决决决策策策策者者者者进进进进行行行行决决决决策策策策,,,,如如如如果果果果单单单单纯纯纯纯的的的的用用用用数数数数据据据据仓仓仓仓库库库库的的的的应应应应用用用用去去去去充当充当充当充当“ “制作灵活报表制作灵活报表制作灵活报表制作灵活报表” ”的工具,那就是大材小用了的工具,那就是大材小用了的工具,那就是大材小用了的工具,那就是大材小用了• •数数数数据据据据是是是是基基基基础础础础 要要要要有有有有正正正正在在在在运运运运行行行行中中中中的的的的、、、、处处处处于于于于不不不不断断断断更更更更新新新新的的的的操操操操作作作作型型型型数数数数据据据据源源源源,,,,而而而而且且且且对对对对已已已已有有有有的的的的数数数数据据据据要要要要确确确确保保保保其其其其质质质质量量量量,,,,数数数数据据据据是是是是否否否否正正正正确确确确,,,,是否良好定义、集成且完整一致是否良好定义、集成且完整一致是否良好定义、集成且完整一致是否良好定义、集成且完整一致• •数数数数据据据据分分分分析析析析是是是是数数数数据据据据仓仓仓仓库库库库的的的的灵灵灵灵魂魂魂魂 数数数数据据据据仓仓仓仓库库库库建建建建立立立立的的的的主主主主要要要要目目目目的的的的就就就就是是是是进进进进行行行行有有有有效效效效的的的的分分分分析析析析预预预预测测测测,,,,因因因因此此此此,,,,要要要要选选选选择择择择有有有有用用用用的的的的、、、、高高高高效效效效的的的的分分分分析工具析工具析工具析工具 。

      36专业课堂 数据库新技术                                                                                                                                                                         数据仓库技术6、数据仓库设计、数据仓库设计数据仓库设计的要求数据仓库设计的要求•满满足足用用户户的的需需要要——用用户户的的接接受受程程度度是是数数据据仓仓库库设计成功的标志设计成功的标志•不影响不影响OLTPOLTP系统的正常运行系统的正常运行•提供存放一致的数据仓库提供存放一致的数据仓库•快速地回答复杂的查询快速地回答复杂的查询•提供一系列功能强大的分析工具,如提供一系列功能强大的分析工具,如OLAPOLAP和数据和数据挖掘工具等挖掘工具等 37专业课堂 数据库新技术                                                                                                                                                                         数据仓库技术6、数据仓库设计、数据仓库设计当前成功数据仓库的一些特点当前成功数据仓库的一些特点 •建立在多维数据模型的基础上建立在多维数据模型的基础上•包含历史数据包含历史数据•同时包含详细数据和汇总数据同时包含详细数据和汇总数据•面向主题进行组织面向主题进行组织•在在保保持持数数据据一一致致性性的的基基础础上上,,合合并并来来自自多多个个异异构构数据源的数据数据源的数据•丰富易用的报表、丰富易用的报表、OLAPOLAP、数据挖掘工具、数据挖掘工具 38专业课堂 数据库新技术                                                                                                                                                                         数据仓库技术6、数据仓库设计、数据仓库设计数据仓库建设的一个步骤:数据仓库建设的一个步骤: •任务和环境的评估任务和环境的评估•需求的收集和分析需求的收集和分析•数据模型设计(数据模型设计(概念概念、、逻辑逻辑、物理)、物理)•定义记录系统定义记录系统•数据仓库生成数据仓库生成•数据仓库技术的培训数据仓库技术的培训1.要结合用户的现状,来明确数据仓库的目标任务。

      2.最好能确定评定将来数据仓库系统成功与否的基本原则3.开展评估工作一定要有企业高层负责人参加 4.建立数据仓库的环境状况和所利用的网络技术状况 1.数据仓库是为支持决策服务的,所以首先要了解决策者的需求 2.领导的决策总是由一批具体工作人员支持的,所以还应从他们这里收集具体的需求,并加以分析 3.当前共同的业务问题是什么4.此外,还要对在实现这些业务需求时,对信息技术的需求加以分析 (运行平台、数据质量如何;确认硬件、网络和软件的限制条件;数据装载与更新的策略问题;数据量和占用空间的估计1. 概念模型的设计概念模型的设计 l   主题域的公共码键l   主题域之间的联系l   充分代表主题的属性组2.逻辑模型设计逻辑模型设计 l    确定数据仓库中的表结构3.物理模型设计物理模型设计 l   确定数据的存储结构 l   确定索引策略l   确定数据存放位置l   确定存储分配1.选择最完整、最及时、最准确、最接近外选择最完整、最及时、最准确、最接近外部实体源的数据作为记录系统部实体源的数据作为记录系统 2.记录系统的定义要记入数据仓库的元数据记录系统的定义要记入数据仓库的元数据。

      1.建立记录系统与数据仓库之间的接口建立记录系统与数据仓库之间的接口 2.建立第一个主题域,在反馈和循环中逐渐建立第一个主题域,在反馈和循环中逐渐建立其他主题域建立其他主题域 1.数据仓库是支持用户进行决策的,人对系统的运作是决定性的因素只有人充分地利用数据仓库的决策功能才可以证明数据仓库的成功2.建成数据仓库后要根据具体情况认真进行用户的培训 39专业课堂 数据库新技术                                                                                                                                                                         数据仓库技术6、数据仓库设计、数据仓库设计应用A应用B应用C收集应用需求分析应用需求构建数据仓库系统实施系统测试应用编程DW生命周期方法数据仓库建模数据获取与集成构建数据仓库理解需求系统测试DSS应用编程DW反生命周期法DB外部数据DB40专业课堂 数据库新技术                                                                                                                                                                         数据仓库技术6、数据仓库设计、数据仓库设计 --自顶向下方法自顶向下方法数据集市数据集市外部数据外部数据数据集市数据集市– –建造企业数据仓库建造企业数据仓库建造企业数据仓库建造企业数据仓库建设中心数据模型建设中心数据模型建设中心数据模型建设中心数据模型一次性的完成数据的重构工作一次性的完成数据的重构工作一次性的完成数据的重构工作一次性的完成数据的重构工作最小化数据冗余度和不一致性最小化数据冗余度和不一致性最小化数据冗余度和不一致性最小化数据冗余度和不一致性存储详细的历史数据存储详细的历史数据存储详细的历史数据存储详细的历史数据– –从企业数据仓库中建造数据集市从企业数据仓库中建造数据集市从企业数据仓库中建造数据集市从企业数据仓库中建造数据集市得到大部分的集成数据得到大部分的集成数据得到大部分的集成数据得到大部分的集成数据直接依赖于数据仓库的可用性直接依赖于数据仓库的可用性直接依赖于数据仓库的可用性直接依赖于数据仓库的可用性操作数据操作数据问题投资效益的时间投资效益的时间投资效益的时间投资效益的时间? ?建设中心数据模型的必要性和可能性建设中心数据模型的必要性和可能性建设中心数据模型的必要性和可能性建设中心数据模型的必要性和可能性? ?初始费用初始费用初始费用初始费用 ? ?企业数据仓库企业数据仓库41专业课堂 数据库新技术                                                                                                                                                                         数据仓库技术6、数据仓库设计、数据仓库设计 --自底向上方法自底向上方法数据集市数据集市–建立部门数据集市建立部门数据集市限制在一个主题区域限制在一个主题区域快速投资收益快速投资收益 区域自治区域自治 – 设计的可伸缩性强设计的可伸缩性强对相关部门的应用容易复制对相关部门的应用容易复制 对每个数据集市需要数据重构对每个数据集市需要数据重构存在一定的冗余及不一致性存在一定的冗余及不一致性逐步扩展到企业数据仓库逐步扩展到企业数据仓库 (EDW)把建造把建造EDW作为一个长期的目标作为一个长期的目标存在的问题存在的问题:数据集市的数据都是可用的吗数据集市的数据都是可用的吗?能生成数据模型吗能生成数据模型吗?如何解决不一致性如何解决不一致性?外部数据外部数据操作数据操作数据 (全局全局)&操作数据操作数据 (局部局部)数据集市数据集市企业数据仓库企业数据仓库操作数据操作数据 (局部局部)42专业课堂 数据库新技术                                                                                                                                                                         数据仓库技术6、数据仓库设计、数据仓库设计数据模型的内容数据模型的内容数据模型的内容数据模型的内容vv标识主要主题领域。

      标识主要主题领域标识主要主题领域标识主要主题领域vv各个主要主题之间的各种关系各个主要主题之间的各种关系各个主要主题之间的各种关系各个主要主题之间的各种关系vv清晰地定义模型的边界清晰地定义模型的边界清晰地定义模型的边界清晰地定义模型的边界vv把原始数据和导出数据分离把原始数据和导出数据分离把原始数据和导出数据分离把原始数据和导出数据分离vv每个主题领域需要标识每个主题领域需要标识每个主题领域需要标识每个主题领域需要标识键码键码键码键码属性属性属性属性属性分组之间的关系属性分组之间的关系属性分组之间的关系属性分组之间的关系多重出现的数据多重出现的数据多重出现的数据多重出现的数据数据的类型数据的类型数据的类型数据的类型43专业课堂 数据库新技术                                                                                                                                                                         数据仓库技术6、数据仓库设计、数据仓库设计将数据模型变为数据仓库要做的工作将数据模型变为数据仓库要做的工作将数据模型变为数据仓库要做的工作将数据模型变为数据仓库要做的工作vv如果原先没有时间元素的话,时间元素必须加入到如果原先没有时间元素的话,时间元素必须加入到如果原先没有时间元素的话,时间元素必须加入到如果原先没有时间元素的话,时间元素必须加入到键键键键 码结构中码结构中码结构中码结构中vv必须清除所有的纯操作型数据必须清除所有的纯操作型数据必须清除所有的纯操作型数据必须清除所有的纯操作型数据vv需要将参照完整性关系转换成需要将参照完整性关系转换成需要将参照完整性关系转换成需要将参照完整性关系转换成“ “人工关系人工关系人工关系人工关系” ”vv将经常需要用到的导出数据加入到设计中将经常需要用到的导出数据加入到设计中将经常需要用到的导出数据加入到设计中将经常需要用到的导出数据加入到设计中vv对数据的结构进行调整对数据的结构进行调整对数据的结构进行调整对数据的结构进行调整n n增加数据阵列增加数据阵列增加数据阵列增加数据阵列n n增加数据冗余增加数据冗余增加数据冗余增加数据冗余n n在合适的情况下进一步分离数据在合适的情况下进一步分离数据在合适的情况下进一步分离数据在合适的情况下进一步分离数据n n在合适的时候合并数据表在合适的时候合并数据表在合适的时候合并数据表在合适的时候合并数据表vv需要做数据的稳定性分析需要做数据的稳定性分析需要做数据的稳定性分析需要做数据的稳定性分析44专业课堂 数据库新技术                                                                                                                                                                         数据仓库技术7、数据仓库的发展现状和趋势、数据仓库的发展现状和趋势 一、并行化和可扩展性一、并行化和可扩展性二、集中化二、集中化三、数据仓库与三、数据仓库与Internet/Intranet的集成的集成四、数据挖掘工具的成熟和广泛使用四、数据挖掘工具的成熟和广泛使用五、通用数据库五、通用数据库六、数据仓库打包应用六、数据仓库打包应用 1.为提高数据仓库的性能和可扩展能力,数据仓库已趋向并行化。

      2.在硬件层次上,已越来越明显地采用多处理器并行结构3.在数据库层次上,许多数据库厂商已推出并行产品,以适应数据仓库市场的需要 数据仓库项目将越来越大,到2010年,约有90%的集中化信息管理将依赖于数据仓库市场 随着Internet/Intranet技术的广泛应用和发展,数据仓库将Internet/Intranet进行很好的集成,即前台是Web服务器,后台是数据仓库系统 数据挖掘工具和人工智能代理将是以后5年推动决策支持演变过程的主要力量 数据仓库将支持多媒体、支持结构化和非结构化数据,即向通用数据库发展,具有面向对象的能力 数据仓库将集成一些工具和应用,打包推向用户 45专业课堂 。

      点击阅读更多内容
      关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
      手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
      ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.