
第三章数据仓库-联机分析处理PPT课件.ppt
38页Click to edit Master title style,Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,*,*,第三章联机分析处理,3.1OLAP,的概念,3.2OLAP,的数据模型,3.3,多维数据的显示,3.4OLAP,多维数据分析,1,3.1.1OLAP,的定义,联机分析处理(,On Line Analytical Processing,,,OLAP,),在数据仓库系统中,联机分析处理是重要的数据分析工具,OLAP,的基本思想,是从多方面和多角度以多维的形式来观察企业的状态和了解企业的变化2,3.1.1OLAP,的定义,特点:,性,OnLine,多维分析,Multi-dimension Analysis,3,3.1.2OLAP,的准则,准则:,准则,1,OLAP,模型必须提供多维概念视图,准则,2,透明性准则,准则,3,存取能力准则,准则,4,稳定的报表能力,准则,5,客户,/,服务器体系结构,准则,6,维的等同性准则,准则,7,动态的稀疏矩阵处理准则,准则,8,多用户支持能力准则,准则,9,非受限的跨维操作,准则,10,直观的数据操纵,准则,11,灵活的报表生成,准则,12,不受限的维与聚集层次,4,5,3.1.3 OLAP,的基本概念,基本概念,变量:,是数据的实际意义,即描述数据“是什么”。
维:,观察数据的特定角度如,时间维,、,产品维,、,顾客维,维的层次:,数据的维可以存在细节程度不同的多个描述方面,我们称这多个描述方面为维的层次例:,人数,单价,,销售额,等,例:时间维可以从,日期,月份,季度,年份,等不,同层次来描述6,3.1.3 OLAP,的基本概念,几个基本概念,维成员:,维的一个具体取值称为维成员,也就是将数据项在某维中位置的描述称为维的成员若一个维是多层次的,则该维的维成员是在不同维层次的取值的组合多维数组:,由多个维和变量组合起来,称为多维数组,是多维数据的表达方式维1,维2,,,维,n,,变量),单元格:,多维数组的取值称为单元格,(数据单元,),,可表示为,(维1,维成员,,,,维,n,维成员,,变量值),例:,设时间维有日,月,年,则分别各取一个值组合起来,就得到一个维成员,即,“,某年某月某日,”,例,:,(,地区,时间,类型,销售额),例,:,(南京,一季度,计算机,825,),7,3.2OLAP,的数据模型,SQL Server,的,Analysis,三种多维数据存储方式,:,MOLAP,(多维,OLAP,,,Multi-dimensional OLAP,),ROLAP,(关系,OLAP,,,Relational OLAP,),HOLAP,(混合,OLAP,,,Hybrid OLAP,),3.2.1MOLAP,数据模型,MOLAP,是基于多维数据库存储方式建立的,OLAP,;表现为,“,超立方,”,结构,采用类似于多维数组的结构。
例如,二维,MDDB,(数组,即矩阵)的数据组织见表,3.1,所示表,3.1 MDDB,(二维)数据组织,北京,上海,广州,衣服,600,700,500,鞋,800,900,700,帽子,100,200,80,表,3.2,多维数据库中含综合数据的数据组织,北京,上海,广州,总和,衣服,600,700,500,1800,鞋,800,900,700,2400,帽子,100,200,80,380,总和,1500,1800,1280,4580,产品名,地区,销售量,衣服,北京,600,衣服,上海,700,衣服,广州,500,鞋,北京,800,鞋,上海,900,鞋,广州,700,帽子,北京,100,帽子,上海,200,帽子,广州,80,表,3.3,关系数据库,RDBMS,数据组织,产品名,地区,销售量,衣服,北京,600,衣服,上海,700,衣服,广州,500,鞋,北京,800,鞋,上海,900,鞋,广州,700,帽子,北京,100,帽子,上海,200,帽子,广州,80,衣服 总和,1800,鞋 总和,2400,帽子 总和,380,表,3.4,关系数据库中综合数据的数据组织,13,总结,:多维数据库比关系数据库表达更清晰,并且占用存储少。
14,3.2.2ROLAP,数据模型,ROLAP,ROLAP,的数据与计算结果直接由原来的关系数据库取得ROLAP,将支撑多维数据的原始数据、多维数据集数据、汇总数据和维度数据都存储在现有的关系数据库中,并用独立的关系表来存放聚集数据星型模型、雪花模型、星网模型,这种多维描述,每次对维的操作都要求有,连接操作,,因此必须用可靠的,查询优化技术,不存储源数据副本,占用的磁盘空间最少,但存取速度也比较低3.2.3ROLAP,和,MOLAP,的比较,15,MOLAP,和,ROLAP,的对比简表,MOLAP,ROLAP,固定维,可变维,维交叉计算,无法完成多维交叉计算,行级计算,超大型数据库,存储性能好,响应速度快,响应时间较长,数据集市,数据仓库,17,HOLAP,ROLAP,与,MOLAP,存储方式的结合原始数据和,ROLAP,一样存储在原来的关系数据库中,而聚合数据则以多维的形式存储分析服务器优点:,既能与关系数据库建立连接,同时又利用了多维数据库的性能优势缺点:,是在,ROLAP,和,MOLAP,系统之间的切换会影响它的效率3.2OLAP,的数据模型,18,内容,MOLAP,ROLAP,HOLAP,源数据的副本,有,无,无,占用分析服务器存,储空间,大,小,小,使用多维数据集,小,较大,大,数据查询,快,慢,慢,聚合数据的查询,快,慢,快,使用查询频度,经常,不经常,经常,三种存储方式的比较,19,在实际决策过程中,决策者往往希望能从多个角度观察某个指标或多个指标的值,并且找出这些指标之间的关系,我们将这些观察数据的角度称为维。
可以说,决策数据是多维数据,多维数据分析是决策的主要内容例,】,一个比较有代表性的问题:需要知道东部地区和西部地区今年,6,月和去年,6,月在销售总额上的对比情况,并且销售额按,10-20,万,,20-30,万,,30-40,万,,40,万以上分组决策者所需的数据总是与一些,统计指标,、,观察角度,、,不同级别的统计,有关3.3OLAP,的数据显示与多维数据分析,3.3.1,数据立方体,20,3.3.1,数据立方体,由表到数据立方体,数据立方体允许以多维对数据建模和观察,它由,维,与,事实,定义维:,观察数据的特定角度每一个维都有一个表与之相关联,称为维表,用来进一步描述维多维数据模型通常围绕,中心主题,组织,该主题用,事实表,表示事实:,是数值度量的,事实,表,包括事实的名称或,数字,度量值以及每个相关维表的关键字21,3.3.1,数据立方体,由表到数据立方体,通常认为数据立方体是三维几何结构,在数据仓库中,数据立方体是,N,维,(N-D,),的考察一个,2-,D,数据立方体,(实际上是一张某电子公司的销售数据表),特别观察公司在南京的所有分店每季度销售的商品情况22,3.3.1,数据立方体,由表到数据立方体,地区,=,“,南京,”,销售数据按照时间,类型的,2-D,视图,产 品 类 型,家庭娱乐,计算机,电 话,安 全,Q1,Q2,Q3,Q4,605,680,812,927,1023,1038,952,825,14,31,30,38,400,512,501,580,时间,(,季度,),23,3.3.1,数据立方体,由表到数据立方体,在这个,2-,D,表示中,南京的销售用,维时间,和,维类型,表示,所显示的,事实或度量,是,销售额,(,万元,),。
再以三维角度观察销售数据,例如从时间,类型,地区观察数据地区是上海、北京、南京3-,D,数据如下表所示:,24,销售数据按照时间,类型和地区的,3-D,视图,时,间,地区,=“,上海”,产品类型,地区,=“,北京”,产品类型,地区,=“,南京”,产品类型,家庭,娱乐,计算机,,家庭,娱乐,计算机,,安全,家庭,娱乐,计算机,,安全,安全,Q1,Q2,Q3,Q4,1087,1130,1034,1142,38,41,45,54,968,1024,1034,1090,872,925,1002,984,818,894,940,978,746,769,759,864,43,52,58,59,591,682,728,784,605,680,812,927,825,952,1023,1038,14,31,30,38,400,512,501,580,25,605,680,812,927,825,952,1023,1038,38,30,31,14,400,512,501,580,818,746,43,591,38,872,968,1087,682,728,784,925,1002,984,Q1,Q2,Q3,Q4,南京,北京,上海,地区,时间,计算机,安全,,家庭娱乐,类型,3-D,数据立方体表示:,维是,时间、类型、地区;度量,为,万元,26,3.3.1,数据立方体,由表到数据立方体,假定我们想从四维的角度观察销售数据,再附加一维,供应商,。
观察,4-,D,事物变得麻烦,可把,4-,D,立方体看成,3-,D,立方体的序列:,27,销售数据的,4-D,数据立方体表示:维是,时间、类型、地区、供应商;,所显示的,度量,为,万元,时间,类型,供应商,1,供应商,2,供应商,3,类型,类型,地区,Q1,Q2,Q3,Q4,南京,北京,上海,计算机,安全,家庭娱乐,,计算机,安全,家庭娱乐,,计算机,安全,家庭娱乐,,605,825,14,400,28,3.3.1,数据立方体,由表到数据立方体,按此法继续下去,可把任意,N-D,数据立方体表示成,(N-1)-D,数据立方体序列数据立方体是对多维数据存储的一种比喻,这种数据的实际物理存储不同于它的逻辑表示重要的是数据立方体是,N,维的,而不限于,3-,D,29,3.3.2,多维数据分析的基本操作,1.,切片,定义,1,:,在给定数据立方体的一个维上进行选,择,导致一个子方的操作称为切片操,作定义,2,:,选定多维数组的一个二维子集的动作,叫作切片30,切片,广州,上海,北京,南京,计算机,安全,家庭娱乐,,605 825 14 400,类型,城市,Q1,Q2,Q3,Q4,计算机,安全,家庭娱乐,,南京,北京,上海,广州,605,825,14,400,395,1560,440,地区,(,城市,),时间,(,季,),类型,【,例,1】,对,时间,维的切片操作,它对中心数据立方体使用条件,:,时间,=,“,Q1,”,选择销售数据。
31,3.3.2,多维数据分析的基本操作,2.,切块,定义,1,:,在给定数据立方体的两个或多个维上,执行选择,定义子方的操作称为切块,操作定义,2,:,选定多维数组的一个三维子集的动作,称为切块32,【,例,2】,涉及三个维的切块,条件为,:(,地点,=,“,南京,”,OR,“,北京,”,),AND,(,时间,=,“,Q1,”,OR,“,Q2,”,),AND,(,类型,=,“,家庭娱乐,”,OR,“,计算机,”,),Q1,Q2,Q3,Q4,计算机,安全,家庭娱乐,,南京,北京,上海,广州,605,825,14,400,395,1560,440,地区,(,城市,),时间,(,季,),类型,切块,计算机,家庭娱乐,Q1,Q2,南京,北京,605,395,33,3.3.2,多维数据分析的基本操作,3.,旋转,改变一个页面显示的维方向的操作称为旋转(或转轴)34,广州,上海,北京,南京,计算机,安全,家庭娱乐,,605 。












