电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

数据仓库与数据挖掘原理及应用(第二版) 教学课件 ppt 作者 王丽珍 周丽华 陈红梅 第3章

70页
  • 卖家[上传人]:E****
  • 文档编号:89184336
  • 上传时间:2019-05-20
  • 文档格式:PPT
  • 文档大小:707KB
  • / 70 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 1、1,第三章 数据仓库模型设计及数据仓库建立,2,第三章 目录,3.0 相关概念 3.1 数据仓库的概念模型设计 3.2 数据仓库的逻辑模型设计 3.3 数据仓库的物理模型设计 3.4 数据仓库的建立过程 3.5 提高数据仓库性能 3.6 本章小结,3,3.0 相关概念,数据模型是对现实世界的反映和抽象,它可以充分体现用户的业务需求,清楚地表达各个部门之间的相关性,有效地消除冗余数据。 数据仓库模型包括概念模型、逻辑模型和物理模型。 概念模型描述的是客观世界到主观世界的映射。 逻辑模型描述的是主观世界到关系模型的映射。 物理模型描述的是关系模型到物理实现的映射。,4,3.1 数据仓库的概念模型设计,3.1.1 E-R模型 3.1.2 面向对象的分析方法,5,3.1.1 E-R模型(1),在概念模型中,最常用的表示方法是E-R法(实体-联系法),这种方法用E-R图作为它的描述工具。 E-R图描述的是主题以及主题之间的联系。如图3.1所示。,图3.1 E-R模型的概念模型设计过程,6,任务和环境的评估 结合用户的现状来明确数据仓库的目标任务,看在原有的数据库系统中“有什么”、“怎样组织的”和

      2、“如何分布的”。 需求的收集和分析 考虑决策者的决策类型、决策者感兴趣的问题、解决这些问题所需要的信息、这些信息的来源。 主题选取,确定主题间关系 主题选择的原则包括: 优先实施管理者目前最迫切需求、最关心的主题。 优先选择能够在较短时间内发生效益的决策主题。 推后实施业务逻辑准备不充分的主题。 推后考虑实现技术难度大、可实现性较低、投资风险大的主题。,3.1.1 E-R模型(2),7,主题内容描述 主题的公共码键。 主题之间的联系。 主题的属性。 E-R图 长方形表示主题,在框内写上主题名; 椭圆形表示主题的属性; 用无向边把主题与其属性连接起来; 用有向边表示主题之间的联系:单向边表示一对多的关系,双向边表示多对多的关系,无向边表示一对一的关系。举例如下:,3.1.1 E-R模型(3),8,例: 建立中医方剂数据仓库。 方剂中的信息可以分为两部分:一部分是药物的配比,即需要哪几味中药,每种药材各需要多少;另一部分则是其主治的病症,这两部分信息被方剂有机地联系在一起。药物的配比是由药理决定的,而病症的规则又是与病因和发病的机理密切联系,要分析方剂,就不可能不研究这两方面的信息。因此可

      3、以确定主要的主题为方剂主题用于分析药物间的配伍规律;药物主题用于分析药理;病症主题用于分析各种临床表现间的关联关系及症型识别,所需的数据为方剂数据、药物数据、病症数据。,3.1.1 E-R模型(4),9,一种药物可以在多首处方上出现,一首处方可以包含多种药物,因此“处方”主题与“药物”主题之间是多对多的方药关系;一首处方可以治疗多种病症,一种病症可以使用多首处方来治疗,因此“处方”主题与“病症”主题之间也是多对多的方症关系。对各主题的属性信息的描述如表3.1所示。,3.1.1 E-R模型(5),10,中医方剂数据仓库的E-R概念模型见图3.2。,图3.2 中医方剂数据仓库的概念模型,3.1.1 E-R模型(6),11,E-R图的优点: 对客观世界的描述能力较强,具有良好的可操 性,形式简单直观,易于理解,便于与用户交流。 E-R图的缺点: 主题之间的关系只包括一对多和多对多,这在某些错综复杂的关系面前就显得表达能力有限 ,且对企业模型进行静态的描述,对于企业动态运作处理的描述无能为力。,3.1.1 E-R模型(7),12,3.1.2 面向对象的分析方法(1),采用面向对象方法进行概念模

      4、型设计时,E-R模型中的实体、实体的属性、实体间的关系分别转化为面向对象系统中的类、类的属性、类间的关系。面向对象方法的概念模型设计过程如图3.3所示。,图3.3 面向对象方法的概念模型设计过程,13,类是对某种类型事物的抽象,它将这类事物所具有的共同特征(包括操作特征和存储特征)集中起来,以说明这类事物的能力和性质。 类常用的图形表示方法是类表。类表由名称、属性集合、动作集合三部分组成,如图3.4所示。,图3.4 类表,3.1.2 面向对象的分析方法(2),14,类之间存在的三种关系: 继承。继承是指从某个类中派生出具有诸多相同属性的子类,被派生的类称为基类。子类具备基类的一切属性,同时又具备了与其他子类不同的特征属性。 包容。包容是某个类包含了其他的类。 关联。除了包容和继承关系之外,类之间的其他关系都归入关联关系。关联关系可以通过类的动作来体现,如图3.5所示。,图3.5 关联关系,3.1.2 面向对象的分析方法(3),15,包容和继承的区别: 包容和继承最大的区别在于被包容的类不从包容类中继承属性和动作,相反,包容类的动作是被包容类作为整体而产生的新动作。 两者的区别方法: 将

      5、集合中的某个子集移出集合,如果原集合仍然能够成立,则是继承关系,否则是包容关系。 如3.6图所示。,3.1.2 面向对象的分析方法(4),16,中医方剂数据仓库选择出三个类:药物类、方剂类、病症类,其中药物类可以派生出治感冒的药物、治脾胃的药物和治肠炎的药物三个子类,各类之间的关系如图3.7所示,其中药物类的类表如图3.8所示。,3.1.2 面向对象的分析方法(5),17,3.2 数据仓库的逻辑模型设计,3.2.1 分析主题,确定当前要装载的主题 3.2.2 确定数据粒度的选择 3.2.3 确定数据分割策略 3.2.4 增加导出字段 3.2.5 定义关系模式 3.2.6 定义记录系统,18,3.2.1 分析主题,确定当前要装载的主题,对概念模型设计步骤中确定的几个基本主题进行分析,并选择首先要实施的主题。第一个要实施的主题应该能建设成为一个可用的系统,并便于开发和较快地实施。,19,3.2.2 确定数据粒度的选择(1),数据仓库是面向联机分析处理(OLAP)和数据挖掘(DM)的,针对OLAP和DM,粒度具有两种形式:针对OLAP的粒度和针对DM的粒度。 1. 针对OLAP的粒度 针对O

      6、LAP的粒度是对数据仓库中的数据综合程度高低的一个度量,是指数据仓库的数据单位中保存数据的细化或综合程度的级别。细化程度越高,粒度级越小;相反,细化程度越低,粒度级越高。如图3.9所示。,20,3.2.2 确定数据粒度的选择(2),21,粒度的设计会影响存放在数据仓库中的数据量的大小。数据越详细,粒度越小,级别就越低,数据量越大;相反,数据综合度越高,粒度越大,级别就越高,数据量越小。 数据的粒度同时影响数据仓库能回答的查询类型。 粒度的选择和划分: 粒度选择的主要标准是数据仓库中表的总行数。 W. H. Inmon在Building the Data Warehouse中指出了不同数量级采用的数据粒度策略,如表3.2所示。该策略对于数据粒度设计有着良好的指导和借鉴作用。,3.2.2 确定数据粒度的选择(3),22,粒度划分确定数据仓库中数据的综合层次。粒度级别的划分受以下三个因素的影响。 要接受的分析类型 可接受的最低粒度 能存储数据的存储容量,3.2.2 确定数据粒度的选择(4),23,2. 针对DM的粒度 在数据挖掘过程中,有时为了减小问题规模,提高效率,需要根据一定的采样率从数

      7、据仓库中抽取出一个子集,在这个子集上进行数据挖掘。抽取数据时,对于变化较为缓慢的数据使用低采样率,而对于变化较快的数据使用高采样率。这时样本数据库中的粒度不是根据综合程度的不同来划分,而是由采样率的高低来划分,采样粒度不同的样本数据库可以具有相同的数据综合程度。,3.2.2 确定数据粒度的选择(5),24,3.2.3 确定数据分割策略(1),分割是指把逻辑上是统一整体的数据分割成较小的、可以独立管理的物理单元进行存储,从而提高数据处理的效率。 分割可以按时间、地区、业务类型等多种标准来进行。但在多数情况下,数据分割采用的标准不是单一的,而是多个标准的组合。如图3.11所示。,25,选择适当的数据分割标准,一般要考虑以下几方面的因素: 数据量大小。 数据分析处理的实际情况。 简单易行。 与粒度的划分策略相统一。 数据的稳定性。,3.2.3 确定数据分割策略(2),26,3.2.4 增加导出字段,导出数据是指事先在原始数据的基础上进行总结或计算而生成的数据,这些数据可以在以后的应用中直接利用,避免了重复计算。如图3.12中的 “出现次数”、“总剂量”。,27,3.2.5 定义关系模式,数据

      8、仓库的每个主题需要由多个表来实现,这些表之间依靠主题的公共码键联系在一起,形成一个完整的主题。例如实现方剂主题所需的信息表及相互之间的联系图3.13所示。,28,3.2.6 定义记录系统,记录系统的定义是指明数据仓库中关系表各个字段来源于哪个业务数据库的哪张表的哪个字段。例如,“药物”主题记录系统的定义如表3.3所示。,29,3.3 数据仓库的物理模型设计,3.3.1 索引策略 3.3.2 数据存储策略,30,3.3.1 索引策略(1),索引能缩短读取时间,提高数据检索效率。常用的索引策略有以下三种: 1. B-Tree索引 B-Tree索引是一种平衡树索引。它适合在磁盘等直接存取设备上组织动态的查找表。一颗度为m(m3)的B-Tree称为m阶B-Tree,它是满足如下性质的m叉树: 1)每个结点至少包含下列数据域:(j,P0,Kl,P1,K2,Ki,Pi),其中,j为关键字总数 Ki(1ij)是关键字,关键字序列递增有序:K1 K2Kj。Pi(0ij)是孩子指针。对于叶结点,每个Pi为空指针。,31,2)所有叶子是在同一层上,叶子的层数为树的高度h。 3)每个非根结点中所包含的关键字

      9、个数j满足:m/21jm1。 4)若树非空,则根至少有1个关键字,故若根不是叶子,则它至少有2棵子树。根至多有m1个关键字,故至多有m棵子树。,3.3.1 索引策略(2),32,B-Tree的建立过程: (1) 将关键字插入到适当的结点中,若某结点的关键字数目超过m1,则该结点将发生分裂; (2) 将分裂出来的结点插入到原结点所在子树的根结点中; (3) 剩余的关键字分裂成两部分,分别形成中值关键字(在子树根结点中)的左孩子和右孩子两个结点,左孩子结点中的关键字均小于中值关键字,右孩子结点中的关键字均大于中值关键字; (4) 重复上述过程,直至所有的关键字都插入到树中。,3.3.1 索引策略(3),33,例3.1 以关键字序列(a,g,f,b,k,d,h,m,j,e,s,i,r,x,c,l,n,t,u,p)建立一棵5阶B-Tree的过程如图3.14所示。图中省略了各结点的关键字数目域。 1)首先将关键字a,g,f,b插入初始结点,如图3.14(a)所示。 2)插入关键字k后,结点中的关键字数目超过4,故结点分裂,中值关键字f分裂出来后插入根结点0,小于中值的关键字集合a, b成为f的左孩子,大于中值的关键字集合g,k成为f的右孩子,如图3.14(b)所示。,3.3.1 索引策略(4),34,3.3.1 索引策略(5),3)分别将关键字d,h,m插入到结点1和结点2中,如图3.14(c)所示。 4)关键字j应插入结点2中。插入后,结点2发生分裂。中值关键字j分裂出来后插入根结点0,小于中值的关键字集合g,h成为j的左孩子,大于中值的关键字集合k,m成为j的右孩子,如图3.14(d)所示。 5)继续上述步骤,直至将所有关键字插入,形成B-Tree。如图3.14(e)所示。,35,36,B-Tree的查找过程: (1) 对结点内存放有序关键字序列的向量keylj用顺序查找或折半查找方法查找; (2) 若在某结点内找到待查的关键字K,则返回该结点的地址及K在key1j中的位置; (3) 否则,确定K在某个keyi和keyi+1之间结点后,从磁盘中读soni所指的结点继续查找直到在某结点中查找成功;或直至找到叶结点且叶结点中的查找仍不成功时,查找过程失败。,3.3.1

      《数据仓库与数据挖掘原理及应用(第二版) 教学课件 ppt 作者 王丽珍 周丽华 陈红梅 第3章》由会员E****分享,可在线阅读,更多相关《数据仓库与数据挖掘原理及应用(第二版) 教学课件 ppt 作者 王丽珍 周丽华 陈红梅 第3章》请在金锄头文库上搜索。

      点击阅读更多内容
    最新标签
    发车时刻表 长途客运 入党志愿书填写模板精品 庆祝建党101周年多体裁诗歌朗诵素材汇编10篇唯一微庆祝 智能家居系统本科论文 心得感悟 雁楠中学 20230513224122 2022 公安主题党日 部编版四年级第三单元综合性学习课件 机关事务中心2022年全面依法治区工作总结及来年工作安排 入党积极分子自我推荐 世界水日ppt 关于构建更高水平的全民健身公共服务体系的意见 空气单元分析 哈里德课件 2022年乡村振兴驻村工作计划 空气教材分析 五年级下册科学教材分析 退役军人事务局季度工作总结 集装箱房合同 2021年财务报表 2022年继续教育公需课 2022年公需课 2022年日历每月一张 名词性从句在写作中的应用 局域网技术与局域网组建 施工网格 薪资体系 运维实施方案 硫酸安全技术 柔韧训练 既有居住建筑节能改造技术规程 建筑工地疫情防控 大型工程技术风险 磷酸二氢钾 2022年小学三年级语文下册教学总结例文 少儿美术-小花 2022年环保倡议书模板六篇 2022年监理辞职报告精选 2022年畅想未来记叙文精品 企业信息化建设与管理课程实验指导书范本 草房子读后感-第1篇 小数乘整数教学PPT课件人教版五年级数学上册 2022年教师个人工作计划范本-工作计划 国学小名士经典诵读电视大赛观后感诵读经典传承美德 医疗质量管理制度 2 2022年小学体育教师学期工作总结 2022年家长会心得体会集合15篇
    关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
    手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
    ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.