电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

数据仓库与数据挖掘课件2

64页
  • 卖家[上传人]:wm****3
  • 文档编号:51732427
  • 上传时间:2018-08-16
  • 文档格式:PPT
  • 文档大小:450.50KB
  • / 64 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 1、1第二章 数据仓库原理o2.1 数据仓库结构体系o2.2 数据仓库的数据模型o2.3数据抽取、转换和装载o2.4 元数据2第二章 数据仓库原理2.1 数据仓库结构体系o2.1.1 数据仓库结构o2.1.2数据集市及其结构o2.1.3 数据仓库系统结构o2.1.4 数据仓库运行结构34数据仓库与数据库的区别:面向主题与面向事务。2.1.1 2.1.1 数据仓库结构数据仓库结构5数据仓库与数据库的区别:面向事务:围绕公司功能性应用进行组织。 如:保险公司可能的应用有汽车保险,人寿保险, 健康保险,财产保险等。2.1.1 2.1.1 数据仓库结构数据仓库结构6数据仓库与数据库的区别: 面向主题:公司面对的对象。如: 保险公司可能的对象(主题域)是顾客,保险单, 保险费,与索赔。 生产商可能的对象(主题域)是:产品,销售商等 ; 零售商可能的对象(主题域)是:顾客,商品,库 存,销售,等;2.1.1 2.1.1 数据仓库结构数据仓库结构7数据仓库与数据库的区别: 集成性:数据仓库需要把原始数据集成。 如性别:2.1.1 2.1.1 数据仓库结构数据仓库结构男 女M f1 01 0X y8数据仓

      2、库与数据库的区别: 集成性:数据仓库需要把原始数据集成。 如销售额:2.1.1 2.1.1 数据仓库结构数据仓库结构元千元千元1. 万元百万元9数据仓库与数据库的区别: 非易失:很少删除、修改。2.1.1 2.1.1 数据仓库结构数据仓库结构10近期基本数据:是最近时期的业务数据,是数据 仓库用户最感兴趣的部分,数据量大。历史基本数据:近期基本数据随时间的推移,由 数据仓库的时间控制机制转为历史基本数据。轻度综合数据:是从近期基本数据中提取出的, 这层数据是按时间段选取,或者按数据属性( attributes)和内容(contents)进行综合。高度综合数据层:这一层的数据是在轻度综合数 据基础上的再一次综合,是一种准决策数据。2.1.1 2.1.1 数据仓库结构数据仓库结构数据综合11全国区域商店省/市城市如:公司的销售额 可以如下综合1. 1.数据集市的产生数据集市的产生o 数据仓库工作范围和成本常常是巨大的。开发数据仓库是代价很高、时间较长的大项目。o 数据仓库需要大型计算机,或超级计算机服务器 ,或并行结构平台;数据集市windows普通服务 器o 提供更紧密集成的数据集市就应

      3、运产生。o 目前,全世界对数据仓库总投资的一半以上均集 中在数据集市上。132.1.2 2.1.2 数据集市及其结构数据集市及其结构o 数据集市(Data Marts)是一种更小、更集中 的数据仓库,为公司提供分析商业数据的一条 廉价途径。 o Data Marts是指具有特定应用的数据仓库,主 要针对某个应用或者具体部门级的应用,支持 用户获得竞争优势或者找到进入新市场的具体 解决方案。142. 2.数据集市概念数据集市概念3.数据集市与数据仓库差别o (1)数据仓库是基于整个企业的数据模型建立的 ,它面向企业范围内的主题。而数据集市是按照某 一特定部门的数据模型建立的。o (2)部门的主题与企业的主题之间可能存在关联 ,也可能不存在关联。o (3)数据集市的数据组织一般采用星型模型。151、规模是小的 2、特定的应用 3、面向部门 4、由业务部门定义,设计和开发 5、由业务部门管理和维护 6、快速实现 7、购买较便宜 8、投资快速回收 9、更详细的、预先存在的数据仓库的摘要子集 10、可升级到完整的数据仓库164. 4.数据集市的特性数据集市的特性独立数据集市(Independen

      4、t Data Mart)从属数据集市(Dependent Data Mart)172.1.2 数据仓库系统结构数据仓库系统由数据仓库(DW)、仓库管理和分析工 具三部分组成。18191 1、仓库管理、仓库管理(1)数据建模 数据建模是建立数据仓库的数据模型。 数据模型包括数据结构和数据操作。数据结构的任务是确定:数据类型、内容、数据间的 关系,描述的是数据的静态特征。 数据操作的任务是确定对数据仓库中数据所允许的操 作。如检索、计算等201 1、仓库管理、仓库管理(1)数据建模 数据仓库的数据模型不同于数据库的数据模型在于: 数据仓库只为决策分析用,不包含事务处理的数据。 数据仓库的增加了时间属性数据。 数据仓库增加了一些综合数据。 数据仓库的数据建模是适应决策用户使用的逻辑数据 模型。 结果是产生了冗余!(2)数据抽取、转换、装载o 数据仓库中的数据,是通过在源数据中抽取 数据,按数据仓库的逻辑数据模型的要求进 行数据转换,再按物理数据模型的要求装载 到数据仓库中去。o 数据抽取Extraction、转换 Transformation、装载loading(ETL )是建立数据仓库的重

      5、要步骤,需要花费开 发数据仓库70%的工作量。21(1)查询工具数据仓库的查询不是指对记录级数据的查 询,而是指对分析要求的查询。一般包含:可视化工具:以图形化方式展示数据,可 以帮助了解数据的结构,关系以及动态性。222 2、分析工具、分析工具(2)多维分析工具(OLAP工具):通过对信息的多种可能的观察形式进行快 速、一致和交互性的存取,这样便利用户对数 据进行深入的分析和观察。多维数据的每一维代表对数据的一个特定 的观察视角,如时间、地域、业务等。232 2、分析工具、分析工具(3)数据挖掘工具从大量数据中挖掘具有规律性知识,需要 利用数据挖掘(Data Mining)工具。242 2、分析工具、分析工具252.1.2.1.4 4 数据仓库的运行结构数据仓库的运行结构数据仓库应用是一个典型的客户/服务器(C/S)结构形 式:客户端所做的工作:客户交互、格式化查询、结果显示、 报表生成等。服务器端完成各种辅助决策的SQL查询、复杂的计算和各 类综合功能等。 26OLAP服务器将加强和规范化决策支持的服务工作,集中和简化了原客户端和数据仓库服务器的部 分工作,降低了系统数据传输量。这

      6、种结构形式工作效率更高。OLAPOLAP的三层的三层C/SC/S结构结构27对一个零售企业,它关心哪些主题?关心经营时,销售额(金额或数量) 关心客户数量时,顾客 与经营额有关的实体有:商品,地域,销售时间,销售额2.2 2.2 数据仓库的数据模型数据仓库的数据模型28数据仓库存储采用多维数据模型。数据一般是数值2.2 2.2 数据仓库的数据模型数据仓库的数据模型果汁 可乐 牛奶商品维奶油 浴巾 香皂北京上海长沙1 2 3 4 5 6 7城市维日期维o 维就是相同类数据的集合,商店、时间和产品 都是维。各个商店的集合是一维,时间的集合 是一维,商品的集合是一维。每一个商店、每 一段时间、每一种商品就是某一维的一个成员 。 o 每一个销售事实由一个特定的商品、一个特定 的时间、一个特定的地区组成。o 两维表,如通常的电子表格。三维构成立方 体,若再增加一维,则图形很难想象,也不容 易在屏幕上画出来。292.2 2.2 数据仓库的数据模型数据仓库的数据模型大多数的数据仓库都采用“星型模型”。星型模型是由“事实表”(大表)以及多个“维表”(小表)所组成。“事实表”中存放大量关于企业的事实数据

      7、(数量数据)。包含大批数据的中心表。例如:多个时期的数据可能会出现在同一个“事实表” 中。“维表”中存放描述性数据,维表是围绕事实表建立的较小的表。302.2.1星型模型大多数的数据仓库都采用“星型模型”。星型模型是由“事实表”(大表)以及多个“维表”(小表)所组成。“事实表”中存放大量关于企业的事实数据(数量数据)。包含大批数据的但没有冗余的中心表。例如:多个时期的数据可能会出现在同一个“事实表” 中。“维表”中存放描述性数据,维表是围绕事实表建立的较小的表。312.2.1星型模型星型模型:一个中心表,一组维表,每维一个表,每个表包含一组属性。星型模型数据如下图:322.2.1星型模型33订货表客户表销售员表事实表产品表日期表地区表星型模型数据存储情况示意图 352.2.2雪花模型雪花模型对星型模型的维表进一步层次化,原来 的各维表为了减少冗余,进一步分解,形成一些局 部的“层次”区域。在上面星型模型的数据中 ,对“产品表”“日期 表”“地区表”进行扩展形成雪花模型数据见下图。36372.2.3星网模型星网模型是将多个星型模型连接起来形成网状结 构。多个星型模型通过相同的维,如时间维

      8、,连接多 个事实表。地区键 事务键 用户键 时间键 状态键 时间键 用户键 事务键 地区键 电话费用时间键 用户键 状态键 电话余额电话公司星网模型实例 2.2.4第三范式o 范式实际上是传统的关系数据库的设计理论。 o o 数据仓库可以按第三范式进行逻辑数据建模。 它不同于星型模型在于,把事实表和维表的属 性都集中在同一数据库中,按第三范式组织数 据。它减少了维表中的键和不必要的属性。o 著名的NCR数据仓库公司采用了第三范式的逻 辑数据模型。39o 星型模型在进行多维数据分析时,速度是很 快的。但是增加维度将是很困难的事情。o 第三范式对于海量数据(如TB级),且需 要处理大量的动态业务分析时,就显示了它 的优势。402.3数据抽取、转换和装载o 数据仓库的数据来源于多个数据源,主要是企 业内部数据;存档的历史数据;企业的外部数 据。这些数据源可能是在不同的硬件平台上, 使用不同的操作系统。源数据是以不同的格式 存放在不同的数据库中。o 数据仓库需要将这些源数据经过抽取、转换 和装载的过程,存储到数据仓库的数据模型中 。可以说,数据仓库的数据获取需要经过抽取 (Extraction

      9、)、转换(Transform)、装 载(Load)三个过程即ETL过程。 41231 数据抽取o (1)确认数据源o (2)数据抽取技术421.确认数据源o列出对事实表的每一个数据项和事实 o列出每一个维度属性 o对于每个目标数据项,找出源数据项 o一个数据元素有多个来源,选择最好的来源 o确认一个目标字段的多个源字段,建立合并规则 o确认一个目标字段的多个源字段,建立分离规则 o确定默认值 o检查缺失值的源数据432.数据抽取技术o当前值。 o源系统中存储的数据都代表了当前时刻的值。 当商业交易时,这些数据是会发生变化的。 o周期性的状态。 o这类数据存储的是每次发生变化时的状态。例 如,对于每一保险索赔,都经过索赔开始、确 认、评估和解决等步骤,都要考虑有时间说明 。44232 数据转换o 1.数据转换的基本功能o 2.数据转换类型o 3.数据整合和合并o 4.如何实施转换451.数据转换的基本功能o选择:从源系统中选择整个记录或者部分记录。 o分离/合并:对源系统中的数据进行分离操作或者合并操作。o转化:对源系统进行标准化和可理解化。o汇总:将最低粒度数据进行汇总。 o清晰:对单个字段数据进行重新分配和简化 。462.数据转换类型o(1)格式修正 o(2)字段的解码 o(3)计算值和导出值 o(4)单个字段的分离 o(5)信息的合并 o(6)特征集合转化 o(7)度量单位的转化 o(8)关键字重新构造 o(9)汇总 o(10)日期/时间转化473.数据整合和合并数据整合和合并是将相关的源数据组合 成一致的数据结构,装入数据仓库。 (1)实体识别问题数据来源于多个不同的客户系统,对相同客户可能分别 有不同的键码,将它们组合成一条单独的记录。 o(2)多数据源相同属性不同值的问题o 不同系统中得到的值存在一些差别 ,需要给出合理的值 。484.如何实施转换o 自己编写程序实现数据转换o 使用转换工具49233 数据装载o (1)数据装载方式o (2)数据装载类型501.数据装载方式o基本装载 o按照装载的目标表,将转换过的数据输入到目标表中去。 o追加

      《数据仓库与数据挖掘课件2》由会员wm****3分享,可在线阅读,更多相关《数据仓库与数据挖掘课件2》请在金锄头文库上搜索。

      点击阅读更多内容
    最新标签
    发车时刻表 长途客运 入党志愿书填写模板精品 庆祝建党101周年多体裁诗歌朗诵素材汇编10篇唯一微庆祝 智能家居系统本科论文 心得感悟 雁楠中学 20230513224122 2022 公安主题党日 部编版四年级第三单元综合性学习课件 机关事务中心2022年全面依法治区工作总结及来年工作安排 入党积极分子自我推荐 世界水日ppt 关于构建更高水平的全民健身公共服务体系的意见 空气单元分析 哈里德课件 2022年乡村振兴驻村工作计划 空气教材分析 五年级下册科学教材分析 退役军人事务局季度工作总结 集装箱房合同 2021年财务报表 2022年继续教育公需课 2022年公需课 2022年日历每月一张 名词性从句在写作中的应用 局域网技术与局域网组建 施工网格 薪资体系 运维实施方案 硫酸安全技术 柔韧训练 既有居住建筑节能改造技术规程 建筑工地疫情防控 大型工程技术风险 磷酸二氢钾 2022年小学三年级语文下册教学总结例文 少儿美术-小花 2022年环保倡议书模板六篇 2022年监理辞职报告精选 2022年畅想未来记叙文精品 企业信息化建设与管理课程实验指导书范本 草房子读后感-第1篇 小数乘整数教学PPT课件人教版五年级数学上册 2022年教师个人工作计划范本-工作计划 国学小名士经典诵读电视大赛观后感诵读经典传承美德 医疗质量管理制度 2 2022年小学体育教师学期工作总结 2022年家长会心得体会集合15篇
    关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
    手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
    ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.