好文档就是一把金锄头!
欢迎来到金锄头文库![会员中心]
电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

数据仓库与数据挖掘PPT课件.ppt

24页
  • 卖家[上传人]:pu****.1
  • 文档编号:587965375
  • 上传时间:2024-09-07
  • 文档格式:PPT
  • 文档大小:191.03KB
  • / 24 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 数数 据据 仓仓 库库 ----SQL server 2000 Analysis Services 数据库与数据仓库数据库与数据仓库 数据库-数据管理-事务处理-获取数据- OLTP-银行的存款和取款 数据仓库-管理技术-决策支持-分析数据- OLAP-规律趋势决策预测 数据仓库(Data Warehouse)是一个面向主题的、集成的、稳定的、包含历史数据的数据集合,它用于支持管理中的决策制定过程 数据仓库不是产品 数据库技术-存储数据和管理资源 统计分析技术-分析和提取信息 人工智能技术-挖掘知识和发现规律 1.面向主题:按主题进行组织,为按主题进行决策的过程提供信息 2.集成:经过系统加工、汇总和整理 3.稳定:长期保留,插入和查询 4.包含历史数据:过去某一时点到目前的信息,发展历程和未来趋势 利用数据仓库解决四种类型的问题利用数据仓库解决四种类型的问题: : 1. 2005年10月25日肝脏外科的住院人次数是多少? 2. 呼吸内科明年的就诊情况如何?(科室应作何相应调整?) 3. 2005年1-10月份经消化内科某医师诊治的十二指肠球部溃疡患者的平均住院天数及药品费用构成比是多少? 4. 影响患者住院费用高低的因素是哪些?其中哪个是最关键因素? 数据仓库设计与开发的一般过程:数据仓库设计与开发的一般过程:1. 任务和环境的评估2. 需求的收集和分析3. 设计数据仓库4. 创建数据准备区5. 创建数据仓库数据库6. 从联机事务处理系统中析取数据7. 清理和转换数据8. 向数据仓库数据库中加载数据9. 向数据集市发布数据10.创建多维数据集11.进行数据挖掘12.设计并实现终端用户的应用程序13.将数据仓库和基于它的应用投入使用 ☆☆ 数据仓库的数据模型结构数据仓库的数据模型结构1 1.星型模型.星型模型 星型模型由一个事实表和维表组成,事实表是星型模型的核心表,包含两种类型的列,第一种列是维度表的索引列,这些列中存储了各维表的主键值,它们组合成事实表的主键;而其他非主属性的列则称为事实列,其中包含了用于计算的信息,即多维数据集中的度量值。

      事实表中的每个事实指向每个维表中的一个元组2 2.雪花模型.雪花模型 雪花模型是对星型模型的一个扩展,每个维表都可以向外连接多个维表雪花模型是对星型模型的维表进一步标准化,维表分解成与事实表直接关联的主维表和与主维表关联的次维表它的优点是通过最大限度的减少存储量以及将较小的标准化表而不是较大的非标准化表联合在一起来改善查询性能由于采用标准化及维的较低粒度,雪花模型增加了应用程序的灵活性,但由于雪花模型增加了连接操作的次数,因而也增加了查询的复杂性 多维数据集:多维数据集:事实表与维表事实表与维表 多维数据集是联机分析处理的主要对象,是分析数据的基础,是一项可对数据仓库的中的数据进行快速访问的技术 维度:维度: 维度是人们观察数据的特定角度,是数据的视图,如可以从时间、科室、病种等不同的角度观察有关住院情况的数据在实际中最常用的维度是时间维度,维也可以有细节程度不同的描述,这些不同的描述称为维的层次(级别或粒度)数据仓库中的数据按照不同的维组织起来形成了一个多维的立方体,也即多维数据集 星型架构:单个维表;雪花架构:多个相关联的维表 级别、粒度、成员属性级别、粒度、成员属性 粒度是数据仓库中数据单元的详细程度和级别。

      粒度越小,级别越低,细节程度越高;反之,数据综合程度越高,粒度越大,级别就越高数据的粒度越高,所需要存储的数据量越少,但对决策者的重要性却随之增加 成员属性一般为某一级别的具体属性,通过为某一级别创 建成员属性,可以进行数据挖掘 时间、病种、患者、……;区域、产品、…… 时间维度:时间维度:年、月、日日 病种维度:病种维度:ICD主类、ICD次类、ICD子类、疾病名称疾病名称 患者维度:患者维度:所属科室、经诊医师、患者患者(成员属性:成员属性:性别、年龄、身份、费用类别、手术情况、入院方式、入院病情、出院方式、治疗结果、就诊次数、所患疾病等) 治疗结果:只有一个级别治疗结果:只有一个级别 度量值:度量值:主要是数值型字段,如:费用金额、住院天数等 衍生度量值:衍生度量值:就诊人次数等 计算成员:计算成员:均值、百分比、率等 时间代码科室代码病种代码性别代码年龄代码身份代码转归代码住院天数术前住院天数住院总费用药品费用……性别维表年龄维表身份维表时间维表科室维表病种维表转归维表住院事实表住院事实表星星 型型 模模 型型 时间代码患者代码病种代码性别代码年龄代码身份代码转归代码住院天数术前住院天数住院总费用药品费用……性别维表年龄维表身份维表时间维表患者代码住院科室代码病种维表转归维表住院事实表住院事实表雪雪 花花 模模 型型科室维表患者维表 SQL server 2000 SQL server 2000 数据挖掘数据挖掘数据挖掘数据挖掘 2005年11月10日 分析问题数据数据数据数据仓库多维数据集创建和训练模型校验数据数据挖掘模型维护数据挖掘数据清洗和转换查询数据客户端数据查询OLAP数数 据据 挖挖 掘掘 过过 程程数据挖掘结果解释查询数据 n n数据挖掘(data mining,DM)就是通过对大型数据库和数据仓库中大量似乎无关的数据进行分析,以便发现并提取隐藏在数据深处的、人们事先不知道的、但是潜在有用的信息、知识和规律的过程。

      n n数据挖掘是一种基于发现的方法,它能够自动分析数据并进行归纳性的推理,从中挖掘出潜在的规律或模式,以帮助管理决策者建立新的模型 n n目前应用比较广泛的数据挖掘模型和方法主要有基于规则的系统(决策树)、统计方法(聚类)、神经网络、基于事例的推理、机器学习等n n在Analysis Services中系统内置了决策树 和聚类分析两种挖掘模型决策树模型是通过一系列的数据细分来实现最终的数据分析,适合于商业预测;而聚类分析模型常用于对比较类似的数据进行集成,适合于商业中的市场划分 n n决策树模型决策树模型 Analysis Services中的决策树模型是一种 基于条件和概率的决策方法它首先选择数据中的显著特征,然后根据这些特征不断的对数据进行分类,缩小数据集,把数据逐步组织成树的形式,直到建立起清晰的相关性,它能够准确的预测事务的发展趋势 决决 策策 树树 分分 析析 模模 型型 n n聚类模型聚类模型 聚类分析是一种间接的数据挖掘方法,它是用来查找多维空间中的自然分组,通过提取数据之间的共同点来发现隐藏在数据中的规律 女男15 25 35 45 55 65 司机医生律师其他聚聚 类类 分分 析析 模模 型型 n nSQL server 2000中并不是只能使用上述两种模型,分析人员还可以通过SQL server 2000提供的编程接口将其他算法引入到系统中,比如神经网络算法和遗传算法。

      使用挖掘向导创建数据挖掘模型的过程如下:使用挖掘向导创建数据挖掘模型的过程如下:使用挖掘向导创建数据挖掘模型的过程如下:使用挖掘向导创建数据挖掘模型的过程如下:n n选择数据源的类型选择数据源的类型 两种数据源:两种数据源: ((1 1)关系数据源:基于关系型数据源的挖掘模型)关系数据源:基于关系型数据源的挖掘模型 ((2 2))OLAPOLAP数据源:基于多维数据集的挖掘模型数据源:基于多维数据集的挖掘模型n n选择实例表或数据挖掘模型表选择实例表或数据挖掘模型表n n选择数据挖掘模型选择数据挖掘模型n n选择实例的关键列选择实例的关键列n n选择输入(和预测列)选择输入(和预测列)n n系统自动分析数据产生挖掘模型系统自动分析数据产生挖掘模型 n n聚类分析模型和决策树分析模型在建立过程中最大的不同就是聚类分析只需要选择输入列,而不需要指定预测列n n相关性网络是微软决策树算法创建的模型视图,聚类挖掘模型没有相关性网络。

      点击阅读更多内容
      关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
      手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
      ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.