
《数据仓库与数据挖掘》(演示稿)第1~3章.ppt
84页1,复旦大学 软 件 学 院 2004年4月,数据仓库与数据挖掘 (DATA WAREHOUSING AND DATA MINING),2,主要内容,数据仓库与数据挖掘概述 (2学时) 数据仓库的数据模型与数据组织 (4学时) 数据仓库的设计 (4学时) 数据加载技术 (4学时) 数据仓库系统的体系结构与实现技术 (4学时) 数据挖掘中的常用方法 (4学时) 关联规则挖掘 (6学时) 分类和预测 (6学时) 聚类分析 (4学时) 时序数据和序列数据的挖掘 (4学时) Web数据挖掘 (4学时) 数据挖掘的应用 (4学时),3,教学方式与考核方式,教学方式 本课程以课堂教学为主,以电子教案的内容为主线 课外阅读指定的参考文献并利用网上资源,加深对教学内容的理解 考核方式及要求 撰写课程论文一篇 课程论文的内容不仅包括数据仓库与数据挖掘的综述,而且应包括对某一方面深入的分析、独立的见解或实际应用 课程论文的格式按照正式发表学术论文的要求,篇幅一般可大于正式发表的论文。
获得优秀成绩的课程论文必须进行大组报告与交流4,教材与参考书,电子教案 W. H. Inmon , 《Building the Data Warehouse》,王志海等译,机械工业出版社,2000.5,25.00元,228页 San Anahory and Dennis Murray , 《Data Warehousing in the Real World 》(原版书,国内未发行,434页) W. A. Giovinazzo, 《Object-Oriented Data Warehouse Design》,潇湘工作室译,人民邮电出版社,2000.12,28.00元,193页 Lou Agosta, 《The Essential Guide to Data Warehouse》,潇湘工作室译,人民邮电出版社,2000.11,45.00元,322页 T.Y.Lin and N.cercone, 《Rough Sets Data Mining》 (原版书,国内未发行,436页) 康晓东等 《基于数据仓库的数据挖掘技术》,机械工业出版社,2004.01 Tom Hammergren著,曹增强等译:《数据仓库技术》,中国水利水电出版社 Lou Agosta,《数据仓库技术指南》,人民邮电出版社 Jiawei Han,Micheline Kambr,《DATA MINING CONCEPTS AND TECHNIQUES》(影印版),高等教育出版社 邵峰晶等,《数据挖掘-原理与算法》,中国水利水电出版社,2003.08 林杰斌等,《数据挖掘与OLAP理论与实务》,清华大学出版社,2003.01 康博创作室:《SQL SERVER 2000数据仓库设计和使用指南》,清华大学出版社 (美)C. Seidman:《SQL SERVER 2000数据挖掘技术指南》,机械工业出版社,2002.01 因特网上有关参考资料和文献 学术刊物上有关论文,5,第1章 数据仓库与数据挖掘概述,本章要点 数据仓库的发展数据仓库的基本概念数据挖掘的发展数据挖掘的基本概念数据仓库与数据挖掘的集成,6,数据仓库的发展,自从NCR公司为Wal Mart建立了第一个数据仓库。
1996年,加拿大的IDC公司调查了62家实现了数据仓库的欧美企业,结果表明:数据仓库为企业提供了巨大的收益 早期的数据仓库大都采用当时流行的客户/服务器结构近年来分布式对象技术飞速发展,整个数据仓库体系结构从功能上划分为若干个分布式对象,这些分布式对象不仅可以直接用于建立数据仓库,还可以在应用程序中向用户提供调用的接口 IBM的实验室在数据仓库方面已经进行了10多年的研究,并将研究成果发展成为商用产品 其他数据库厂商在数据仓库领域也纷纷提出了各自的解决方案7,数据仓库的发展,IBM: 在其DB2UDB发布一年后的1998年9月发布5.2版,并于1998年12月推向中国市场,除了用于OLAP(联机分析处理)的后台服务器DB2 OLAP Server外,IBM还提供了一系列相关的产品,包括前端工具,形成一整套解决方案Informix公司: 在其动态服务器IDS(Informix Dynamic Server)中提供一系列相关选件,如高级决策支持选件(Advanced Decision Support Option)、OLAP选件(MetaCube ROLAP Option)、扩展并行选件(Extended Parallel Option)等,这种体系结构严谨、管理方便、索引机制完善,并行处理的效率更高,其中数据仓库和数据库查询的SQL语句的一致性使得用户开发更加简便。
8,数据仓库的发展,微软公司: 在其SQL Server7.0以及SQL Server2000中集成了代号为Plato的OLAP服务器 Sybase: 提供了专门的OLAP服务器Sybase IQ,并将其与数据仓库相关工具打包成Warehouse Studio PLATINUM: 提出了由InfoPump(数据仓库建模与数据加载工具)和Forest&Trees(前端报表工具)构成的一套较有特色的整体方案 ; Oracle公司: 则推出从数据仓库构建、OLAP到数据集市管理等一系列产品包(如Oracle Warehouse Builder、Oracle Express、DataMart Suit等)9,数据仓库的我国的发展,现状:数据仓库的概念已经被国内用户接受多年,但在应用方面的收效仍很有限 原因: 尚不存在可靠的、完善的、被广泛接受的数据仓库标准; 现有的数据库系统不健全,数据积累还不够,无法提出决策支持需求; 缺乏能够担负规划、设计、构建和维护数据仓库的重任的复合型人才; 缺乏数据仓库前端工具(如OLAP工具、数据挖掘工具等); 由于国内外文化的差异,一些用于构建数据仓库的知名产品无法处理一些难以预料的问题,使得建立数据仓库的困难加大。
10,数据仓库的我国的发展,前景:随着计算机技术的发展,尤其是分布式技术的发展, 数据仓库在我国有着广阔的发展空间和良好的发展前景例如: 由于银行商业化的步伐正在加大,各大中型银行在入世的机遇和挑战下,开始重新考虑自身的业务,特别是信贷风险管理方面特别注意,因而有关信贷风险管理和风险规章的基于数据仓库的决策支持系统的需求逐渐增多; 由于电子商务的迅速发展,越来越多的电子商务网站,开始考虑如何将数据仓库应用于商品销售分析、顾客的诚信度分析等,为客户提供更进一步的个性化服务; 如移动通信等各大型企业也开始考虑着手进行决策支持以及数据仓库规划11,数据挖掘的发展,数据挖掘是与数据仓库密切相关的一个信息技术新领域,它是信息技术自然演化的结果随着数据库技术的迅速发展以及数据库管理系统的广泛应用,人们积累的数据越来越多,但缺乏挖掘数据中隐藏的知识的手段,导致了“数据爆炸但知识贫乏的”现象自80年代后期以来,联机分析处理(OLAP)和数据挖掘技术应运而生12,数据挖掘的发展,数据挖掘(Data Mining,简记为DM)是从关系数据库、数据仓库、WEB数据库以及其他文件系统中发现重要的数据模式、规律的过程,因此又称为数据库中的知识发现(Knowledge Discovery in Database, 简记为KDD),它是OLAP的高级阶段。
自20世纪80年代起,开始了数据挖掘技术的研究1989年在美国召开的国际学术会议上包含了“从数据库中知识发现”的主题;1995年在加拿大召开了第一届知识发现与数据挖掘国际学术会议13,从数据库到数据仓库,数据库应用的规模和深度点 线 面 互联网 分析处理(OLAP) 事务处理 决策支持(DS)(OLTP) 数据挖掘(Data Mining),,,,,,14,事务型处理与分析型处理,事务型处理:即操作型处理,是指对数据库的联机操作处理事务型处理是用来协助企业对响应事件或事务的日常商务活动进行处理它是事件驱动、面向应用的,通常是对一个或一组记录的增、删、改以及简单查询等事务型处理的应用程序和数据是紧紧围绕着所管理的事件来构造的在事务型处理环境中,数据库要求能支持日常事务中的大量事务,用户对数据的存取操作频率高而每次操作处理的时间短15,分析型处理,分析型处理:用于管理人员的决策分析,例如DSS、 EIS、和多维分析等它帮助决策者分析数据以察看趋向、判断问题。
分析型处理经常要访问大量的历史数据,支持复杂的查询在分析型处理中,并不是对从事务型处理环境 中得到的细节数据进行分析细节数据量太大,会严重影响分析的效率,而且太多的细节数据不利于分析人员将注意力集中于有用的信息分析型处理过程中经常用到外部数据,这部分数据不是由事务型处理系统产生的,而是来自于其他外部数据源16,事务型处理数据和分析型处理数据的区别,,,,,,,,,,,,,,事务型处理数据 分析型处理数据 细节的 综合的,或提炼的 在存取瞬间是准确的 代表过去的数据 可更新 不可更新,只读的 操作需求事先可知道 操作需求事先不知 生命周期符合SDLC 完全不同的生命周期 对性能要求高 对性能要求宽松 一个时刻操作一个单元 一个时刻操作一个 事务驱动 分析驱动 面向应用 面向分析 一次操作数据量小 一次操作数据量大 支持日常操作 支持管理需求,,17,数据库系统的局限性,数据库适于存储高度结构化的日常事务细节数据,而决策型数据多为历史性、汇总性或计算性数据,多表现为静态数据,不需直接更新,但可周期性刷新。
决策分析型数据是多维性,分析内容复杂 在事务处理环境中,决策者可能并不关心具体的细节信息,在决策分析环境中,如果这些细节数据量太大一方面会严重影响分析效率,另一方面这些细节数据会分散决策者的注意力18,数据库系统的局限性(续),当事务型处理环境和分析型处理环境在同一个数据库系统中,事务型处理对数据的存取操作频率高,操作处理的时间短,而分析型处理可能需要连续运行几个小时,从而消耗大量的系统资源决策型分析数据的数据量大,这些数据有来自企业内部的,也有来自企业外部的来自企业外部的数据又可能来自不同的数据库系统,在分析时如果直接对这些数据操作会造成分析的混乱对于外部数据中的一些非结构化数据,数据库系统常常是无能为力的19,多库系统的限制(续),可用性:源站点或通信网络故障将导致系统瘫痪, 源站点不能通过网络联入多库系统 响应速度:全局查询多级转换和通信传输, 延迟和低层效率影响响应速度 系统性能:总体性能取决于源站点中性能最低的系统, 影响系统性能的发挥; 系统开销: 每次查询要启动多个局部系统, 通信和运行开销大20,数据仓库(Data Warehouse)的定义,数据仓库用来保存从多个数据库或其它信息源选取的数据, 并为上层应用提供统一 用户接口,完成数据查询和分析。
数据仓库是作为DSS服务基础的分析型DB,用来存放大容量的只读数据,为制定决策提供所需要的信息 数据仓库是与操作型系统相分离的、基于标准企业模型集成的、带有时间属性的、面向主题及不可更新的数据集合 W.H.Inmon对数据仓库所下的定义:数据仓库是面向主题的、集成的、稳定的、随时间变化的数据集合,用以支持管理决策的过程21,数据仓库的适用范围,信息源中的数据变化稳定或可预测应用不需要最新的数据或允许有延迟 应用要求有较高的查询性能 而降低精度要求,。












