好文档就是一把金锄头!
欢迎来到金锄头文库![会员中心]
电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

数据挖掘软件发展分析教学讲义.ppt

36页
  • 卖家[上传人]:yulij****0329
  • 文档编号:231739263
  • 上传时间:2021-12-29
  • 文档格式:PPT
  • 文档大小:834.50KB
  • / 36 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 单击此处编辑母版标题样式单击此处编辑母版副标题样式*1主讲人朱扬勇一、数据挖掘概念一、数据挖掘概念-定义定义数据挖掘数据挖掘-从大量数据中寻找其规律的技术,从大量数据中寻找其规律的技术, 是统计学、数据库技术和人工智能技术的综合是统计学、数据库技术和人工智能技术的综合数据挖掘与统计学数据挖掘与人工智能数据挖掘与数据库技术数据挖掘与数据挖掘与KDDKDD2一、数据挖掘概念一、数据挖掘概念-原由原由国民经济和社会的信息化 社会信息化后,社会的运转是软件的运转社会信息化后,社会的运转是软件的运转 社会信息化后,社会的历史是数据的历史社会信息化后,社会的历史是数据的历史因此政府提出“信息化”和“发展软件产业”3一、数据挖掘概念一、数据挖掘概念-原由原由数据爆炸,知识贫乏 苦恼: 淹没在数据中 ; 不能制定合适的决策! 数据知识知识决策决策n模式n趋势n事实n关系n模型n关联规则n序列n目标市场n资金分配n贸易选择n在哪儿做广告n销售的地理位置n金融n经济n政府nPOS.n人口统计n生命周期5一、数据挖掘概念一、数据挖掘概念-发展发展 1989 IJCAI会议: 数据库中的知识发现讨论专题 Knowledge Discovery in Databases (G. Piatetsky-Shapiro and W. Frawley, 1991) 1991-1994 KDD讨论专题 Advances in Knowledge Discovery and Data Mining (U. Fayyad, G. Piatetsky-Shapiro, P. Smyth, and R. Uthurusamy, 1996) 1995-1998 KDD国际会议 (KDD95-98) Journal of Data Mining and Knowledge Discovery (1997) 1998 ACM SIGKDD, SIGKDD1999-2002 会议,以及SIGKDD Explorations 数据挖掘方面更多的国际会议 PAKDD, PKDD, SIAM-Data Mining, (IEEE) ICDM, DaWaK, SPIE-DM, etc.6一、数据挖掘概念一、数据挖掘概念-技术技术技术分类 预言(Predication):用历史预测未来 描述(Description):了解数据中潜在的规律数据挖掘技术 关联分析 序列模式 分类(预预言) 聚集 异常检测7二、数据挖掘软件的发展二、数据挖掘软件的发展代特征数据挖掘算法集成分布计算模型数据模型第一代作为一个独立的应用支持一个或者多个算法 独立的系统单个机器向量数据第二代和数据库以及数据仓库集成多个算法:能够挖掘一次不能放进内存的数据数据管理系统,包括数据库和数据仓库同质、局部区域的计算机群集有些系统支持对象,文本和连续的媒体数据第三代和预言模型系统集成 多个算法数据管理和预言模型系统intranet/extranet网络计算支持半结构化数据和web数据第四代和移动数据/各种计算设备的数据联合 多个算法数据管理、预言模型、移动系统移动和各种计算设备普遍存在的计算模型 Robert Grossman, National Center for Data Mining University of Illinois at Chicago 的观点8二、数据挖掘软件的发展二、数据挖掘软件的发展第一代数据挖掘软件 特点支持一个或少数几个数据挖掘算法 挖掘向量数据(vector-valued data) 数据一般一次性调进内存进行处理 典型的系统如Salford Systems公司早期的CART系统(www.salford-) 缺陷如果数据足够大,并且频繁的变化,这就需要利用数据库或者数据仓库技术进行管理,第一代系统显然不能满足需求。

      9二、数据挖掘软件的发展二、数据挖掘软件的发展第一代数据挖掘软件 CBA新加坡国立大学基于关联规则的分类算法,能从关系数据或者交易数据中挖掘关联规则,使用关联规则进行分类和预测10二、数据挖掘软件的发展二、数据挖掘软件的发展第二代数据挖掘软件 特点与数据库管理系统(DBMS)集成 支持数据库和数据仓库,和它们具有高性能的接口,具有高的可扩展性 能够挖掘大数据集、以及更复杂的数据集 通过支持数据挖掘模式(data mining schema)和数据挖掘查询语言增加系统的灵活性 典型的系统如DBMiner,能通过DMQL挖掘语言进行挖掘操作 缺陷只注重模型的生成,如何和预言模型系统集成导致了第三代数据挖掘系统的开发11二、数据挖掘软件的发展二、数据挖掘软件的发展第三代数据挖掘软件 特点和预言模型系统之间能够无缝的集成,使得由数据挖掘软件产生的模型的变化能够及时反映到预言模型系统中 由数据挖掘软件产生的预言模型能够自动地被操作型系统吸收,从而与操作型系统中的预言模型相联合提供决策支持的功能 能够挖掘网络环境下(Internet/Extranet)的分布式和高度异质的数据,并且能够有效地和操作型系统集成 缺陷不能支持移动环境12二、数据挖掘软件的发展二、数据挖掘软件的发展第四代数据挖掘软件 特点目前移动计算越发显得重要,将数据挖掘和移动计算相结合是当前的一个研究领域。

      第四代软件能够挖掘嵌入式系统、移动系统、和普遍存在(ubiquitous)计算设备产生的各种类型的数据第四代数据挖掘原型或商业系统尚未见报导,PKDD2001上Kargupta发表了一篇在移动环境下挖掘决策树的论文,Kargupta是马里兰巴尔的摩州立大学(University of Maryland Baltimore County)正在研制的CAREER数据挖掘项目的负责人,该项目研究期限是2001年4月到2006年4月,目的是开发挖掘分布式和异质数据(Ubiquitous设备)的第四代数据挖掘系统 13二、数据挖掘软件的发展二、数据挖掘软件的发展第一代系统与第二代相比因为不具有和数据管理系统之间有效的接口,所以在数据预处理方面有一定缺陷 第三、四代系统强调预言模型的使用和在操作型环境的部署 第二代系统提供数据管理系统和数据挖掘系统之间的有效接口 第三代系统另外还提供数据挖掘系统和预言模型系统之间的有效的接口 目前,随着新的挖掘算法的研究和开发,第一代数据挖掘系统仍然会出现,第二代系统是商业软件的主流,部分第二代系统开发商开始研制相应的第三代数据挖掘系统,比如 IBM Intelligent Score Service。

      第四代数据挖掘原型或商业系统尚未见报导 14二、数据挖掘软件的发展二、数据挖掘软件的发展数据挖掘软件发展的三个阶段 独立的数据挖掘软件 横向的数据挖掘工具集 纵向的数据挖掘解决方案Gregory Piatetsky-Shapiro的观点15二、数据挖掘软件的发展二、数据挖掘软件的发展独立的数据挖掘软件(95年以前) 特点独立的数据挖掘软件对应第一代系统,出现在数据挖掘技术发展早期,研究人员开发出一种新型的数据挖掘算法,就形成一个软件这类软件要求用户对具体的算法和数据挖掘技术有相当的了解,还要负责大量的数据预处理工作比如C4.5决策树,平行坐标可视化(parallel-coordinate visualization) 16二、数据挖掘软件的发展二、数据挖掘软件的发展横向的数据挖掘工具集(95年开始) 发展原因随着数据挖掘应用的发展,人们逐渐认识到数据挖掘软件需要和以下三个方面紧密结合:1)数据库和数据仓库;2)多种类型的数据挖掘算法;3)数据清洗、转换等预处理工作随着数据量的增加,需要利用数据库或者数据仓库技术进行管理,所以数据挖掘系统与数据库和数据仓库结合是自然的发展 现实领域的问题是多种多样的,一种或少数数据挖掘算法难以解决 挖掘的数据通常不符合算法的要求,需要有数据清洗、转换等数据预处理的配合,才能得出有价值的模型 17二、数据挖掘软件的发展二、数据挖掘软件的发展横向的数据挖掘工具集(95年开始) 发展过程随着这些需求的出现,1995年左右软件开发商开始提供称之为“工具集”的数据挖掘软件 特点此类类工具集的特点是提供多种数据挖掘算法 包括数据的转换转换 和可视视化 由于此类类工具并非面向特定的应应用,是通用的算法集合,可以称之为为横向的数据挖掘工具(Horizontal Data Mining Tools) 由于此类类工具并非面向特定的应应用,是通用的算法集合,所以称之为为横向的数据挖掘工具典型的横向工具有IBM Intelligent Miner、SPSS的Clementine、SAS的Enterprise Miner、SGI的MineSet、Oracle Darwin等 18二、数据挖掘软件的发展二、数据挖掘软件的发展横向的数据挖掘工具集(95年开始)IBM Intelligent MinerSPSS的ClementineSAS的Enterprise MinerSGI的MineSetOracle Darwin19二、数据挖掘软件的发展二、数据挖掘软件的发展纵向的数据挖掘解决方案(99年开始) 发展原因随着横向的数据挖掘工具的使用日渐广泛,人们也发现这类工具只有精通数数据挖掘算法的专家才能熟练使用,如果对算法不了解,难以得出好的模型 从1999年开始,大量的数据挖掘工具研制者开始提供纵向的数据挖掘解决方案(Vertical Solution),即针对特定的应用提供完整的数据挖掘方案 对于纵向的解决方案,数据挖掘技术的应用多数还是为了解决某些特定的难题,而嵌入在应用系统中20二、数据挖掘软件的发展二、数据挖掘软件的发展纵向的数据挖掘解决方案(99年开始)在证券系统中嵌入神经网络预测功能在欺诈检测系统中嵌入欺诈行为的分类/识别模型在客户关系管理系统中嵌入客户成簇/分类功能或客户行为分析功能在机器维护系统中嵌入监/检测或识别难以定性的设备故障功能在数据库营销中嵌入选择最可能购买产品的客户功能在机场管理系统中嵌入旅客人数预测、货运优化功能在基因分析系统中嵌入DNA识别功能在制造/生产系统中嵌入质量控制功能等21二、数据挖掘软件的发展二、数据挖掘软件的发展纵向的数据挖掘解决方案(99年开始)KD1(主要用于零售业)Options&Choice(主要用于保险业)HNC(欺诈行为侦测)Unica Model 1(主要用于市场营销)22三、数据挖掘软件的现状三、数据挖掘软件的现状情况概览 2002年9月,Amazon上关于数据挖掘的书有251本() 目前有数百个数据挖掘软件产品() 数据挖掘应用相对广泛 23三、数据挖掘软件的现状(三、数据挖掘软件的现状(国内情况) 大部分处于科研阶段 各大学和科研机构从事数据挖掘算法的研究 国内著作的数据挖掘方面的书较少(翻译的有) 数据挖掘讨论组() 有一些公司在国外产品基础上开发的特定的应用 IBM Intelligent Miner SAS Enterprise Miner 自主知识产权的数据挖掘软件 复旦德门()等24四、数据挖掘应用四、数据挖掘应用 银行美国银行家协会(ABA)预测数据仓库和数据挖掘技术在美国商业银行的应用增长率是14.9。

      分析客户使用分销渠道的情况和分销渠道的容量 ;建立利润评测模型;客户关系优化;风险控制等 电子商务 网上商品推荐;个性化网页;自适应网站 生物制药、基因研究 DNA序列查询和匹配;识别基因序列的共发生性 电信 欺诈甄别;客户流失 保险、零售25四、数据挖掘应用四、数据挖掘应用数据挖掘客户分析析基分因其他保险客户证券客户银行客户电信客户零售客户信用卡储蓄卡存折按揭借贷人类基因植物基因动物基因特殊群体基因基因序列基因表达谱基因功能基因制药 .数据挖掘中国内地市场规模未来五年内将达百亿数据挖掘中国内地市场规模未来五年内将达百亿26四、数据挖掘应用四、数据挖掘应用为什么没有广泛使用? 数据挖掘正在快速的发展 技术的研究和开发已经走在很前沿的地方 数据挖掘应用面已经扩充了很多 但是仍然没有希望的高,为什么。

      点击阅读更多内容
      关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
      手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
      ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.