
第1章数据挖掘概述.ppt
85页数据仓库与数据数据仓库与数据挖掘挖掘西南科技大学经管学院西南科技大学经管学院主讲老师:周中林主讲老师:周中林Myzhonglin@TEL::13698130220::149587061电子商务电子商务09级专业课程级专业课程数据挖掘数据挖掘关于本课程关于本课程1.数控挖掘是电子商务专业的专业选修课程数据挖掘数控挖掘是电子商务专业的专业选修课程数据挖掘融合了数据库、人工智能、机器学习、统计分析、模融合了数据库、人工智能、机器学习、统计分析、模式发现、可视化技术、信息检索等多个学科领域的知式发现、可视化技术、信息检索等多个学科领域的知识2.本课程系统地介绍了数据挖掘的概念、理论及其发展、本课程系统地介绍了数据挖掘的概念、理论及其发展、重点介绍了数据挖掘技术及其在实践中的应用重点介绍了数据挖掘技术及其在实践中的应用数据挖掘数据挖掘课程目标课程目标1.1.通过本课程的学习,掌握数据挖掘的基本概念、数据挖掘过通过本课程的学习,掌握数据挖掘的基本概念、数据挖掘过程、数据仓库的概念、程、数据仓库的概念、OLAPOLAP与数据挖掘的关系与数据挖掘的关系2.2.掌握数据挖掘的常用技术:决策树、神经网络、关联规则、掌握数据挖掘的常用技术:决策树、神经网络、关联规则、聚类分析、统计学习等。
聚类分析、统计学习等3.3.熟悉数据挖掘技术在典型行业的应用方法,具有运用数据挖熟悉数据挖掘技术在典型行业的应用方法,具有运用数据挖掘技术解决问题的能力掘技术解决问题的能力数据挖掘数据挖掘课程体系课程体系1.1.数据挖掘概述数据挖掘概述2.2.数据仓库与数据仓库与OLAPOLAP技术技术3.3.数据挖掘技术数据挖掘技术4.4.数据挖掘应用数据挖掘应用5.5.数据挖掘工具数据挖掘工具6.6.数据挖掘实例数据挖掘实例数据挖掘数据挖掘学习方法学习方法l课堂讲授及自学课堂讲授及自学n理解数据挖掘的基本概念和原理理解数据挖掘的基本概念和原理l充分利用因特网,查阅相关资料充分利用因特网,查阅相关资料n进一步拓展知识面进一步拓展知识面l熟悉常用的数据挖掘软件,提高数据挖掘的基本处理熟悉常用的数据挖掘软件,提高数据挖掘的基本处理能力和动手能力能力和动手能力数据挖掘数据挖掘成绩考核成绩考核l考试成绩由平时考勤及作业(考试成绩由平时考勤及作业(10%))+实验实验((20%)+期末笔试()+期末笔试(70%)构成数据挖掘数据挖掘参考资料参考资料1.1.张公让,张公让,《《商务智能与数据挖掘商务智能与数据挖掘》》,北京大学出版社,北京大学出版社2.2.别荣芳译,别荣芳译,Michael Michael J.A.BerryJ.A.Berry(美),(美),《《数据挖掘技术-市数据挖掘技术-市场营销、销售与客户关系管理领域应用场营销、销售与客户关系管理领域应用 》》,机械工业出版社,机械工业出版社3.3.王欣等,王欣等,《《SQL Server 2005SQL Server 2005数据挖掘实例分析数据挖掘实例分析》》,中国水利,中国水利水电出版社水电出版社4.4.纪希禹等,纪希禹等,《《数据挖掘技术应用实例数据挖掘技术应用实例》》,机械工业出版社,机械工业出版社5.5.张俊妮,张俊妮,《《数据挖掘与应用数据挖掘与应用》》,清华大学出版社,清华大学出版社6.6.元昌安元昌安, ,《《数据挖掘原理与数据挖掘原理与SPSS ClementineSPSS Clementine应用宝典应用宝典》》,电子,电子工业出版社工业出版社7.7.韩家炜,韩家炜,《《数据挖掘:概念与技术(第二版)数据挖掘:概念与技术(第二版)》》,中文版,机,中文版,机械工业出版社械工业出版社8.8.David Hand David Hand 等著等著, , 张银奎等译,张银奎等译,《《数据挖掘原理数据挖掘原理》》,机械工,机械工业出版社业出版社9.9.Richard Richard J.RoigerJ.Roiger( (美美) ),翁敬农译,,翁敬农译,《《数据挖掘教程数据挖掘教程》》,清华,清华大学出版社大学出版社数据挖掘数据挖掘参考网站参考网站u u u u u 数据挖掘数据挖掘需要使用的部分软件需要使用的部分软件lSPSS clementinelSASlSQL Server 2005标准版标准版lExcel数据挖掘数据挖掘第第1章章数据挖掘概述数据挖掘概述 数据挖掘数据挖掘教学目标教学目标l掌握数据挖掘的概念和过程掌握数据挖掘的概念和过程l掌握数据挖掘所使用的方法和技术掌握数据挖掘所使用的方法和技术l了解从数据中可挖掘的知识类型及知识表示。
了解从数据中可挖掘的知识类型及知识表示 数据挖掘数据挖掘教学要求教学要求知识要点知识要点能力要求能力要求相关知识点相关知识点数据挖掘技数据挖掘技术的的由来由来(1) 了解数据挖掘技了解数据挖掘技术的由来与的由来与发展展(1) 数据与信息的数据与信息的联系与区系与区别(2) 数据数据仓库技技术的的发展展历程程数据挖掘的定数据挖掘的定义(1) 掌握数据挖掘的定掌握数据挖掘的定义(2) 明确数据挖掘与明确数据挖掘与传统数据分析数据分析的区的区别(3) 明确数据挖掘与数据明确数据挖掘与数据仓库的关的关系系(1) 数据挖掘的定数据挖掘的定义(2) 联机分析机分析处理理(3) 数据挖掘与数据挖掘与统计学的区学的区别数据挖掘的功能数据挖掘的功能(1) 知道数据挖掘可以知道数据挖掘可以发现哪些哪些类型的知型的知识(2) 掌握数据挖掘的功能掌握数据挖掘的功能(1) 预测知知识的的获取取 (2) 关关联分析分析(3) 分分类与聚与聚类 (4) 概念描述概念描述(5) 偏差偏差检测数据挖掘模型数据挖掘模型掌握数据挖掘模型掌握数据挖掘模型(1) 业务理解 理解 (2) 数据理解 数据理解 (3)数据准数据准备 (4) 建立模型建立模型(5) 模型模型评估估 (6)部署部署数据挖掘的流程数据挖掘的流程掌握数据挖掘掌握数据挖掘项目的步目的步骤(1) 数据准数据准备 (2) 数据数据预处理理(3) 结果的解果的解释与与评价价数据挖掘数据挖掘引例引例: 啤酒与尿布啤酒与尿布 l超市中啤酒和尿布能陈列在一起吗超市中啤酒和尿布能陈列在一起吗? l沃尔玛沃尔玛(Wal Mart) 是怎样做的是怎样做的?数据挖掘数据挖掘引例引例: 啤酒与尿布啤酒与尿布l沃尔玛超市建立数据仓库,按周期统计产品的销售信息,经过沃尔玛超市建立数据仓库,按周期统计产品的销售信息,经过科学建模后提炼决策层数据。
科学建模后提炼决策层数据l发现每逢周末,位于某地区的沃尔玛超市连锁店的啤酒和尿布发现每逢周末,位于某地区的沃尔玛超市连锁店的啤酒和尿布的销售量很大,而且单张发票中同时购买尿布和啤酒的记录非的销售量很大,而且单张发票中同时购买尿布和啤酒的记录非常普遍l分析人员认为这并非偶然,经过深入分析得知,通常周末购买分析人员认为这并非偶然,经过深入分析得知,通常周末购买尿布的是男士,他们在完成了太太交给的任务后,经常会顺便尿布的是男士,他们在完成了太太交给的任务后,经常会顺便买一些啤酒买一些啤酒l得出这样的结果后,沃尔玛超市的工作人员尝试着将啤酒和尿得出这样的结果后,沃尔玛超市的工作人员尝试着将啤酒和尿布摆放在一起销售,结果尿布与啤酒的销售额双双增长布摆放在一起销售,结果尿布与啤酒的销售额双双增长 l从上面的例子不难看出,数据管理的主要目的是获取信息和分从上面的例子不难看出,数据管理的主要目的是获取信息和分析信息以指导我们的行动或帮助我们作决策析信息以指导我们的行动或帮助我们作决策数据挖掘数据挖掘引言引言l从大量数据中提取出隐藏在其中的有用信息从大量数据中提取出隐藏在其中的有用信息 l数据挖掘数据挖掘,也可以称为数据库中的知识发现,也可以称为数据库中的知识发现(Knowledge Discover Database,,KDD),是从大量,是从大量数据中提取出可信、新颖、有效并能被人理解的模式数据中提取出可信、新颖、有效并能被人理解的模式的高级处理过程。
的高级处理过程数据挖掘数据挖掘本章内容本章内容l一、数据挖掘技术的由来一、数据挖掘技术的由来l二、数据挖掘的定义二、数据挖掘的定义 l三、数据挖掘发现的知识类型三、数据挖掘发现的知识类型 l四、数据挖掘对象四、数据挖掘对象l五、数据挖掘任务五、数据挖掘任务l六、数据挖掘分类六、数据挖掘分类l七、数据挖掘模型七、数据挖掘模型l八、数据挖掘过程八、数据挖掘过程数据挖掘数据挖掘一、数据挖掘技术的由来一、数据挖掘技术的由来l信息爆炸但知识贫乏信息爆炸但知识贫乏 n《《纽约时报纽约时报》》一周报道的信息总量,比十八世一周报道的信息总量,比十八世纪一个人一生接触的信息总量还多纪一个人一生接触的信息总量还多 n“我们正在被信息所淹没,但我们却由于缺乏我们正在被信息所淹没,但我们却由于缺乏知识而感到饥饿知识而感到饥饿 数据挖掘数据挖掘一、数据挖掘技术的由来一、数据挖掘技术的由来l数据挖掘是八十年代投资数据挖掘是八十年代投资AI研究项目失败后,研究项目失败后,AI转入实际应用转入实际应用时提出的它是一个新兴的,面向商业应用的时提出的它是一个新兴的,面向商业应用的AI研究AI(Artificial Intelligence,人工智能,人工智能) )l1989年年8月,在美国底特律召开的第月,在美国底特律召开的第11届国际人工智能联合会届国际人工智能联合会议的专题讨论会上首次出现数据库中的议的专题讨论会上首次出现数据库中的知识发现(知识发现(Knowledge Discovery in Database,,KDD)这一术语)这一术语。
l随后,在随后,在1991年、年、1993年和年和1994年都举行年都举行KDD专题讨论会,专题讨论会,汇集来自各个领域的研究人员和应用开发者,集中讨论数据统汇集来自各个领域的研究人员和应用开发者,集中讨论数据统计、海量数据分析算法、知识表示、知识运用等问题最初,计、海量数据分析算法、知识表示、知识运用等问题最初,数据挖掘是作为数据挖掘是作为KDD中利用算法处理数据的一个步骤,其后逐中利用算法处理数据的一个步骤,其后逐渐演变成渐演变成KDD的同义词的同义词数据挖掘数据挖掘一、数据挖掘技术的由来一、数据挖掘技术的由来l现在,人们往往不加区别地使用两者现在,人们往往不加区别地使用两者KDD常常被称常常被称为数据挖掘(为数据挖掘(Data Mining),实际两者是有区别的实际两者是有区别的一般将一般将KDD中进行知识学习的阶段称为数据挖掘中进行知识学习的阶段称为数据挖掘((Data Mining),数据挖掘是),数据挖掘是KDD中一个非常重要中一个非常重要的处理步骤的处理步骤l数据挖掘是近年来出现的数据挖掘是近年来出现的客户关系管理客户关系管理((Customer Relationship Management,, CRM)、)、商业智能商业智能((Business Intelligence,, BI)等热点领域的核心技)等热点领域的核心技术之一。
术之一 数据挖掘数据挖掘一、数据挖掘技术的由来一、数据挖掘技术的由来l支持数据挖掘技术的基础支持数据挖掘技术的基础n海量数据搜索海量数据搜索n强大的多处理器计算机强大的多处理器计算机n数据挖掘算法数据挖掘算法 数据挖掘数据挖掘二、数据挖掘的定义二、数据挖掘的定义 l技术角度的定义技术角度的定义 n数据挖掘数据挖掘(Data Mining)就是从大量的、不完全的、就是从大量的、不完全的、有噪声的、模糊的、随机的有噪声的、模糊的、随机的实际应用数据中实际应用数据中,,提取提取隐含在其中的、隐含在其中的、人们事先不知道的、但又是潜在有人们事先不知道的、但又是潜在有用的信息和知识的过程用的信息和知识的过程l该定义包括好几层含义:该定义包括好几层含义:n数据源必须是真实的、大量的、含噪声的;数据源必须是真实的、大量的、含噪声的;n发现的是用户感兴趣的知识;发现的是用户感兴趣的知识;n发现的知识要可接受、可理解、可运用;发现的知识要可接受、可理解、可运用;n并不要求发现放之四海皆准的知识,仅支持特定的并不要求发现放之四海皆准的知识,仅支持特定的发现问题发现问题数据挖掘数据挖掘二、数据挖掘的定义二、数据挖掘的定义l关于知识的解释关于知识的解释n从广义上理解,数据、信息也是知识的表现形式,从广义上理解,数据、信息也是知识的表现形式,但是人们更但是人们更把概念、规则、模式、规律和约束等看把概念、规则、模式、规律和约束等看作知识。
作知识 n这里所说的知识发现,不是要求发现放之四海而皆这里所说的知识发现,不是要求发现放之四海而皆准的真理,也不是要去发现崭新的自然科学定理和准的真理,也不是要去发现崭新的自然科学定理和纯数学公式,更不是什么机器定理证明纯数学公式,更不是什么机器定理证明n实际上,所有发现的知识都是相对的,实际上,所有发现的知识都是相对的,是有特定前是有特定前提和约束条件,面向特定领域的,同时还要能够易提和约束条件,面向特定领域的,同时还要能够易于被用户理解最好能用自然语言表达所发现的结于被用户理解最好能用自然语言表达所发现的结果数据挖掘数据挖掘二、数据挖掘的定义二、数据挖掘的定义l模式模式:它给出了数据特性或数据之间的关系,是对数:它给出了数据特性或数据之间的关系,是对数据所包含的信息更抽象的描述模式按功能可以分为据所包含的信息更抽象的描述模式按功能可以分为预测型模式预测型模式和和描述型模式描述型模式在实际应用中,可以在实际应用中,可以细分细分为关联模式、分类模式、聚类模式和序列模式为关联模式、分类模式、聚类模式和序列模式等数据挖掘数据挖掘二、数据挖掘的定义二、数据挖掘的定义l“从数据中发现有用模式从数据中发现有用模式”历来有很多称法,如历来有很多称法,如:n数据挖掘(数据挖掘(data mining)) n知识提取知识提取(knowledge extraction)n信息发现信息发现(information discovery)n信息收获信息收获(information harvesting)n数据考古数据考古(data archaeology)n数据模式处理数据模式处理(data pattern processing)l“数据挖掘数据挖掘”的称法大部分是由统计学家,数据分析的称法大部分是由统计学家,数据分析学家和学家和MIS团体使用的,在数据库领域也得到了广泛团体使用的,在数据库领域也得到了广泛接受。
接受数据挖掘数据挖掘二、数据挖掘的定义二、数据挖掘的定义l商业角度的含义商业角度的含义 n数据挖掘数据挖掘是一种新的商业信息处理技术,其主要特是一种新的商业信息处理技术,其主要特点是对商业数据库中的大量业务点是对商业数据库中的大量业务数据进行抽取、转数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决换、分析和其他模型化处理,从中提取辅助商业决策的关键性数据策的关键性数据l数据挖掘对于企业的价值数据挖掘对于企业的价值n简言之,数据挖掘其实是一类深层次的数据分析方简言之,数据挖掘其实是一类深层次的数据分析方法因此,数据挖掘可以描述为法因此,数据挖掘可以描述为:按企业既定业务:按企业既定业务目标,对大量的企业数据进行探索和分析,揭示隐目标,对大量的企业数据进行探索和分析,揭示隐藏的、未知的或验证己知的规律性,并进一步将其藏的、未知的或验证己知的规律性,并进一步将其模型化的有效方法模型化的有效方法 数据挖掘数据挖掘二、数据挖掘的定义二、数据挖掘的定义l从商业数据到商业信息的进化从商业数据到商业信息的进化 进化阶段商业问题支持技术产品厂家产品特点数据搜集数据搜集 (20世世纪60年代年代)“过去五年中我的去五年中我的总收入是多少?收入是多少?”计算机、磁算机、磁带和磁和磁盘IBM,,CDC提供提供历史性的、静史性的、静态的数据信息的数据信息数据数据访问(20世世纪80年代年代)“在新英格在新英格兰的分部的分部去年三月的去年三月的销售售额是多少?是多少?”关系数据关系数据库,,结构化构化查询语言,言,ODBC、、Oracle、、Sybase、、IBM、、MicrosoftOracle、、Sybase、、Informix、、IBM、、Microsoft在在记录级提供提供历史史性的、性的、动态数据信数据信息息数据数据仓库、、决策支持决策支持(20世世纪90年代年代)“在新英格在新英格兰的分部的分部去年三月的去年三月的销售售额是多少?波士是多少?波士顿据据此可得出什么此可得出什么结论??”联机分析机分析处理理(OLAP)、多、多维数据数据库、数据、数据仓库Pilot、、Comshare、、Arbor、、Cognos、、Microstrategy在各种在各种层次上提供次上提供回溯的、回溯的、动态的数的数据信息据信息数据挖掘数据挖掘(正在流行正在流行)“下个月波士下个月波士顿的的销售会怎么售会怎么样??为什什么?么?”高高级算法、多算法、多处理器理器计算机、海量数据算机、海量数据库Pilot、、Lockheed、、IBM、、SGI、其、其他初他初创公司公司提供提供预测性的信息性的信息数据挖掘数据挖掘数据挖掘与其他科学的关系l数据挖掘作为一门新兴的交叉学科,涉及数据挖掘作为一门新兴的交叉学科,涉及数据库系统、数据库系统、数据仓库、统计学、机器学习、可视化、信息检索和数据仓库、统计学、机器学习、可视化、信息检索和高性能计算高性能计算等诸多领域。
等诸多领域l此外,还与神经网络、模式识别、空间数据分析、图此外,还与神经网络、模式识别、空间数据分析、图像处理、信号处理、概率论、图论和归纳逻辑等等领像处理、信号处理、概率论、图论和归纳逻辑等等领域关系密切域关系密切数据挖掘数据挖掘数据挖掘与其他科学的关系数据挖掘受多学科的影响数据挖掘受多学科的影响 数据挖掘数据挖掘数据挖掘与传统数据分析数据挖掘与传统数据分析l数据挖掘与传统的数据分析数据挖掘与传统的数据分析(如查询、报表、联机应用如查询、报表、联机应用分析分析)的本质区别是数据挖掘是:的本质区别是数据挖掘是:n在没有明确假设的前提下去挖掘信息、发现知识在没有明确假设的前提下去挖掘信息、发现知识数据挖掘所得到的信息应具有数据挖掘所得到的信息应具有先前未知,有效和可先前未知,有效和可用用三个特征三个特征传统是传统是假设驱动、假设驱动、数据挖掘数据挖掘是发现是发现驱动)驱动)数据挖掘数据挖掘 数据挖掘和数据仓库数据挖掘和数据仓库 l数据仓库和数据集市是数据挖掘的一种数据源数据仓库和数据集市是数据挖掘的一种数据源l数据挖掘是数据仓库的一个应用数据挖掘是数据仓库的一个应用l对于数据挖掘,数据仓库不是必需的。
对于数据挖掘,数据仓库不是必需的数据挖掘数据挖掘数据挖掘和分析处理数据挖掘和分析处理(OLAP) lOLAP分析是建立一系列的假设,然后通过分析是建立一系列的假设,然后通过OLAP来证来证实或推翻这些假设来最终得到自己的结论实或推翻这些假设来最终得到自己的结论OLAP分分析过程在本质上是一个演绎推理的过程析过程在本质上是一个演绎推理的过程l数据挖掘与数据挖掘与OLAP不同的地方是,数据挖掘不是用于不同的地方是,数据挖掘不是用于验证某个假定的模式验证某个假定的模式(模型模型)的正确性,而是在数据库的正确性,而是在数据库中自己寻找模型他在本质上是一个归纳的过程中自己寻找模型他在本质上是一个归纳的过程l数据挖掘和数据挖掘和OLAP具有一定的互补性具有一定的互补性 数据挖掘数据挖掘数据挖掘、机器学习和统计数据挖掘、机器学习和统计 l数据挖掘利用了人工智能数据挖掘利用了人工智能(AI)和统计分析的进步所带和统计分析的进步所带来的好处来的好处l数据挖掘不是为了替代传统的统计分析技术相反,数据挖掘不是为了替代传统的统计分析技术相反,他是统计分析方法学的延伸和扩展他是统计分析方法学的延伸和扩展 l数据挖掘就是利用了统计和人工智能技术的应用程序,数据挖掘就是利用了统计和人工智能技术的应用程序,他把这些高深复杂的技术封装起来,使人们不用自己他把这些高深复杂的技术封装起来,使人们不用自己掌握这些技术也能完成同样的功能,并且更专注于自掌握这些技术也能完成同样的功能,并且更专注于自己所要解决的问题己所要解决的问题 数据挖掘数据挖掘数据挖掘的本质l 一种一种深层次的数据分析深层次的数据分析方法。
方法l数据分析本身已有多年的历史,只不过在过去数据收数据分析本身已有多年的历史,只不过在过去数据收集和分析的一般目的是用于科学研究;另外,由于当集和分析的一般目的是用于科学研究;另外,由于当时计算能力的限制,很难实现大量数据的复杂分析时计算能力的限制,很难实现大量数据的复杂分析l现在,由于各行业业务自动化的实现,商业领域产生现在,由于各行业业务自动化的实现,商业领域产生了大量的业务数据,这些数据并不是为了分析的目的了大量的业务数据,这些数据并不是为了分析的目的而收集的,而是在商业运作过程中由于业务需要而自而收集的,而是在商业运作过程中由于业务需要而自然产生的然产生的数据挖掘数据挖掘实施数据挖掘的目的l不再是单纯为了研究,更主要的是为商业决策提供真不再是单纯为了研究,更主要的是为商业决策提供真正有价值的信息,进而获得利润正有价值的信息,进而获得利润l所有企业面临的一个共同问题是:企业数据量非常大,所有企业面临的一个共同问题是:企业数据量非常大,而其中真正有价值的信息却很少,因此需要从大量的而其中真正有价值的信息却很少,因此需要从大量的数据中经过深层分析,获得有利于商业运作、提高竞数据中经过深层分析,获得有利于商业运作、提高竞争力的信息,就像争力的信息,就像从矿石中淘金一样,数据挖掘也由从矿石中淘金一样,数据挖掘也由此而得名此而得名。
数据挖掘数据挖掘三、数据挖掘发现的知识类型三、数据挖掘发现的知识类型 l广义知识广义知识l关联知识关联知识l分类知识分类知识l预测知识预测知识l偏差知识偏差知识 数据挖掘数据挖掘广义知识广义知识l广义知识指类别特征的概括性描述知识广义知识指类别特征的概括性描述知识n根据数据的微观特性发现其表征的、带有普遍性的、根据数据的微观特性发现其表征的、带有普遍性的、较高层次概念的、中观和宏观的知识,反映同类事较高层次概念的、中观和宏观的知识,反映同类事物共同性质物共同性质l广义知识就是对大量数据的归纳、概括,提炼出带有广义知识就是对大量数据的归纳、概括,提炼出带有普遍性的、概括性的描述统计知识普遍性的、概括性的描述统计知识l描述统计描述统计是数据挖掘最基本的应用之一,经常和统计是数据挖掘最基本的应用之一,经常和统计图图(如直方图,柱形图,折线图,散点图等如直方图,柱形图,折线图,散点图等)配合使用配合使用如当月公司利润总额、比较不同区域的销售量等如当月公司利润总额、比较不同区域的销售量等l广义知识的发现方法和实现技术有很多,如概念描述、广义知识的发现方法和实现技术有很多,如概念描述、多维数据分析、面向属性的归约、概念分层等。
多维数据分析、面向属性的归约、概念分层等数据挖掘数据挖掘关联知识关联知识 l数据关联数据关联是数据库中存在的一类重要的可被发现的知是数据库中存在的一类重要的可被发现的知识若两个或多个变量的取值之间存在某种规律性,识若两个或多个变量的取值之间存在某种规律性,就称为就称为关联关联 l关联知识可分为简单关联规则、多层关联规则、多维关联知识可分为简单关联规则、多层关联规则、多维关联规则、量化关联规则和基于约束的关联规则关联规则、量化关联规则和基于约束的关联规则l典型例子是购物篮分析典型例子是购物篮分析 l发现关联规则的算法主要有发现关联规则的算法主要有AprioriApriori算法和频繁模式树算法和频繁模式树(FP-(FP-树树) ) 数据挖掘数据挖掘 案例:某超市的数据挖掘应用案例:某超市的数据挖掘应用 l美国的超市有这样的系统:当你采购了一车商品结账美国的超市有这样的系统:当你采购了一车商品结账时,售货员小姐扫描完了你的产品后,计算机上会显时,售货员小姐扫描完了你的产品后,计算机上会显示出一些信息,然后售货员会友好地问你:我们有一示出一些信息,然后售货员会友好地问你:我们有一种一次性纸杯正在促销,位于种一次性纸杯正在促销,位于F6F6货架上,您要购买吗货架上,您要购买吗??l这句话决不是一般的促销。
因为计算机系统早就算好这句话决不是一般的促销因为计算机系统早就算好了,如果你的购物车中有餐巾纸、大瓶可乐和沙拉,了,如果你的购物车中有餐巾纸、大瓶可乐和沙拉,则则86%86%的可能性你要买一次性纸杯结果是,你说,啊,的可能性你要买一次性纸杯结果是,你说,啊,谢谢你,我刚才一直没找到纸杯谢谢你,我刚才一直没找到纸杯 l这不是什么神奇的科学算命,而是利用数据挖掘中的这不是什么神奇的科学算命,而是利用数据挖掘中的关联规则算法实现的系统关联规则算法实现的系统数据挖掘数据挖掘分类知识分类知识 l分类知识分类知识是反映同类事物共同性的特征型知识和不同是反映同类事物共同性的特征型知识和不同事物之间的差异型特征知识事物之间的差异型特征知识l典型应用:典型应用:客户细分客户细分例如,银行根据客户的存款额、例如,银行根据客户的存款额、信用额和消费金额把客户分成不同的类别,分别办理信用额和消费金额把客户分成不同的类别,分别办理不同类型的银行卡不同类型的银行卡 l算法有决策树分类、贝叶斯分类、人工神经网络法、算法有决策树分类、贝叶斯分类、人工神经网络法、粗糙集法和遗传算法等粗糙集法和遗传算法等 数据挖掘数据挖掘预测知识预测知识 l预测型知识预测型知识指的是预测连续值,是根据时间序列型数指的是预测连续值,是根据时间序列型数据,由历史的和当前的数据去推测未来的数据,也可据,由历史的和当前的数据去推测未来的数据,也可以认为是以时间为关键属性的关联知识。
以认为是以时间为关键属性的关联知识 l一个典型的例子是一个典型的例子是市场预测问题市场预测问题,数据挖掘从过去有,数据挖掘从过去有关促销的数据中寻找在未来投资中回报最大的用户,关促销的数据中寻找在未来投资中回报最大的用户,其它可预测的问题包括预报破产以及认定对指定事件其它可预测的问题包括预报破产以及认定对指定事件最可能做出反应的群体最可能做出反应的群体 l基于统计学习的回归分析法,还有基于现代智能计算基于统计学习的回归分析法,还有基于现代智能计算的神经网络、遗传算法等各类时间序列分析法的神经网络、遗传算法等各类时间序列分析法 数据挖掘数据挖掘偏差知识偏差知识 l偏差型知识偏差型知识是对差异和极端特例的描述,揭示事物偏是对差异和极端特例的描述,揭示事物偏离常规的异常现象离常规的异常现象 l偏差即异常,在数据挖掘中有时也称之为偏差即异常,在数据挖掘中有时也称之为“孤立点孤立点”,可以用来发现,可以用来发现“小的模式小的模式” l偏差知识挖掘的一个典型应用是检测信用卡欺诈偏差知识挖掘的一个典型应用是检测信用卡欺诈 l基于统计的方法、基于距离的方法和基于偏离的方法基于统计的方法、基于距离的方法和基于偏离的方法 数据挖掘数据挖掘案例:国内某电信公司利用数据挖掘预测客户知识案例:国内某电信公司利用数据挖掘预测客户知识 2004年,某电信公司邀请国际某著名咨询公司进行市场营销再造年,某电信公司邀请国际某著名咨询公司进行市场营销再造项目,将数据挖掘用于它的三个业务领域:项目,将数据挖掘用于它的三个业务领域:客户管理、网络客户管理、网络/产品产品/服务管理、市场服务管理、市场/财务管理财务管理;公司将数据挖掘的重点放在了客户;公司将数据挖掘的重点放在了客户管理。
在电信市场竞争越来越激烈的今天,即使在扩大其客户群管理在电信市场竞争越来越激烈的今天,即使在扩大其客户群的时候,电信运营商和其它代理商也必须密切监视他们的现有客的时候,电信运营商和其它代理商也必须密切监视他们的现有客户,并采用各种营销方法来留住这些客户电信公司期望通过数户,并采用各种营销方法来留住这些客户电信公司期望通过数据仓库的实施和数据挖掘的应用,能够利用经营分析系统进行据仓库的实施和数据挖掘的应用,能够利用经营分析系统进行客客户分群、客户获取、客户行为分析、客户流失分析户分群、客户获取、客户行为分析、客户流失分析等如今,电等如今,电信公司已经能够利用现有的客户数据来信公司已经能够利用现有的客户数据来总结客户行为的特点,并总结客户行为的特点,并预测客户的下一步行为预测客户的下一步行为例如,为了对付日益严重的客户流失或例如,为了对付日益严重的客户流失或业务流失状况,业务流失状况, 电信公司采用基于决策树的方法来分析客户的流电信公司采用基于决策树的方法来分析客户的流失特性,以便采取针对性的营销措施,挽留有价值的客户、减少失特性,以便采取针对性的营销措施,挽留有价值的客户、减少客户流失客户流失。
数据挖掘数据挖掘四、数据挖掘对象四、数据挖掘对象 1. 关系数据库关系数据库 n数据库中数据的特点如下:数据库中数据的特点如下: 1) 数据动态性、数据动态性、2) 数据的不完全性、数据的不完全性、3) 噪声数据、噪声数据、4) 数据类型不一致、数据类型不一致、5) 异构性、异构性、6) 数据冗余性、数据冗余性、7) 数据稀疏性数据稀疏性n由于数据库中的数据具有以上特点,使其在挖掘过由于数据库中的数据具有以上特点,使其在挖掘过程中难以直接使用,因此在进行数据挖掘以前必须程中难以直接使用,因此在进行数据挖掘以前必须对数据进行预处理对数据进行预处理数据挖掘数据挖掘四、数据挖掘对象四、数据挖掘对象2. 2. 数据仓库数据仓库n数据仓库的特点如下:数据仓库的特点如下: 1) 1) 面向主题、面向主题、2) 2) 集成的数据、集成的数据、3) 3) 不可更新、不可更新、4) 4) 随时间不断变化随时间不断变化n高质量的挖掘结果依赖于高质量的数据,数据仓库高质量的挖掘结果依赖于高质量的数据,数据仓库为数据挖掘准备了良好的数据源,因此,数据仓库为数据挖掘准备了良好的数据源,因此,数据仓库是数据挖掘的是数据挖掘的最佳环境最佳环境。
数据挖掘数据挖掘四、数据挖掘对象四、数据挖掘对象3.文本.文本l文本是非结构化或半结构化的数据文本是非结构化或半结构化的数据l文本分析包括:文本分析包括:n1) 关键词或特征提取关键词或特征提取n2) 相似检索相似检索n3) 文本聚类文本聚类n4) 文本分类文本分类数据挖掘数据挖掘四、数据挖掘对象四、数据挖掘对象4.多媒体数据.多媒体数据l图像、音频、视频数据是典型的多媒体数据图像、音频、视频数据是典型的多媒体数据l多媒体数据广泛存在于生活、医学、军事、娱乐等领多媒体数据广泛存在于生活、医学、军事、娱乐等领域,域,l目前,对于多媒体数据的挖掘主要有特征提取、基于目前,对于多媒体数据的挖掘主要有特征提取、基于内容的相似检索等内容的相似检索等数据挖掘数据挖掘四、数据挖掘对象四、数据挖掘对象5..Web数据数据lWeb使用模式挖掘使用模式挖掘:在:在Web环境中,文档和对象一般环境中,文档和对象一般都是通过链接来便于用户访问捕捉用户的存取模式都是通过链接来便于用户访问捕捉用户的存取模式或发现一个或发现一个Web网站最频繁的访问路径称为网站最频繁的访问路径称为Web使用使用模式挖掘或模式挖掘或Web路径挖掘路径挖掘。
lWeb结构挖掘结构挖掘:是挖掘:是挖掘Web的链接结构,并找出关于的链接结构,并找出关于某一主题的权威网站某一主题的权威网站lWeb内容挖掘内容挖掘:是指在大量训练样本的基础上,得到:是指在大量训练样本的基础上,得到数据对象之间的内在特征,并以此为依据进行有目的数据对象之间的内在特征,并以此为依据进行有目的的信息筛选,从而获得指定内容的信息的信息筛选,从而获得指定内容的信息数据挖掘数据挖掘四、数据挖掘对象四、数据挖掘对象6.复杂类型的数据.复杂类型的数据1) 空间数据库空间数据库n如地理信息数据、卫星图像数据、地下管道、下水道、及各如地理信息数据、卫星图像数据、地下管道、下水道、及各类地下建筑分布数据等类地下建筑分布数据等n对空间数据的挖掘可以为城市规划、生态规划、道路修建提对空间数据的挖掘可以为城市规划、生态规划、道路修建提供决策支持供决策支持2) 时间序列数据时间序列数据n主要用于存放与时间相关的数据,它可用来反映随时间变化主要用于存放与时间相关的数据,它可用来反映随时间变化的即时数据或不同时间发生的不同事件的即时数据或不同时间发生的不同事件n例如,连续存放即时的股票交易信息、卫星轨道信息等。
例如,连续存放即时的股票交易信息、卫星轨道信息等n对时间序列数据的挖掘可以发现事件的发展趋势、演变过程对时间序列数据的挖掘可以发现事件的发展趋势、演变过程和隐藏特征,这些信息对制定计划、决策和预警是非常有用和隐藏特征,这些信息对制定计划、决策和预警是非常有用的数据挖掘数据挖掘五、数据挖掘任务五、数据挖掘任务l概念描述概念描述 l关联分析 l分类与估值分类与估值l聚类聚类 l孤立点分析孤立点分析l时间序列分析时间序列分析 l预测预测 数据挖掘数据挖掘概念描述概念描述l概念描述概念描述就是通过对某类数据对象进行汇总、分析和就是通过对某类数据对象进行汇总、分析和比较,获得对此类对象内涵的描述,并概括这类对象比较,获得对此类对象内涵的描述,并概括这类对象的有关特征的有关特征 l概念描述可以通过下述方法得到:数据特征化和数据概念描述可以通过下述方法得到:数据特征化和数据区分区分n数据特征化的输出数据特征化的输出可以采用饼图、柱状图、曲线、可以采用饼图、柱状图、曲线、多维数据立方体、含交叉表的多维表等形式,描述多维数据立方体、含交叉表的多维表等形式,描述结果也可以用概化关系或规则形式表示结果也可以用概化关系或规则形式表示 n数据区分的输出数据区分的输出类似于数据特征化,但它应该包括类似于数据特征化,但它应该包括比较度量,以帮助区分目标类和比较类。
比较度量,以帮助区分目标类和比较类数据挖掘数据挖掘概念描述概念描述l例例1:我们收集移动费月消费额超出:我们收集移动费月消费额超出1000元的客元的客户资料,然后利用数据挖掘进行分析,获得这类客户户资料,然后利用数据挖掘进行分析,获得这类客户的的总体性描述总体性描述::35--50岁,有工作,月收入岁,有工作,月收入5000元以元以上,拥有良好的信用度上,拥有良好的信用度…;;l例例2:对比移动费月消费额超出:对比移动费月消费额超出1000元的客户群元的客户群与移动费月消费额低于与移动费月消费额低于100元的客户群利用数元的客户群利用数据挖掘可作出据挖掘可作出如下描述如下描述:移动月消费额超出:移动月消费额超出1000元的客户元的客户80%以上年龄在%以上年龄在35--50岁之间,且月收入岁之间,且月收入5000元以上;而移动月消费额低于元以上;而移动月消费额低于100元的客户元的客户60%以上要么年龄过大要么年龄过小,且月收入%以上要么年龄过大要么年龄过小,且月收入2000元以下数据挖掘数据挖掘关联分析关联分析 l关联分析关联分析就是从大量的数据中发现就是从大量的数据中发现项集之间项集之间有趣的联有趣的联系、相关关系或因果结构,以及项集的频繁模式。
系、相关关系或因果结构,以及项集的频繁模式 l例如,购买计算机也趋向于同时购买财务管理软件可例如,购买计算机也趋向于同时购买财务管理软件可以用以下关联规则表示:以用以下关联规则表示:[support=2%,,confidence=60%] 数据挖掘数据挖掘分类与估值分类与估值l分类分类指通过分析一个类别已知的数据集的特征来建立指通过分析一个类别已知的数据集的特征来建立一组模型,该模型可用以预测类别未知的数据项的类一组模型,该模型可用以预测类别未知的数据项的类别l类的内涵描述分为:特征描述和辨别性描述类的内涵描述分为:特征描述和辨别性描述n特征描述特征描述是对类中对象的共同特征的描述是对类中对象的共同特征的描述n辨别性描述辨别性描述是对两个或多个类之间区别的描述是对两个或多个类之间区别的描述l分类过程分两步:分类过程分两步:n第一步,建立一个模型,描述预定的数据类或概念第一步,建立一个模型,描述预定的数据类或概念集n第二步,使用模型对未分类的对象进行分类第二步,使用模型对未分类的对象进行分类l分类挖掘主要技术有决策树、贝叶斯学习方法和神经分类挖掘主要技术有决策树、贝叶斯学习方法和神经网络方法等。
网络方法等 数据挖掘数据挖掘分类与估值分类与估值l估值估值与分类类似,只不过它要预测的不是类别,而是与分类类似,只不过它要预测的不是类别,而是一个一个连续的数值连续的数值数据挖掘数据挖掘聚类聚类l聚类聚类是根据类内事物的相似性最大、类间事物的相似性是根据类内事物的相似性最大、类间事物的相似性最小的原则把数据对象进行聚类或分组最小的原则把数据对象进行聚类或分组l聚类与分类不同,它们的区别如下:聚类与分类不同,它们的区别如下:n第一,分类需要训练数据集,属于有监督的学习;而第一,分类需要训练数据集,属于有监督的学习;而聚类不需要训练数据集,属于无监督的学习聚类不需要训练数据集,属于无监督的学习n第二,在进行分类以前,已知道数据的分类情况;而第二,在进行分类以前,已知道数据的分类情况;而进行聚类以前,对目标数据的分类情况一无所知进行聚类以前,对目标数据的分类情况一无所知l常用的聚类方法包括统计分析方法、机器学习方法、神常用的聚类方法包括统计分析方法、机器学习方法、神经网络方法等经网络方法等数据挖掘数据挖掘孤立点分析孤立点分析l数据库中可能包含一些数据对象,它们与集合中其它数据库中可能包含一些数据对象,它们与集合中其它数据的一般行为或模型不一致,这些数据对象称为数据的一般行为或模型不一致,这些数据对象称为孤孤立点。
立点l孤立点可以使用统计试验检测它假定一个数据的分孤立点可以使用统计试验检测它假定一个数据的分布或概率模型,并使用距离度量,到其它数据对象的布或概率模型,并使用距离度量,到其它数据对象的距离很远的对象被视为孤立点距离很远的对象被视为孤立点l基于偏差的方法通过考察一群对象主要特征上的差别基于偏差的方法通过考察一群对象主要特征上的差别识别孤立点,而不是使用统计或距离度量识别孤立点,而不是使用统计或距离度量l孤立点分析通常可以作为孤立点分析通常可以作为聚类分析的副产品聚类分析的副产品,根据聚,根据聚类分析结果,含有对象个数少于设定阈值的聚类中的类分析结果,含有对象个数少于设定阈值的聚类中的事物看作是孤立点事物看作是孤立点数据挖掘数据挖掘时间序列分析时间序列分析l时间序列分析时间序列分析是描述行为随时间变化的对象的规律或是描述行为随时间变化的对象的规律或趋势,并对其建模趋势,并对其建模l包括与时间相关数据的特征、区分、关联、分类或聚包括与时间相关数据的特征、区分、关联、分类或聚类,类,l根据分析的不同特点分为根据分析的不同特点分为时间序列数据分析、序列或时间序列数据分析、序列或周期模式匹配周期模式匹配和和基于类似性的数据分析基于类似性的数据分析。
l如股票市场的每日波动、动态产品加工过程、科学实如股票市场的每日波动、动态产品加工过程、科学实验、医学治疗等验、医学治疗等数据挖掘数据挖掘预测预测l预测预测是从历史数据找出变化规律,建立模型,并用此是从历史数据找出变化规律,建立模型,并用此模型预测未来数据种类、特征等模型预测未来数据种类、特征等l用分类预测用分类预测离散数据离散数据l用回归分析预测用回归分析预测连续数据连续数据n典型的回归分析是利用大量的历史数据,建立线性典型的回归分析是利用大量的历史数据,建立线性或非线性回归方程或非线性回归方程n根据回归模型,只要输入自变量的值,就可以求出根据回归模型,只要输入自变量的值,就可以求出因变量的值,达到对因变量的预测因变量的值,达到对因变量的预测数据挖掘数据挖掘六、数据挖掘分类六、数据挖掘分类1. 按数据库类型分类按数据库类型分类 n根据数据模型分类,有关系的、事务的、面向对象根据数据模型分类,有关系的、事务的、面向对象的、对象的、对象-关系的、或数据仓库的数据挖掘系统关系的、或数据仓库的数据挖掘系统n根据所处理的数据的特定类型分类,有空间的、时根据所处理的数据的特定类型分类,有空间的、时间序列的、文本的、或多媒体的数据挖掘系统,或间序列的、文本的、或多媒体的数据挖掘系统,或WWW数据挖掘系统。
数据挖掘系统数据挖掘数据挖掘六、数据挖掘分类六、数据挖掘分类2. 按数据挖掘对象分类按数据挖掘对象分类n对数据库进行挖掘对数据库进行挖掘n文本数据挖掘文本数据挖掘n多媒体数据挖掘多媒体数据挖掘nWeb数据挖掘数据挖掘数据挖掘数据挖掘六、数据挖掘分类六、数据挖掘分类3. 根据挖掘的知识类型分类根据挖掘的知识类型分类n概念描述概念描述n关联分析关联分析n分类分类n预测预测n聚类分析聚类分析n孤立点孤立点 分析分析数据挖掘数据挖掘六、数据挖掘分类六、数据挖掘分类4.按挖掘方法和技术分类.按挖掘方法和技术分类 1)归纳学习类归纳学习类2)仿生计算类仿生计算类3)公式发现类公式发现类4)统计分析类统计分析类 5)模糊数学类模糊数学类 6)可视化技术类可视化技术类 数据挖掘数据挖掘数据挖掘技术分类数据挖掘技术分类数据挖掘数据挖掘数据挖掘数据挖掘验证驱动挖掘验证驱动挖掘验证驱动挖掘验证驱动挖掘发现驱动挖掘发现驱动挖掘发现驱动挖掘发现驱动挖掘SQLSQLSQLSQL生成器生成器生成器生成器查询工具查询工具查询工具查询工具OLAPOLAP描述描述描述描述预测预测预测预测可视化可视化可视化可视化聚类聚类聚类聚类关联规则关联规则关联规则关联规则顺序关联顺序关联顺序关联顺序关联汇总描述汇总描述汇总描述汇总描述分类分类分类分类统计回归统计回归统计回归统计回归时间序列时间序列时间序列时间序列决策树决策树决策树决策树神经网路神经网路神经网路神经网路数据挖掘数据挖掘七、数据挖掘模型七、数据挖掘模型l为了使数据挖掘技术在产业界得到更好的应用,欧洲为了使数据挖掘技术在产业界得到更好的应用,欧洲委员会联合一些数据挖掘软件厂商开发了委员会联合一些数据挖掘软件厂商开发了CRISP-DM((Cross Industry Standard Process for Data Mining)模型)模型,目的是把数据挖掘的过程标准化,目的是把数据挖掘的过程标准化, 使使数据挖掘项目的实施速度更快、成本更低、更可靠并数据挖掘项目的实施速度更快、成本更低、更可靠并且更容易管理。
且更容易管理lCRISP-DM模型最先在模型最先在1996年被提出,当前的白皮书年被提出,当前的白皮书版本是版本是1.0数据挖掘数据挖掘CRISP-DM((Cross Industry Standard Process for Data Mining))模型模型数据挖掘数据挖掘七、数据挖掘模型七、数据挖掘模型lCRISP-DMCRISP-DM模型中,数据挖掘包括六个步骤:模型中,数据挖掘包括六个步骤: 1 1. .业务理解业务理解((Business UnderstandingBusiness Understanding))阶段阶段 具体地,包括:具体地,包括:I.I. 确定业务目标确定业务目标II.II. 项目可行性分析项目可行性分析III.III.确定数据挖掘目标确定数据挖掘目标IV.IV. 提出初步的项目计划提出初步的项目计划数据挖掘数据挖掘七、数据挖掘模型七、数据挖掘模型l确确定定业业务务目目标标::分分析析项项目目的的背背景景,,从从业业务务视视点点分分析析项项目的目标和需求,确定业务角度的成功标准;目的目标和需求,确定业务角度的成功标准;l项项目目可可行行性性分分析析::分分析析拥拥有有的的资资源源,,条条件件和和限限制制,,风风险估计,成本和效益估计;险估计,成本和效益估计;l确确定定数数据据挖挖掘掘目目标标::明明确确确确定定数数据据挖挖掘掘的的目目标标和和成成功功标标准准,,数数据据挖挖掘掘的的目目标标和和业业务务目目标标是是不不一一样样的的,,前前者者指技术上的,例如生成一棵决策树等;指技术上的,例如生成一棵决策树等;l提出项目计划提出项目计划:对整个项目做一个计划,初步估计用:对整个项目做一个计划,初步估计用到的工具和技术。
到的工具和技术 数据挖掘数据挖掘七、数据挖掘模型七、数据挖掘模型 2 2.数据理解(.数据理解(Data UnderstandingData Understanding))阶段阶段 具体地,包括:具体地,包括:l收收集集原原始始数数据据::收收集集本本项项目目所所涉涉及及到到的的数数据据,,如如有有必必要要,,把把数数据据装装入入数数据据处处理理工工具具,,并并作作一一些些初初步步的的数数据据集成的工作,生成相应报告集成的工作,生成相应报告; ;l描描述述数数据据::对对数数据据做做一一些些大大致致的的描描述述,,例例如如记记录录数数、、属性数等,给出相应报告;属性数等,给出相应报告;l探探索索数数据据::对对数数据据做做简简单单的的统统计计分分析析,,例例如如关关键键属属性性的分布等;的分布等;l检查数据质量检查数据质量:包括数据是否完整、数据是否有错、:包括数据是否完整、数据是否有错、是否有缺失值等问题是否有缺失值等问题 数据挖掘数据挖掘七、数据挖掘模型七、数据挖掘模型3 3.数据准备(.数据准备(Data PreparationData Preparation))阶段阶段 具体地,包括:具体地,包括:l数数据据选选择择::根根据据数数据据挖挖掘掘目目标标和和数数据据质质量量选选择择合合适适的的数据,包括表的选择、记录选择和属性选择;数据,包括表的选择、记录选择和属性选择;l数数据据清清洁洁::提提高高选选择择好好的的数数据据的的质质量量,,例例如如去去除除噪噪音音,,估计缺失值等;估计缺失值等;l数数据据创创建建::在在原原有有数数据据的的基基础础上上是是生生成成新新的的属属性性或或记记录;录;数据挖掘数据挖掘七、数据挖掘模型七、数据挖掘模型l数数据据合合并并::利利用用表表连连接接等等方方式式将将几几个个数数据据集集合合并并在在一一起;起;l数据格式化数据格式化:把数据转换成适合数据挖掘处理的格式。
把数据转换成适合数据挖掘处理的格式数据挖掘数据挖掘七、数据挖掘模型七、数据挖掘模型4 4.建立模型(.建立模型(ModelingModeling))阶段阶段 具体地,包括:具体地,包括:l选选择择建建模模技技术术::确确定定数数据据挖挖掘掘算算法法和和参参数数,,可可能能会会利利用多个算法;用多个算法;l测测试试方方案案设设计计::设设计计某某种种测测试试模模型型的的质质量量和和有有效效性性的的机制;机制;l模模型型训训练练::在在准准备备好好的的数数据据集集上上运运行行数数据据挖挖掘掘算算法法,,得出一个或者多个模型;得出一个或者多个模型;l模模型型测测试试评评估估::根根据据测测试试方方案案进进行行测测试试,,从从数数据据挖挖掘掘技术的角度确定数据挖掘目标是否成功技术的角度确定数据挖掘目标是否成功 数据挖掘数据挖掘七、数据挖掘模型七、数据挖掘模型5 5.模型评估(.模型评估(EvaluationEvaluation))阶段阶段 具体地,包括:具体地,包括: l结结果果评评估估::从从商商业业角角度度评评估估得得到到的的模模型型,,甚甚至至实实际际试试用该模型测试其效果;用该模型测试其效果;l过过程程回回顾顾::回回顾顾项项目目的的所所有有流流程程,,确确定定每每一一个个阶阶段段都都没有失误;没有失误;l确确定定下下一一步步工工作作::根根据据结结果果评评估估和和过过程程回回顾顾得得出出的的结结论论,,确确定定是是部部署署该该挖挖掘掘模模型型还还是是从从某某个个阶阶段段开开始始重重新新开始。
开始 数据挖掘数据挖掘七、数据挖掘模型七、数据挖掘模型6 6.部署(.部署(DeploymentDeployment))阶段阶段 具体地,包括:具体地,包括: l部署计划部署计划:对在业务运作中部署模型作出计划;:对在业务运作中部署模型作出计划;l监监控控和和维维护护计计划划::如如何何监监控控模模型型在在实实际际业业务务中中的的使使用用情况,如何维护该模型;情况,如何维护该模型;l作出最终报告作出最终报告:项目总结,项目经验和项目结果;:项目总结,项目经验和项目结果;l项项目目回回顾顾::回回顾顾项项目目的的实实施施过过程程,,总总结结经经验验教教训训;;对对数据挖掘的运行效果做一个预测数据挖掘的运行效果做一个预测 数据挖掘数据挖掘七、数据挖掘模型七、数据挖掘模型l为保证项目的可靠性和可管理性,为保证项目的可靠性和可管理性,CRISP-DMCRISP-DM规定一个规定一个数据挖掘项目应该产生数据挖掘项目应该产生1111个报告:个报告: 业务理解报告业务理解报告 原始数据收集报告原始数据收集报告 数据描述报告数据描述报告 数据探索报告数据探索报告 数据质量报告数据质量报告 数据集描述报告数据集描述报告 模型训练报告模型训练报告 模型评估报告模型评估报告 部署计划部署计划 监控和维护计划监控和维护计划 总结报告总结报告l通过这些报告,可以有效地控制数据挖掘项目进程,通过这些报告,可以有效地控制数据挖掘项目进程,减少开发风险。
减少开发风险 数据挖掘数据挖掘八、数据挖掘过程八、数据挖掘过程l数据挖掘数据挖掘是一个反复迭代的人机交互处理过程该过是一个反复迭代的人机交互处理过程该过程需要经历多个步骤,并且很多决策需要由用户提供程需要经历多个步骤,并且很多决策需要由用户提供 l从宏观上看,从宏观上看,数据挖掘数据挖掘过程主要由三个部分组成,即过程主要由三个部分组成,即数据整理、数据挖掘和结果的解释评估数据整理、数据挖掘和结果的解释评估数据挖掘数据挖掘八、数据挖掘过程八、数据挖掘过程数据挖掘数据挖掘八、数据挖掘过程八、数据挖掘过程1.确定主题.确定主题n在理解数据和实际业务问题的基础上,提出数据挖在理解数据和实际业务问题的基础上,提出数据挖掘要解决的问题,定义挖掘的目标,确定挖掘要发掘要解决的问题,定义挖掘的目标,确定挖掘要发现的知识类型现的知识类型2.数据筛选.数据筛选n搜索与业务数据有关的内部和外部数据信息,从中搜索与业务数据有关的内部和外部数据信息,从中选择出适用于挖掘主题的目标数据集选择出适用于挖掘主题的目标数据集3.数据清洗.数据清洗n来源于业务数据库的目标数据集中可能存在噪声数来源于业务数据库的目标数据集中可能存在噪声数据、空缺数据、过时数据、冗余数据等,为提高挖据、空缺数据、过时数据、冗余数据等,为提高挖掘质量,需要合理处理噪声数据、删除过时数据和掘质量,需要合理处理噪声数据、删除过时数据和冗余数据、填补空缺数据等清洗操作。
冗余数据、填补空缺数据等清洗操作数据挖掘数据挖掘八、数据挖掘过程八、数据挖掘过程4 4.数据变换.数据变换n选择的目标数据可能来源于不同的业务数据库,可选择的目标数据可能来源于不同的业务数据库,可能会存在数据格式、数据类型不一致等问题因此能会存在数据格式、数据类型不一致等问题因此有必要对目标数据进行相应的数据变换有必要对目标数据进行相应的数据变换5 5.选择算法.选择算法n根据以下两个因素选择合适的算法:根据以下两个因素选择合适的算法:u一是要根据数据的特点,一是要根据数据的特点,u二是要根据用户的目标二是要根据用户的目标n选择合适的知识发现算法还要包括选择适当的模型选择合适的知识发现算法还要包括选择适当的模型和参数 数据挖掘数据挖掘八、数据挖掘过程八、数据挖掘过程6.数据挖掘.数据挖掘n运用选择的算法从清洗过的目标数据集中提取出用运用选择的算法从清洗过的目标数据集中提取出用户感兴趣的知识户感兴趣的知识(模式模式),并以一定的方式表示出来并以一定的方式表示出来7.模式解释.模式解释n剔除冗余或无关的模式剔除冗余或无关的模式n如果模式不能满足用户的要求,就要分析问题的原如果模式不能满足用户的要求,就要分析问题的原因并返回到前面的某些处理步骤中反复提取。
因并返回到前面的某些处理步骤中反复提取u如果是目标数据选择不充分,则重新选取数据如果是目标数据选择不充分,则重新选取数据u如果是数据变换方法不当,则返回采用新的数据变换方法如果是数据变换方法不当,则返回采用新的数据变换方法重新进行数据变换重新进行数据变换u如果是挖掘算法法中的参数值选择不合适,则修改参数值,如果是挖掘算法法中的参数值选择不合适,则修改参数值,甚至换另外一种挖掘算法,从而提取出更有效的模式甚至换另外一种挖掘算法,从而提取出更有效的模式数据挖掘数据挖掘八、数据挖掘过程八、数据挖掘过程8 8.知识评价.知识评价n将发现的知识以用户便于理解的方式呈现给用户将发现的知识以用户便于理解的方式呈现给用户这期间也包含对知识一致性的检查,以确信本次发这期间也包含对知识一致性的检查,以确信本次发现的知识不会与以前发现的知识相抵触现的知识不会与以前发现的知识相抵触9 9.知识展示.知识展示n在知识发现过程中还包括对挖掘出的模式进行可视在知识发现过程中还包括对挖掘出的模式进行可视化处理等化处理等数据挖掘数据挖掘数据仓库数据仓库数据清洗和集成数据清洗和集成过滤过滤数据库数据库数据库或数据仓库服务器数据库或数据仓库服务器数据挖掘引擎数据挖掘引擎模式评价模式评价图形用户接口图形用户接口知识库知识库数据挖掘系统结构数据挖掘系统结构数据挖掘数据挖掘l数据库、数据仓库或其他信息库数据库、数据仓库或其他信息库:这是一个或一组数:这是一个或一组数据库、数据仓库、电子表格或其他类型的信息库。
可据库、数据仓库、电子表格或其他类型的信息库可以在数据上进行数据清理和集成以在数据上进行数据清理和集成l数据库或数据仓库服务器数据库或数据仓库服务器:根据用户的数据挖掘请求,:根据用户的数据挖掘请求,数据库或数据仓库服务器负责提取相关数据数据库或数据仓库服务器负责提取相关数据l知识库知识库:这是领域知识,用于指导搜索,或评估结果:这是领域知识,用于指导搜索,或评估结果模式的兴趣度模式的兴趣度数据挖掘系统结构数据挖掘系统结构数据挖掘数据挖掘l数据挖掘引擎数据挖掘引擎:这是数据挖掘系统基本的部分,由一:这是数据挖掘系统基本的部分,由一组功能模块组成,用于特征化、关联、分类、聚类分组功能模块组成,用于特征化、关联、分类、聚类分析以及演变和偏差分析析以及演变和偏差分析l模式评估模块模式评估模块:使用兴趣度度量,并与数据挖掘模块:使用兴趣度度量,并与数据挖掘模块交互,以便将搜索聚焦在有趣的模式上交互,以便将搜索聚焦在有趣的模式上l图形用户界面图形用户界面:在用户和数据挖掘系统之间通信,允:在用户和数据挖掘系统之间通信,允许用户与系统交互,指定数据挖掘具体任务许用户与系统交互,指定数据挖掘具体任务。
数据挖掘系统结构数据挖掘系统结构数据挖掘数据挖掘本章小结本章小结l数据挖掘是一种解决数据挖掘是一种解决“数据爆炸但知识贫乏数据爆炸但知识贫乏”困境的技术,旨困境的技术,旨在从大量的、不完全的、有噪声的、模糊的、随机的实际应用在从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识有用的信息和知识l数据挖掘是一类深层次的数据分析方法它与传统的数据分析数据挖掘是一类深层次的数据分析方法它与传统的数据分析以及联机分析处理有本质的不同数据挖掘采用信息论、集合以及联机分析处理有本质的不同数据挖掘采用信息论、集合论、神经网络、遗传算法、模糊数学等方法发现隐藏在数据中论、神经网络、遗传算法、模糊数学等方法发现隐藏在数据中概念、关联、分类预测和偏差等类型的知识概念、关联、分类预测和偏差等类型的知识l数据挖掘所发现知识的质量与数据的质量密切相关,数据挖掘数据挖掘所发现知识的质量与数据的质量密切相关,数据挖掘过程中原始数据的预处理是工作量最大的一项任务原始数据的预处理是工作量最大的一项任务。
数据挖掘数据挖掘作业作业l上网查阅相关资料上网查阅相关资料l思考练习题思考练习题数据挖掘数据挖掘。












