您所在位置：网站首页 > 高等教育 > 研究生课件 > 数据挖掘入门

数据挖掘入门.ppt

91页

卖家[上传人]：汽***

文档编号：584308896

上传时间：2024-08-30

文档格式：PPT

文档大小：648KB

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

20金贝

下载

/ 91 举报版权申诉马上下载

文本预览

下载提示

常见问题

数据挖掘入门数据挖掘入门1 1引言2 2KDD与数据挖掘3 3数据挖掘方法4 4数据挖掘的应用和发展趋势5 5数据预处理6 6可视化数据挖掘一、引言一、引言n n什么激发了数据挖掘什么激发了数据挖掘近年来，数据挖掘引起了信息产业界的极大关注，其近年来，数据挖掘引起了信息产业界的极大关注，其主要原因是存在大量数据可以广泛使用，并且迫切需要将主要原因是存在大量数据可以广泛使用，并且迫切需要将这些数据转换成有用的信息和知识获取的信息和知识可这些数据转换成有用的信息和知识获取的信息和知识可以广泛应用于各种领域，如商务管理、生产控制、市场分以广泛应用于各种领域，如商务管理、生产控制、市场分析、工程设计和科学探索等析、工程设计和科学探索等面对海量数据库和大量繁杂信息，如何才能从中提取面对海量数据库和大量繁杂信息，如何才能从中提取有价值的知识，进一步提高信息的利用率，由此引发了一有价值的知识，进一步提高信息的利用率，由此引发了一个新的研究方向：基于数据库的知识发现（个新的研究方向：基于数据库的知识发现（Knowledge Knowledge Discovery in DatabaseDiscovery in Database）及相应的数据挖掘（）及相应的数据挖掘（Data MiningData Mining））理论和技术的研究。

理论和技术的研究n n为什么数据挖掘是重要的数据的丰富带来了对强有力的数据分析工具的需求快速增长的海量数据收集存放在大型和大量的数据库中，没有强有力的工具，这些数据就变成了“数据坟墓”——难得再访问的数据档案因此数据和信息之间的鸿沟要求系统地开发数据挖掘工具，将数据坟墓转换成知识“金块”2.1 KDD定义人们给KDD下过很多定义，内涵也各不相同，目前公认的定义是由Fayyad等人提出的所谓基于数据库的知识发现(KDD)是指从大量数据中提取有效的、新颖的、潜在有用的、最终可被理解的模式的非平凡过程二、二、KDD与数据挖掘与数据挖掘2.2 KDD过程 KDD是一个人机交互处理过程该过程需要经历多个步骤，并且很多决策需要由用户提供从宏观上看，KDD过程主要经由三个部分组成，即数据整理、数据挖掘和结果的解释评估知识发现（知识发现（KDD）的过程）的过程数据清理筛选数据清理筛选数据数据目标数据目标数据预处理预处理及变换及变换变换后的数据变换后的数据数据挖掘数据挖掘解释解释/评估评估知识发现（知识发现（KDD）的步骤）的步骤1. 1.数据准备：了解数据准备：了解KDDKDD应用领域的有关情况。

包应用领域的有关情况包括熟悉相关的知识背景，搞清用户需求括熟悉相关的知识背景，搞清用户需求2. 2.数据选取：数据选取的目的是确定目标数据，数据选取：数据选取的目的是确定目标数据，根据用户的需要从原始数据库中选取相关数据根据用户的需要从原始数据库中选取相关数据或样本在此过程中，将利用一些数据库操作或样本在此过程中，将利用一些数据库操作对数据库进行相关处理对数据库进行相关处理3. 3.数据预处理：对步骤数据预处理：对步骤2 2中选出的数据进行再处理，中选出的数据进行再处理，检查数据的完整性及一致性，消除噪声及与数检查数据的完整性及一致性，消除噪声及与数据挖掘无关的冗余数据，根据时间序列和已知据挖掘无关的冗余数据，根据时间序列和已知的变化情况，利用统计等方法填充丢失的数据的变化情况，利用统计等方法填充丢失的数据4. 4.数据变换：根据知识发现的任务对经过预处理的数据再处理，主要是通过投影或利用数据库的其它操作减少数据量5. 5.确定KDD目标：根据用户的要求，确定KDD要发现的知识类型6. 6.选择算法：根据步骤5确定的任务，选择合适的知识发现算法，包括选取合适的模型和参数7. 7.数据挖掘：这是整个数据挖掘：这是整个KDDKDD过程中很重要的一个过程中很重要的一个步骤。

运用前面的选择算法，从数据库中提取步骤运用前面的选择算法，从数据库中提取用户感兴趣的知识，并以一定的方式表示出来用户感兴趣的知识，并以一定的方式表示出来8. 8.模式解释：对在数据挖掘步骤中发现的模式模式解释：对在数据挖掘步骤中发现的模式（知识）进行解释通过机器评估剔除冗余或（知识）进行解释通过机器评估剔除冗余或无关模式，若模式不满足，再返回到前面某些无关模式，若模式不满足，再返回到前面某些处理步骤中反复提取处理步骤中反复提取9. 9.知识评价：将发现的知识以用户能了解的方式知识评价：将发现的知识以用户能了解的方式呈现给用户其中也包括对知识一致性的检查，呈现给用户其中也包括对知识一致性的检查，以确信本次发现的知识不会与以前发现的知识以确信本次发现的知识不会与以前发现的知识相抵触n n什么是数据挖掘1. 1.数据挖掘（从数据中发现知识）数据挖掘（从数据中发现知识）从海量的数据中抽取感兴趣的（有价值的、隐含的、从海量的数据中抽取感兴趣的（有价值的、隐含的、以前没有用但是潜在有用信息的）模式和知识以前没有用但是潜在有用信息的）模式和知识2. 2.其它可选择的名字其它可选择的名字数据库中知识挖掘、知识提取、数据数据库中知识挖掘、知识提取、数据/ /模式分析、数据模式分析、数据考古、数据捕捞、信息获取、事务智能等。

考古、数据捕捞、信息获取、事务智能等3. 3.广义观点广义观点数据挖掘是从存放在数据库、数据仓库中或其它信息数据挖掘是从存放在数据库、数据仓库中或其它信息库中的大量数据中挖掘有趣知识的过程库中的大量数据中挖掘有趣知识的过程n n数据挖掘系统的组成ØØ数据库、数据仓库或其他信息库：是一个或一数据库、数据仓库或其他信息库：是一个或一组数据库、数据仓库、电子表格或其他类型的组数据库、数据仓库、电子表格或其他类型的信息库可以在数据上进行数据清理和集成可以在数据上进行数据清理和集成ØØ数据库或数据仓库服务器：根据用户的挖掘请数据库或数据仓库服务器：根据用户的挖掘请求，数据库或数据仓库服务器负责提取相关数求，数据库或数据仓库服务器负责提取相关数据ØØ知识库：是领域知识，用于指导搜索，或评估知识库：是领域知识，用于指导搜索，或评估结果模式的兴趣度结果模式的兴趣度ØØ数据挖掘引擎：数据挖掘系统的基本部分，由数据挖掘引擎：数据挖掘系统的基本部分，由一组功能模块组成，用于特征化、关联、分类、一组功能模块组成，用于特征化、关联、分类、聚类分析以及演变和偏差分析聚类分析以及演变和偏差分析。

ØØ模式评估模块：使用兴趣度量，并与数据挖掘模式评估模块：使用兴趣度量，并与数据挖掘模块交互，以便将搜索聚焦在有趣的模式上，模块交互，以便将搜索聚焦在有趣的模式上，可能使用兴趣度阈值过滤发现的模式可能使用兴趣度阈值过滤发现的模式ØØ图形用户界面：该模块在用户和数据挖掘系统图形用户界面：该模块在用户和数据挖掘系统之间通信，允许用户与系统交互，指定数据挖之间通信，允许用户与系统交互，指定数据挖掘查询或任务，提供信息，帮助搜索聚焦，根掘查询或任务，提供信息，帮助搜索聚焦，根据数据挖掘的中间结果进行探索式数据挖掘据数据挖掘的中间结果进行探索式数据挖掘数据挖掘系统结构数据挖掘系统结构数据仓库数据仓库数据清理数据清理数据集成数据集成过滤过滤数据库数据库数据库或数据仓库服务器数据挖掘引擎模式评估图形用户界面知识库3.1 3.1 可以分别按挖掘可以分别按挖掘任务任务、挖掘、挖掘对象对象和挖掘和挖掘方法方法来分来分类1. 1.按挖掘任务分类：包括分类或预测知识模型发按挖掘任务分类：包括分类或预测知识模型发现，数据总结，数据聚类，关联规则发现，时现，数据总结，数据聚类，关联规则发现，时序模式发现，依赖关系或依赖模型发现，异常序模式发现，依赖关系或依赖模型发现，异常和趋势发现等。

和趋势发现等2. 2.按挖掘对象分类：包括关系数据库，面向对象按挖掘对象分类：包括关系数据库，面向对象数据库，空间数据库，时态数据库，文本数据数据库，空间数据库，时态数据库，文本数据库，多媒体数据库，异构数据库，数据仓库，库，多媒体数据库，异构数据库，数据仓库，演绎数据库和演绎数据库和WebWeb数据库等数据库等三、数据挖掘方法三、数据挖掘方法3. 3.按挖掘方法分类：包括统计方法，机器学习方法，神经按挖掘方法分类：包括统计方法，机器学习方法，神经网络方法和数据库方法，其中：网络方法和数据库方法，其中：ØØ统计方法可分为：回归分析（多元回归、自回归等），统计方法可分为：回归分析（多元回归、自回归等），判别分析（贝叶斯判别、费歇尔判别、非参数判别等），判别分析（贝叶斯判别、费歇尔判别、非参数判别等），聚类分析（系统聚类、动态聚类等），探索性分析（主聚类分析（系统聚类、动态聚类等），探索性分析（主成分分析、相关分析等）等成分分析、相关分析等）等ØØ 机器学习方法可分为：归纳学习方法（决策树、规则归机器学习方法可分为：归纳学习方法（决策树、规则归纳等），基于范例学习，遗传算法等纳等），基于范例学习，遗传算法等。

ØØ神经网络方法可以分为：前向神经网络（神经网络方法可以分为：前向神经网络（BPBP算法等），算法等），自组织神经网络（自组织特征映射、竞争学习等）自组织神经网络（自组织特征映射、竞争学习等）ØØ数据库方法分为：多为数据分析和数据库方法分为：多为数据分析和OLAPOLAP技术，此外还技术，此外还有面向属性的归纳方法有面向属性的归纳方法3.2 3.2 数据挖掘方法1. 1.粗糙集粗糙集2. 2. 19821982年波兰数学家年波兰数学家Z.PawlakZ.Pawlak针对针对G.FregeG.Frege的边界线区域思想提出了粗糙集的边界线区域思想提出了粗糙集（（Rough SetRough Set），他把那些无法确认的个体都归），他把那些无法确认的个体都归属于边界线区域，而这种边界线区域被定义为属于边界线区域，而这种边界线区域被定义为上近似集和下近似集之差集上近似集和下近似集之差集3. 3. 粗糙集理论主要特点在于它恰好反映粗糙集理论主要特点在于它恰好反映了人们用粗糙集方法处理不分明问题的常规性，了人们用粗糙集方法处理不分明问题的常规性，即以不完全信息或知识去处理一些不分明现象即以不完全信息或知识去处理一些不分明现象的能力，或依据观察、度量到的某些不精确的的能力，或依据观察、度量到的某些不精确的结果而进行分类数据的能力。

结果而进行分类数据的能力2. 2.模糊集3. 经典集合理论对应二值逻辑，一个元素要么属于、要么不属于给定集合因此经典集合不能很好地描述具有模糊性和不确定性的问题美国加利福尼亚大学的扎德教授于1965年提出了模糊集合论，用隶属程度来描述差异的中间过渡，是一种用精确的数学语言对模糊性进行描述的方法4. 4. 定义：论域定义：论域X={x}X={x}上的模糊集合上的模糊集合A A由隶属函数由隶属函数 A A(x)(x)来表征其中来表征其中 A A(x)(x)在实轴的闭区间在实轴的闭区间[0[0，，1]1]中中取值，取值， A A(x)(x)的大小反映的大小反映x x对于模糊集合对于模糊集合A A的隶属的隶属程度  A A(x)(x)的值接近的值接近1 1，表示，表示x x隶属于隶属于A A的程度很高的程度很高  A A(x)(x)的值接近的值接近0 0，表示，表示x x隶属于隶属于A A的程度很低的程度很低特例，当特例，当 A A的值域取的值域取[0[0，，1]1]闭区间的两个端点，闭区间的两个端点，亦即亦即{0{0，，1}1}两个值时，两个值时，A A便退化为一个普通的逻便退化为一个普通的逻辑子集。

隶属函数也就退化为普通逻辑值隶属函数也就退化为普通逻辑值 3. 3.聚类分析聚类分析4. 4. 5. 5. 聚类是对物理的或抽象的对象集合分组的过程聚类是对物理的或抽象的对象集合分组的过程聚类生成的组为簇，簇是数据对象的集合簇内部任意聚类生成的组为簇，簇是数据对象的集合簇内部任意两个对象之间具有较高的相似度，而属于不同簇的两个两个对象之间具有较高的相似度，而属于不同簇的两个对象间具有较高的相异度对象间具有较高的相异度6. 6. 相异度可以根据描述对象的属性值计算，对象相异度可以根据描述对象的属性值计算，对象间的距离是最常采用的度量指标在实际应用中，经常间的距离是最常采用的度量指标在实际应用中，经常将一个簇中的数据对象作为一个整体看待用聚类生成将一个簇中的数据对象作为一个整体看待用聚类生成的簇来表达数据集不可避免地会损失一些信息，但却可的簇来表达数据集不可避免地会损失一些信息，但却可以使问题得到必要的简化。

以使问题得到必要的简化7. 7. 主要的数据挖掘聚类方法有：划分的方法、层主要的数据挖掘聚类方法有：划分的方法、层次的方法、基于密度的方法、基于网格的方法、基于模次的方法、基于密度的方法、基于网格的方法、基于模型的方法型的方法4. 4.关联规则关联规则5. 5. 关联规则反映一个事物与其它事物之间的相互关联规则反映一个事物与其它事物之间的相互依存性和关联性，如果两个事物或者多个事物之间存在依存性和关联性，如果两个事物或者多个事物之间存在一定的关联关系，那么其中一个事物就能够通过其他事一定的关联关系，那么其中一个事物就能够通过其他事物预测到物预测到6. 6. 人们希望在海量的商业交易记录中发现感兴趣人们希望在海量的商业交易记录中发现感兴趣的数据关联关系，用以帮助商家作出决策例如：的数据关联关系，用以帮助商家作出决策例如：7. 7. 面包面包 2% 2% 牛奶牛奶 1.5% 1.5% （占超市交易总数）（占超市交易总数）8. 8. 2%2%和和1.5%1.5%表明这两种商品在超市经营中的重要程表明这两种商品在超市经营中的重要程度，称为支持度。

商家关注高支持度的产品度，称为支持度商家关注高支持度的产品9. 9. 面包面包= =〉〉牛奶牛奶 60%60%10.10. 在购买面包的交易中，有在购买面包的交易中，有60%60%的交易既买了面的交易既买了面包又买了牛奶，成包又买了牛奶，成60%60%为规则为规则“ “面包面包= =〉〉牛奶牛奶” ”的信任度的信任度信任度反映了商品间的关联程度信任度反映了商品间的关联程度项目构成的集合称为项集项集在事物数据库中出项目构成的集合称为项集项集在事物数据库中出现的次数占总事物的百分比叫做项集的支持度如果现的次数占总事物的百分比叫做项集的支持度如果项集的支持度超过用户给定的最小支持度阈值，就称项集的支持度超过用户给定的最小支持度阈值，就称该项集是频繁项集该项集是频繁项集关联规则就是支持度和信任度分别满足用户给定阈关联规则就是支持度和信任度分别满足用户给定阈值的规则值的规则。

发现关联规则需要经历如下两个步骤：发现关联规则需要经历如下两个步骤：（（1 1）找出所有的频繁项找出所有的频繁项（（2 2）由频繁项集生成满足最小信任度阈值的规则由频繁项集生成满足最小信任度阈值的规则 1. 1.5. 5.人工神经网络人工神经网络2. 2. 人工神经网络是指由简单计算单元组成的广泛人工神经网络是指由简单计算单元组成的广泛并行互联的网络，能够模拟生物神经系统的结构和功能并行互联的网络，能够模拟生物神经系统的结构和功能组成神经网络的单个神经元的结构简单，功能有限，但组成神经网络的单个神经元的结构简单，功能有限，但是，由大量神经元构成的网络系统可以实现强大的功能是，由大量神经元构成的网络系统可以实现强大的功能3. 3. 由于现实世界的数据关系相当复杂，非线性问由于现实世界的数据关系相当复杂，非线性问题和噪声数据普遍存在。

将人工神经网络应用于数据挖题和噪声数据普遍存在将人工神经网络应用于数据挖掘，希望借助其非线性处理能力和容噪能力，得到较好掘，希望借助其非线性处理能力和容噪能力，得到较好的数据挖掘结果的数据挖掘结果4. 4. 将人工神经网络应用于数据挖掘的主要障碍将人工神经网络应用于数据挖掘的主要障碍是，通过人工神经网络学习到的知识难于理解；学习时是，通过人工神经网络学习到的知识难于理解；学习时间太长，不适于大型数据集间太长，不适于大型数据集1. 1.6 6，分类与预测，分类与预测2. 2. 分类和预测是两种重要的数据分析方法，在商分类和预测是两种重要的数据分析方法，在商业上的应用很多分类和预测可以用于提取描述重要数业上的应用很多分类和预测可以用于提取描述重要数据类型或预测未来的数据趋势据类型或预测未来的数据趋势3. 3. 分类的目的是提出一个分类函数或分类模型分类的目的是提出一个分类函数或分类模型（即分类器）通过分类器将数据对象映射到某一个给定（即分类器）通过分类器将数据对象映射到某一个给定的类别中。

数据分类可以分为两步进行第一步建立模的类别中数据分类可以分为两步进行第一步建立模型，用于描述给定的数据集合通过分析由属性描述的型，用于描述给定的数据集合通过分析由属性描述的数据集合来建立反映数据集合特性的模型第二步是用数据集合来建立反映数据集合特性的模型第二步是用模型对数据对象进行分类模型对数据对象进行分类4. 4. 预测的目的是从历史数据记录中自动推导出对预测的目的是从历史数据记录中自动推导出对给定数据的推广描述，从而能够对事先未知的数据进行给定数据的推广描述，从而能够对事先未知的数据进行预测分类的方法：分类的方法：ØØ决策树：决策树内部节点进行属性值测试，并根据属性值决策树：决策树内部节点进行属性值测试，并根据属性值判断由该节点引出的分支，在决策树的叶结点得到结论判断由该节点引出的分支，在决策树的叶结点得到结论内部节点是属性或属性的集合，叶节点代表样本所属的类内部节点是属性或属性的集合，叶节点代表样本所属的类或类分布或类分布ØØ贝叶斯分类：是一种统计学分类方法，可以预测类成员关贝叶斯分类：是一种统计学分类方法，可以预测类成员关系关系的可能性，如给定样本属于一个特征类的概率。

贝系关系的可能性，如给定样本属于一个特征类的概率贝叶斯方法已在文本分类、字母识别、经济预测等领域获得叶斯方法已在文本分类、字母识别、经济预测等领域获得了成功的应用了成功的应用ØØ基于遗传算法分类：模拟生物进化过程中的计算模型，是基于遗传算法分类：模拟生物进化过程中的计算模型，是自然遗传学与计算机科学互相结合、互相渗透而形成的新自然遗传学与计算机科学互相结合、互相渗透而形成的新的计算方法利用选择、交叉、变异等操作对子代进行操的计算方法利用选择、交叉、变异等操作对子代进行操作，优点是问题求解与初始条件无关，搜索最优解的能力作，优点是问题求解与初始条件无关，搜索最优解的能力极强，可以对各种数据挖掘技术进行优化极强，可以对各种数据挖掘技术进行优化n n预测预测预测是构造和使用模型评估无标号样本类，或预测是构造和使用模型评估无标号样本类，或评估给定样本可能具有的属性值或区间值预测评估给定样本可能具有的属性值或区间值预测的目的是从历史数据中自动推导出对给定数据的的目的是从历史数据中自动推导出对给定数据的推广描述，从而能对未来数据进行预测例如，推广描述，从而能对未来数据进行预测。

例如，金融系统可以根据顾客信誉卡消费量预测他未来金融系统可以根据顾客信誉卡消费量预测他未来的刷卡消费量或用于信誉证实推销人员希望在的刷卡消费量或用于信誉证实推销人员希望在开拓新客户时，找出顾客一些共同特征，预测出开拓新客户时，找出顾客一些共同特征，预测出潜在顾客群潜在顾客群预测的方法主要是回归统计，包括：线性回归、预测的方法主要是回归统计，包括：线性回归、非线性回归、多元回归、泊松回归、对数回归等非线性回归、多元回归、泊松回归、对数回归等分类也可以用来预测分类也可以用来预测1. 1.7 7，多媒体数据挖掘，多媒体数据挖掘2. 2. 多媒体数据库系统由多媒体数据库管理系统和多媒体数据库系统由多媒体数据库管理系统和多媒体数据库构成其中多媒体数据库用于存储和管理多媒体数据库构成其中多媒体数据库用于存储和管理多媒体数据，多媒体数据库管理系统负责对多媒体数据多媒体数据，多媒体数据库管理系统负责对多媒体数据库进行管理多媒体数据库包括结构化的数据、半结构库进行管理多媒体数据库包括结构化的数据、半结构化的数据和非结构化的数据，如音频数据、视频数据、化的数据和非结构化的数据，如音频数据、视频数据、文本数据和图像数据等。

文本数据和图像数据等 3. 3. 多媒体数据挖掘就是通过综合分析多媒体数据的多媒体数据挖掘就是通过综合分析多媒体数据的内容和语义，从大量多媒体数据中发现隐含的、有效的、内容和语义，从大量多媒体数据中发现隐含的、有效的、有价值的、可理解的模式，得出事件的发展趋向和关联有价值的、可理解的模式，得出事件的发展趋向和关联关系，为用户提供问题求解层次上的决策支持能力关系，为用户提供问题求解层次上的决策支持能力多媒体数据是指由多种不同类型多媒体数据组成的，多媒体数据是指由多种不同类型多媒体数据组成的，包括文本、图形、图像、声音、视频图像、动画等不同类包括文本、图形、图像、声音、视频图像、动画等不同类型的媒体数据为了挖掘多媒体数据，必须对两种或多种型的媒体数据为了挖掘多媒体数据，必须对两种或多种类型的媒体数据进行综合挖掘类型的媒体数据进行综合挖掘多媒体挖掘的方法有两种：多媒体挖掘的方法有两种：一种是先从多媒体数据数据库中提取出结构化数据，一种是先从多媒体数据数据库中提取出结构化数据，然后用传统的数据挖掘工具在这些结构化的数据上进行挖然后用传统的数据挖掘工具在这些结构化的数据上进行挖掘。

掘另一种解决办法是研究开发可以直接对多媒体数据进另一种解决办法是研究开发可以直接对多媒体数据进行挖掘的工具行挖掘的工具四、数据挖掘系统与应用四、数据挖掘系统与应用数据挖掘系统的开发工作十分复杂，不仅要有大量的数据挖掘系统的开发工作十分复杂，不仅要有大量的数据挖掘算法，而且其应用领域往往取决于最终用户的知数据挖掘算法，而且其应用领域往往取决于最终用户的知识结构等因素下面介绍几个数据挖掘系统：识结构等因素下面介绍几个数据挖掘系统：ØØSKICATSKICAT是是MITMIT喷气推进实验室与天文科学家合作开发的喷气推进实验室与天文科学家合作开发的用于帮助天文学家发现遥远的类星体的工具用于帮助天文学家发现遥远的类星体的工具ØØHealth-KEFIRHealth-KEFIR是用于健康状况预警的知识发现系统是用于健康状况预警的知识发现系统ØØTASATASA是为预测通信网络故障是为预测通信网络故障而开发的而开发的通信网络预警分析通信网络预警分析系统系统。

会产生会产生“ “如果在某一时间段内发生某些预警信息组如果在某一时间段内发生某些预警信息组合，那么其他类型的预警信息将在某个时间范围内发生合，那么其他类型的预警信息将在某个时间范围内发生” ”的规则时间段大小由用户定义时间段大小由用户定义ØØR-MINIR-MINI运用分类技术从噪声中提取有价值的信息由于是运用分类技术从噪声中提取有价值的信息由于是在微弱变化中获取信息，该系统也可以应用于在微弱变化中获取信息，该系统也可以应用于证券领域中证券领域中的股市行情预测的股市行情预测ØØKDWKDW是大型商业数据库中的交互分析系统包括聚类、是大型商业数据库中的交互分析系统包括聚类、分类、总结、相关性分析等多种模式分类、总结、相关性分析等多种模式ØØDBMinerDBMiner是加拿大是加拿大Simon FraserSimon Fraser大学开发的一个多任务大学开发的一个多任务KDDKDD系统能够完成多种知识发现，综合了多种数据挖掘系统能够完成多种知识发现，综合了多种数据挖掘技术ØØClementineClementine可以把直观的图形用户界面与多种分析技术结可以把直观的图形用户界面与多种分析技术结合在一起，包括神经网络、关联规则和规则归纳技术。

合在一起，包括神经网络、关联规则和规则归纳技术ØØDarwinDarwin包含神经网络、决策书和包含神经网络、决策书和K-K-邻近三种数据挖掘方法，邻近三种数据挖掘方法，处理分类、预测和预报问题处理分类、预测和预报问题ØØDMWDMW是一个用在信用卡欺诈分析方面的数据挖掘工具，是一个用在信用卡欺诈分析方面的数据挖掘工具，支持反向传播神经网络算法，并能以自动和人工模式操作支持反向传播神经网络算法，并能以自动和人工模式操作ØØIntelligent MinerIntelligent Miner是是IBMIBM开发的包括人工智能、机器学习、开发的包括人工智能、机器学习、语言分析和知识发现领域成果在内的复杂软件解决方案语言分析和知识发现领域成果在内的复杂软件解决方案五，数据预处理五，数据预处理n n为什么需要数据预处理为什么需要数据预处理? ?n n数据清洗数据清洗 n n数据集成与转换数据集成与转换n n数据归约数据归约n n数据离散化与概念层次的构建数据离散化与概念层次的构建n n本章小结本章小结为什么需要数据预处理为什么需要数据预处理 ?n n在现实社会中，存在着大量的在现实社会中，存在着大量的“ “脏脏” ”数据数据n n不完整性不完整性（数据结构的设计人员、数据采集设备和数据录入人员）（数据结构的设计人员、数据采集设备和数据录入人员） n n缺少感兴趣的属性缺少感兴趣的属性n n感兴趣的属性缺少部分属性值感兴趣的属性缺少部分属性值n n仅仅包含聚合数据，没有详细数据仅仅包含聚合数据，没有详细数据n n噪音数据（采集数据的设备、数据录入人员、数据传输）噪音数据（采集数据的设备、数据录入人员、数据传输）n n数据中包含错误的信息数据中包含错误的信息n n存在着部分偏离期望值的孤立点存在着部分偏离期望值的孤立点n n不一致性（数据结构的设计人员、数据录入人员）不一致性（数据结构的设计人员、数据录入人员）n n数据结构的不一致性数据结构的不一致性n nLabelLabel的不一致性的不一致性n n数据值的不一致性数据值的不一致性为什么需要数据预处理为什么需要数据预处理 ?n n数据挖掘的数据源可能是多个互相独立的数据源数据挖掘的数据源可能是多个互相独立的数据源n n关系数据库关系数据库n n多维数据库（多维数据库（Data CubeData Cube））n n文件、文档数据库文件、文档数据库n n数据转换数据转换n n为了数据挖掘的方便为了数据挖掘的方便n n海量数据的处理海量数据的处理n n数据归约（在获得相同或者相似结果的前提下）数据归约（在获得相同或者相似结果的前提下）为什么需要数据预处理？为什么需要数据预处理？n n没有高质量的数据，就没有高质量的挖掘结果n n高质量的决策必须基于高质量的数据基础上高质量的决策必须基于高质量的数据基础上n n数据仓库是在高质量数据上的集成数据仓库是在高质量数据上的集成数据预处理的主要任务数据预处理的主要任务n n数据清理数据清理n n填入缺失数据填入缺失数据n n平滑噪音数据平滑噪音数据n n确认和去除孤立点确认和去除孤立点n n解决不一致性解决不一致性n n数据集成数据集成n n多个数据库、多个数据库、Data CubeData Cube和文件系统的集成和文件系统的集成n n数据转换数据转换n n规范化、聚集等规范化、聚集等n n数据归约数据归约n n在可能获得相同或相似结果的前提下，对数据的容量进行有效的缩减在可能获得相同或相似结果的前提下，对数据的容量进行有效的缩减n n数据离散化数据离散化n n对于一个特定的连续属性，尤其是连续的数字属性，可以把属性值划分对于一个特定的连续属性，尤其是连续的数字属性，可以把属性值划分成若干区间，以区间值来代替实际数据值，以减少属性值的个数成若干区间，以区间值来代替实际数据值，以减少属性值的个数. .数据预处理的形式数据预处理的形式数据清理数据清理数据集成数据集成数据转换数据转换数据归约数据归约主要内容主要内容n n为什么需要数据预处理?n n数据清洗 n n数据集成与转换n n数据归约n n数据离散化与概念层次的构建n n本章小结数据清洗数据清洗n n主要任务n n补充缺失数据补充缺失数据n n识别孤立点，平滑噪音数据识别孤立点，平滑噪音数据n n处理不一致的数据处理不一致的数据缺失数据的处理缺失数据的处理n n部分数据通常是不可用的部分数据通常是不可用的n n在许多元组中部分属性值为空。

如：在客户表中的客户收入在许多元组中部分属性值为空如：在客户表中的客户收入为空n n导致数据缺失的原因导致数据缺失的原因n n数据采集设备的故障数据采集设备的故障n n由于与其它信息的数据存在不一致性，因此数据项被删除由于与其它信息的数据存在不一致性，因此数据项被删除n n由于不理解或者不知道而未能输入由于不理解或者不知道而未能输入n n在当时数据输入的时候，该数据项不重要而忽略在当时数据输入的时候，该数据项不重要而忽略n n数据传输过程中引入的错误数据传输过程中引入的错误n n缺失数据通常需要经过合理的推断予以添加缺失数据通常需要经过合理的推断予以添加缺失数据的处理方法缺失数据的处理方法n n忽略该记录（元组）忽略该记录（元组）n n通常在进行分类、描述、聚类等挖掘，但是元组缺失类标通常在进行分类、描述、聚类等挖掘，但是元组缺失类标识时识时n n该种方法通常不是最佳的，尤其是缺失数据比例比较大的该种方法通常不是最佳的，尤其是缺失数据比例比较大的时候时候n n手工填入空缺的值手工填入空缺的值n n枯燥、费时，可操作性差，不推荐使用枯燥、费时，可操作性差，不推荐使用n n使用一个全局的常量填充空缺数值使用一个全局的常量填充空缺数值n n给定一个固定的属性值如：未知、不祥、给定一个固定的属性值如：未知、不祥、 Unknown Unknown 、、 NullNull等等n n简单，但是没有意义简单，但是没有意义n n使用属性的平均值填充空缺数值使用属性的平均值填充空缺数值n n简单方便、挖掘结果容易产生不精确的结果简单方便、挖掘结果容易产生不精确的结果n n使用与给定元组同一个类别的所有样本的平均值使用与给定元组同一个类别的所有样本的平均值n n分类非常重要，尤其是分类指标的选择分类非常重要，尤其是分类指标的选择n n使用最有可能的值予以填充使用最有可能的值予以填充n n利用回归、基于推导的使用贝叶斯形式化的方法的工具或利用回归、基于推导的使用贝叶斯形式化的方法的工具或者判定树归纳确定者判定树归纳确定n n利用属性之间的关系进行推断，保持了属性之间的联系利用属性之间的关系进行推断，保持了属性之间的联系缺失数据的处理方法（续）缺失数据的处理方法（续）噪音数据噪音数据n n噪音数据噪音数据: :一个度量（指标）变量中的随机错误或者一个度量（指标）变量中的随机错误或者偏差偏差n n主要原因主要原因n n数据采集设备的错误数据采集设备的错误n n数据录入问题数据录入问题n n数据传输问题数据传输问题n n部分技术的限制部分技术的限制n n数据转换中的不一致数据转换中的不一致 n n数据清理中所需要处理的其它问题数据清理中所需要处理的其它问题n n重复的记录重复的记录n n不完整的数据不完整的数据n n不一致的数据不一致的数据噪音数据的处理噪音数据的处理n n分箱（Binning）的方法n n聚类方法n n检测并消除异常点检测并消除异常点n n线性回归n n对不符合回归的数据进行平滑处理对不符合回归的数据进行平滑处理n n人机结合共同检测n n由计算机检测可疑的点，然后由用户确认由计算机检测可疑的点，然后由用户确认处理噪音数据：分箱方法处理噪音数据：分箱方法n n分箱（Binning）方法:n n基本思想：通过考察相邻数据的值，来平滑存储基本思想：通过考察相邻数据的值，来平滑存储数据的值数据的值n n基本步骤：基本步骤：n n首先，对数据进行排序，并分配到具有相同宽度首先，对数据进行排序，并分配到具有相同宽度/ /深深度的不同的度的不同的“ “箱子箱子” ”中中n n其次，通过箱子的平均值（其次，通过箱子的平均值（MeansMeans）、中值）、中值（（MedianMedian）、或者边界值等来进行平滑处理）、或者边界值等来进行平滑处理分箱（分箱（BinningBinning））方法举例方法举例n n对数据进行排序对数据进行排序: 4, 8, 9, 15, 21, 21, 24, 25, 26, 28, 29, 34: 4, 8, 9, 15, 21, 21, 24, 25, 26, 28, 29, 34n n对数据进行分割对数据进行分割( (相同深度相同深度) :) :n n- Bin 1: 4, 8, 9, 15- Bin 1: 4, 8, 9, 15n n- Bin 2: 21, 21, 24, 25- Bin 2: 21, 21, 24, 25n n- Bin 3: 26, 28, 29, 34- Bin 3: 26, 28, 29, 34n n根据根据binbin中的平均值进行离散化中的平均值进行离散化: :n n- Bin 1: 9, 9, 9, 9- Bin 1: 9, 9, 9, 9n n- Bin 2: 23, 23, 23, 23- Bin 2: 23, 23, 23, 23n n- Bin 3: 29, 29, 29, 29- Bin 3: 29, 29, 29, 29基于聚类分析的平滑处理基于聚类分析的平滑处理通过线性回归的平滑处理通过线性回归的平滑处理xyy = x + 1X1Y1Y1’主要内容主要内容n n为什么需要数据预处理n n数据清洗 n n数据集成与转换n n数据归约n n数据离散化与概念层次的构建n n本章小结数据集成数据集成n n数据集成的概念数据集成的概念n n将多个数据源中的数据结合起来存放在一个一致的数据存储中将多个数据源中的数据结合起来存放在一个一致的数据存储中n n数据源包括：多个数据库、多维数据库和一般的文件数据源包括：多个数据库、多维数据库和一般的文件n n数据集成也是数据仓库建设中的一个重要问题数据集成也是数据仓库建设中的一个重要问题n n数据集成的内容数据集成的内容n n模式集成模式集成n n利用数据库和数据仓库的元数据信息利用数据库和数据仓库的元数据信息n n主要工作是识别现实世界中的实体定义主要工作是识别现实世界中的实体定义n n冗余数据的处理冗余数据的处理n n检测和解决数值冲突检测和解决数值冲突n n对于现实世界中的同一实体，来自于不同数据源的属性值可能不同对于现实世界中的同一实体，来自于不同数据源的属性值可能不同n n主要原因：不同的数据表示、度量单位、编码方式以及语义的不同主要原因：不同的数据表示、度量单位、编码方式以及语义的不同模式集成模式集成n n数据类型冲突数据类型冲突n n性别：性别：string(Malestring(Male、、Female)Female)、、CharChar（（MM、、F F）、）、IntergerInterger（（0 0、、1 1））n n日期：日期：DateDate、、DateTimeDateTime、、StringStringn n数据标签冲突：解决同名异义、异名同义数据标签冲突：解决同名异义、异名同义n n学生成绩、分数学生成绩、分数n n度量单位冲突度量单位冲突n n学生成绩学生成绩n n百分制：百分制：100 ~ 0100 ~ 0n n五分制：五分制： A A 、、B B、、C C、、D D、、E En n字符表示：优、良、及格、不及格字符表示：优、良、及格、不及格n n概念不清概念不清n n最近交易额：前一个小时、昨天、本周、本月？最近交易额：前一个小时、昨天、本周、本月？n n聚集冲突：根源在于表结构的设计聚集冲突：根源在于表结构的设计冗余数据的处理冗余数据的处理n n从多个数据源中抽取不同的数据，容易导致数据的冗余从多个数据源中抽取不同的数据，容易导致数据的冗余n n不同的属性在不同的数据源中是不同的命名方式不同的属性在不同的数据源中是不同的命名方式n n有些属性可以从其它属性中导出，有些属性可以从其它属性中导出，例如：销售额＝单价例如：销售额＝单价× ×销售量销售量n n有些冗余可以通过相关分析检测到有些冗余可以通过相关分析检测到其中：其中：n n是元组的个数，是元组的个数，和和分别是分别是A A和和B B的平均值，的平均值，和和分别是分别是A A和和B B的标准差的标准差 n n元组级的元组级的“ “重复重复” ”，也是数据冗余的一个重要方面，也是数据冗余的一个重要方面n n减少冗余数据，可以大大提高数据挖掘的性能减少冗余数据，可以大大提高数据挖掘的性能数据转换数据转换n n平滑处理平滑处理: : 从数据中消除噪音数据从数据中消除噪音数据n n聚集操作聚集操作: : 对数据进行综合，类似于对数据进行综合，类似于Data CubeData Cube的构建的构建n n数据概化：构建概念层次数据概化：构建概念层次n n数据规范化数据规范化: : 将数据集中到一个较小的范围之中将数据集中到一个较小的范围之中n n最大最大- -最小规范化最小规范化n nz-scorez-score（零－均值）规范化（零－均值）规范化n n小数范围规范化（小数范围规范化（0–10–1规范化）规范化）n n属性构造属性构造n n构造新的属性并添加到属性集中，以帮助数据挖掘构造新的属性并添加到属性集中，以帮助数据挖掘数据转换：规范化数据转换：规范化n n最大最大- -最小规范化最小规范化n n对原始数据进行线性变换对原始数据进行线性变换n n保持了原始数据值之间的关系保持了原始数据值之间的关系n n当有新的输入，落在原数据区之外，该方法将面当有新的输入，落在原数据区之外，该方法将面临临“ “越界越界” ”错误错误n n受到孤立点的影响可能会比较大受到孤立点的影响可能会比较大数据转换：规范化（续）数据转换：规范化（续）n nz-scorez-score（零－均值）规范化（零－均值）规范化n n属性基于平均值和标准差规范化属性基于平均值和标准差规范化n n当属性的最大值和最小值未知，或者孤立点左右了最当属性的最大值和最小值未知，或者孤立点左右了最大－最小规范化时，该方法有效大－最小规范化时，该方法有效n n0-10-1规范化（小数定标规范化）规范化（小数定标规范化）n n通过移动属性的小数点位置进行规范化通过移动属性的小数点位置进行规范化n n例如例如A A的值为的值为125125，那么，那么|A|=125|A|=125，则，则j=3j=3，有，有v=0.125v=0.125。

Where j is the smallest integer such that Max(| |)<1属性构造属性构造n n由给定的属性构造并增添新的属性，以帮助提高由给定的属性构造并增添新的属性，以帮助提高精度和对高维数据结构的理解精度和对高维数据结构的理解n n属性结构还可以帮助平缓使用判定算法分类的分属性结构还可以帮助平缓使用判定算法分类的分裂问题裂问题n n例如：例如：n nArea=Width × HeightArea=Width × Heightn n销售额＝单价销售额＝单价× ×销售量销售量主要内容主要内容n n为什么需要数据预处理?n n数据清洗 n n数据集成与转换n n数据归约n n数据离散化与概念层次的构建n n本章小结数据归约的提出数据归约的提出n n在数据仓库中可能保存在数据仓库中可能保存TBTB级的数据，大数据量的数级的数据，大数据量的数据挖掘，可能需要大量的时间来完成整个数据的数据据挖掘，可能需要大量的时间来完成整个数据的数据挖掘n n数据归约数据归约n n在可能获得相同或相似结果的前提下，对数据的容量进行有效的在可能获得相同或相似结果的前提下，对数据的容量进行有效的缩减缩减n n数据归约的方法数据归约的方法n n数据立方体聚集：聚集操作作用于立方体中的数据数据立方体聚集：聚集操作作用于立方体中的数据n n减少数据维度（维归约）：可以检测并删除不相关、弱相关或者减少数据维度（维归约）：可以检测并删除不相关、弱相关或者冗余的属性或维冗余的属性或维n n数据压缩：使用编码机制压缩数据集数据压缩：使用编码机制压缩数据集n n数值压缩：用替代的、较小的数据表示替换或估计数据数值压缩：用替代的、较小的数据表示替换或估计数据Data CubeData Cube的聚集的聚集n n“ “基点方体基点方体” ”n n“ “顶点方体顶点方体” ”n nData CubeData Cube中的多个层次的聚集中的多个层次的聚集n n进一步缩减所要处理的数据量进一步缩减所要处理的数据量n n当响应当响应OLAPOLAP查询或者数据挖掘时，应当使用与给定查询或者数据挖掘时，应当使用与给定任务相关的任务相关的“ “最小方体最小方体” ”维归约维归约(特征提取特征提取)n n维归约：通过删除不相关的属性（或维）减少数据量维归约：通过删除不相关的属性（或维）减少数据量n n特征选取特征选取 ( (属性子集的选取属性子集的选取): ):n n选取最小的特征属性集合，得到的数据挖掘结果与选取最小的特征属性集合，得到的数据挖掘结果与所有特征参加的数据挖掘结果相近或完全一致所有特征参加的数据挖掘结果相近或完全一致n n特征提取，对于特征提取，对于d d 个属性来说，具有个属性来说，具有2 2d d 个可能的子个可能的子集集维归约的主要方法维归约的主要方法n n利用启发式的方法来减少数据维度利用启发式的方法来减少数据维度( (随着维度的增长数据随着维度的增长数据量将呈指数级别增长量将呈指数级别增长): ):n n逐步向前选择：维数逐步增多的方法（每次增添逐步向前选择：维数逐步增多的方法（每次增添“ “最好最好” ”的属的属性）性）n n逐步向后选择：维数逐步减少的方法（每次删除逐步向后选择：维数逐步减少的方法（每次删除“ “最差最差” ”的属的属性）性）n n两者组合的方法两者组合的方法n n判定树归纳方法（判定树归纳方法（ID3, C4.5ID3, C4.5））基于判定树归纳的方法基于判定树归纳的方法Initial attribute set:{ A1, A2, A3, A4, A5, A6 }A4 ?A1?A6?Class 1Class 2Class 1Class 2>Reduced attribute set: {A1, A4, A6}YYYNNN数据压缩数据压缩n n数据压缩：应用数据编码或变换，以便得到数据的归约或数据压缩：应用数据编码或变换，以便得到数据的归约或压缩表示压缩表示n n无损压缩：原数据可以由压缩数据重新构造而不丢失任何信息无损压缩：原数据可以由压缩数据重新构造而不丢失任何信息n n字符串压缩是典型的无损压缩字符串压缩是典型的无损压缩n n现在已经有许多很好的方法但是它们只允许有限的数据操作现在已经有许多很好的方法但是它们只允许有限的数据操作n n有损压缩：只能重新构造原数据的近似表示有损压缩：只能重新构造原数据的近似表示 n n影像文件的压缩是典型的有损压缩影像文件的压缩是典型的有损压缩n n典型的方法：小波变换、主要成分分析典型的方法：小波变换、主要成分分析数值归约数值归约n n数值归约：通过选择替代的、数值归约：通过选择替代的、“ “较小较小” ”的数据表示的数据表示形式来减少数据量形式来减少数据量n n有参的方法有参的方法n n假设数据符合某些模型，通过评估模型参数，仅需要存假设数据符合某些模型，通过评估模型参数，仅需要存储参数，不需要存储实际数据（孤立点也可能被存放）储参数，不需要存储实际数据（孤立点也可能被存放）n n典型方法：对数线性模型，它估计离散的多维概率分布典型方法：对数线性模型，它估计离散的多维概率分布n n无参的方法无参的方法n n不存在假想的模型不存在假想的模型n n典型方法典型方法: :直方图、聚类和抽样直方图、聚类和抽样直方图直方图n n类似于分箱技术，是一种流行的数据归约方式类似于分箱技术，是一种流行的数据归约方式n n将属性值划分为不相交的子集，或将属性值划分为不相交的子集，或“ “桶桶” ”n n桶安放在水平轴上，而桶的高度（和面积）是该桶所代表的桶安放在水平轴上，而桶的高度（和面积）是该桶所代表的值的平均频率。

值的平均频率n n每个桶只表示单个属性值，则称其为每个桶只表示单个属性值，则称其为“ “单桶单桶” ”通常，“ “桶桶” ”表表示给定属性的一个连续空间示给定属性的一个连续空间n n可以通过编程，动态修改部分参数，进行合理构造可以通过编程，动态修改部分参数，进行合理构造count51015202530123456789101-1011-2021-30510152025132515PricePricecount主要内容主要内容n n为什么需要数据预处理?n n数据清洗 n n数据集成与转换n n数据归约n n数据离散化与概念层次的构建n n本章小结数据离散化和概念层次数据离散化和概念层次n n属性值分类属性值分类n n枚举型枚举型n n有序的有序的n n无序的无序的n n连续型：如连续型：如 Real Real类型类型n n数据离散化数据离散化n n对于一个特定的连续属性，可以把属性值划分成若干对于一个特定的连续属性，可以把属性值划分成若干区间，以区间值来代替实际数据值，以减少属性值的区间，以区间值来代替实际数据值，以减少属性值的个数n n概念层次概念层次n n利用高层的概念（如儿童、青年、中年、老年等）来利用高层的概念（如儿童、青年、中年、老年等）来代替低层的实际数据值（实际年龄），以减少属性值代替低层的实际数据值（实际年龄），以减少属性值的个数。

的个数数值数据的离散化和概念分层建立的方法数值数据的离散化和概念分层建立的方法n n分箱（Binning）n n直方图分析n n聚类分析的方法n n根据自然分类进行分割分箱方法：一种简单的离散化技术分箱方法：一种简单的离散化技术n n相同宽度相同宽度（距离）数据分割（距离）数据分割n n将数据分成将数据分成N N等份，各个等份数据之间具有相同的距离等份，各个等份数据之间具有相同的距离n n如果如果 A A 和和 B B 分别为属性值中的最大值和最小值，那么各个分别为属性值中的最大值和最小值，那么各个数据等份之间的距离为：数据等份之间的距离为：W = (B-A)/N.W = (B-A)/N.n n异常点将会扮演很重要的角色异常点将会扮演很重要的角色n n倾斜的数据不能很好的解决倾斜的数据不能很好的解决n n相同深度相同深度（频率）数据分割（频率）数据分割n n将数据分成将数据分成N N等份，各个等份具有相同的数据个数等份，各个等份具有相同的数据个数n n具有较好的可伸缩性具有较好的可伸缩性n n适合于数据分类的情况适合于数据分类的情况离散化：直方图方法离散化：直方图方法n n将数据分割到若干个桶之中，用桶中的平均值（或将数据分割到若干个桶之中，用桶中的平均值（或求和等）来表示各个桶。

求和等）来表示各个桶n n可以通过编程，动态修改部分参数，进行合理构造可以通过编程，动态修改部分参数，进行合理构造count51015202530123456789101-1011-2021-30510152025132515PricePricecount离散化：聚类分析方法离散化：聚类分析方法n n将数据按照“类内最大相似度，类间最小相似度的原则”对数据进行有效聚类n n利用聚类的中心点来表示该类所包含的对象n n数据聚类将非常有效，但是必须保证数据中没有噪音数据按照自然分类进行数据分割按照自然分类进行数据分割n n利用利用3-4-5 3-4-5 法则对数字型数据分类，将数据分成法则对数字型数据分类，将数据分成若干个若干个“ “自然自然” ”的区间：的区间：n n如果在所有数字的最高位覆盖如果在所有数字的最高位覆盖 3, 6, 7 3, 6, 7或或9 9个不同的值，个不同的值，则将数据分成则将数据分成3 3段3 3（（1 1，，1 1，，1 1）） 6 6（（2 2，，2 2，，2 2）） 7 7（（2 2，，3 3，，2 2）） 9 9（（3 3，，3 3，，3 3））n n如果在所有数字的最高位覆盖如果在所有数字的最高位覆盖 2, 4, 8 2, 4, 8个不同的值，则个不同的值，则将数据分成将数据分成4 4 段。

段n n如果在所有数字的最高位覆盖如果在所有数字的最高位覆盖 1, 5, 10 1, 5, 10个不同的值，则个不同的值，则将数据分成将数据分成 5 5 段3-4-5 法则举例法则举例n例例1：包含数据：：包含数据：101、、110、、203、、222、、305、、315n方法：最高位包含方法：最高位包含3个值（个值（1、、2、、3））n分成分成[100，，200），），[200，，300），），[300，，400）三段）三段n例例2：包含数据：：包含数据：101、、110、、103、、422、、405、、415，，400n方法：最高位包含方法：最高位包含2个值（个值（1、、4））n分成分成[100，，150），），[150，，200）），，[400，，450）），，[450，，500）四段）四段n例例3：包含数据：：包含数据：101、、210、、203、、322、、305、、415，，500n方法：最高位包含方法：最高位包含5个值（个值（1、、2、、3、、4、、5））n分成分成[100，，200），），[200，，300）），，[300，，400）），，[400，，500），），[500，，600））五段五段分类数据的概念分层分类数据的概念分层n n概念分层是由用户或专家对具有偏序关系的属性的一种概念分层是由用户或专家对具有偏序关系的属性的一种层次关系的显式表示。

也是一种数据分类的显式表示层次关系的显式表示也是一种数据分类的显式表示n n概念层次的获得概念层次的获得n n隐式存储于数据库中如：地址隐式存储于数据库中如：地址n n由专家显式给出由专家显式给出n n借助数据分析自动生成借助数据分析自动生成n n概念层次的表示概念层次的表示n n基于实例如：基于实例如：{freshman, ..., senior}{freshman, ..., senior} undergraduate.undergraduate.；；n n基于数据库表模式如：基于数据库表模式如：address(city, province, country)address(city, province, country)n n基于规则如：基于规则如： good(x) good(x)  undergraduate(x) undergraduate(x) ∧ ∧ gpa(x) gpa(x)   3.5 3.5概念层次树举例概念层次树举例概念层次树将大大减少挖掘数据的数据量countryprovince_or_ statecitystreet15 distinct values65 distinct values3567 distinct values674,339 distinct values主要内容主要内容l为什么需要数据预处理为什么需要数据预处理? ?l数据清洗数据清洗 l数据集成与转换数据集成与转换l数据归约数据归约l数据离散化与概念层次的构建数据离散化与概念层次的构建l本章小结本章小结本章小结本章小结n n数据的预处理无论对于数据仓库和数据挖掘都是数据的预处理无论对于数据仓库和数据挖掘都是非常重要的一个环节非常重要的一个环节n n数据预处理包括数据预处理包括n n数据清理数据清理n n数据集成数据集成n n数据归约和特征选取数据归约和特征选取n n数据的离散化数据的离散化n n数据预处理涉及面广，现已建立了一系列的方法，数据预处理涉及面广，现已建立了一系列的方法，但是目前仍然是一个非常活跃的研究领域但是目前仍然是一个非常活跃的研究领域六，可视化数据挖掘六，可视化数据挖掘n n可视化可视化: : 使用计算机图形学创建可视化图像，帮助用使用计算机图形学创建可视化图像，帮助用户理解复杂，大规模数据户理解复杂，大规模数据n n可视化数据挖掘可视化数据挖掘: : 使用可视化技术，从大规模数据集使用可视化技术，从大规模数据集中发现隐含，有用知识的过程中发现隐含，有用知识的过程信息可视化数据挖掘可视化数据挖掘信息可视化信息可视化n n信息可视化：结合了科学可视化、人机交互、数据挖掘、图像技术、图形学、认知科学等诸多学科的理论和方法，而逐步发展起来的。

n n信息可视化参考模型信息可视化参考模型可视化数据挖掘可视化数据挖掘n n可视化的目的n n提供对大规模数据集定性的理解提供对大规模数据集定性的理解n n查看数据中的模式，趋势，结构，不规则性，查看数据中的模式，趋势，结构，不规则性，关系等关系等n n帮助寻找感兴趣的区域，为进一步定量分析提帮助寻找感兴趣的区域，为进一步定量分析提供合适的参数供合适的参数n n为计算机得出的结果提供可视化的证明为计算机得出的结果提供可视化的证明可视化数据挖掘可视化数据挖掘n n可视化与数据挖掘的结合n n数据可视化数据可视化n n数据挖掘结果可视化数据挖掘结果可视化n n数据挖掘过程可视化数据挖掘过程可视化n n交互式可视化数据挖掘交互式可视化数据挖掘数据可视化数据可视化n n数据可视化n n以下面两种方式观察数据库或数据仓库的数据：以下面两种方式观察数据库或数据仓库的数据： n n在不同的粒度或抽象层面观察在不同的粒度或抽象层面观察n n属性或维度的不同结合属性或维度的不同结合n n数据可以被表示成不同的格式，柱状图、饼状数据可以被表示成不同的格式，柱状图、饼状图、散点图、三维立方体、曲线、数据分布图图、散点图、三维立方体、曲线、数据分布图表等表等 MineSet －数据可视化－数据可视化n n数据的直方图，均值，中值，标准差，四分位数数据挖掘结果可视化数据挖掘结果可视化n n以视图的形式给出由数据挖掘算法得出的结果或知识n n例如n n决策树决策树n n贝叶斯网络贝叶斯网络n n关联规则关联规则n n聚类聚类n n孤立点孤立点SAS Enterprise Miner: scatter plots Visualization of association rules in MineSet 3.0Visualization of a decision tree in MineSet 3.0Visualization of cluster groupings in SAS数据挖掘过程可视化数据挖掘过程可视化n n将数据挖掘各种处理过程用可视化的方式呈现给将数据挖掘各种处理过程用可视化的方式呈现给用户，可以看到：用户，可以看到：n n数据是如何被提取的数据是如何被提取的n n是从哪个数据库或数据仓库提取的数据是从哪个数据库或数据仓库提取的数据n n被选择数据如何被清理，整合，处理和挖掘的被选择数据如何被清理，整合，处理和挖掘的n n在数据挖掘中采用什么方法在数据挖掘中采用什么方法n n数据被存储在哪里数据被存储在哪里Visualization of Data Mining Processes by Clementinen n可视化流程使得数据观察和交互的变得简单方便交互式可视化数据挖掘交互式可视化数据挖掘n n使用可视化工具在数据挖掘过程中帮助用户作出更加合理的挖掘决定n n更好的理解数据和样本更好的理解数据和样本n n用户可以根据理解作出决定用户可以根据理解作出决定n n用户可以根据领域知识作出决定用户可以根据领域知识作出决定n n可视化结果使用户能够指导下次算法执行可视化结果使用户能够指导下次算法执行谢谢！谢谢！。

点击阅读更多内容