
数据挖掘考试复习大纲.ppt
73页数据挖掘——期末复习第一章、数据挖掘概论数据挖掘: 数据库中的知识挖掘(KDD)q数据挖掘——知识挖掘的核心数据清理数据清理数据集成数据集成数据库数据库数据仓库数据仓库任务相关数据任务相关数据选择选择数据挖掘数据挖掘模式评估模式评估知识挖掘的步骤n了解应用领域q了解相关的知识和应用的目标n创建目标数据集: 选择数据n数据清理和预处理: (这个可能要占全过程60%的工作量)n数据缩减和变换q找到有用的特征,维数缩减/变量缩减,不变量的表示n选择数据挖掘的功能 q数据总结, 分类模型数据挖掘, 回归分析, 关联规则挖掘, 聚类分析等.n选择挖掘算法n数据挖掘: 寻找感兴趣的模式n模式评估和知识表示q可视化,转换,消除冗余模式等等n运用发现的知识体系结构:典型数据挖掘系统数据仓库数据仓库数据清洗数据清洗过滤过滤数据库数据库数据库或数据仓库服务器数据挖掘引擎模式评估图形用户界面知识库数据集成数据集成数据挖掘的主要功能n概念/类描述: 特性化和区分q归纳,总结和对比数据的特性n关联分析q发现数据之间的关联规则,这些规则展示属性-值频繁的在给定的数据中所一起出现的条件n分类和预测 q通过构造模型 (或函数)用来描述和区别类或概念,用来预测类型标志未知的对象类。
n聚类分析q将类似的数据归类到一起,形成一个新的类别进行分析n孤立点分析q通常孤立点被作为“噪音”或异常被丢弃,但在欺骗检测中却可以通过对罕见事件进行孤立点分析而得到结论n趋势和演变分析q描述行为随时间变化的对象的发展规律或趋势数据挖掘:多个学科的融合数据挖掘数据库系统统计学其他学科算法机器学习可视化数据挖掘的主要问题n挖掘方法 q在不同的数据类型中挖掘不同类型的知识, e.g., 生物数据, 流式数据, Web数据q性能性能: 算法的有效性、可伸缩性和并行处理算法的有效性、可伸缩性和并行处理q模式评估: 兴趣度问题q背景知识的合并q处理噪声何不完全数据q并行, 分布式和增量挖掘算法q新发现知识与已有知识的集成: 知识融合 n用户交互q数据挖掘查询语言和特定的数据挖掘q数据挖掘结果的表示和显示q多个抽象层的交互知识挖掘n应用和社会因素q特定域的数据挖掘 & 不可视的数据挖掘q数据安全,完整和保密的保护第二章、数据仓库和OLAP技术什么是数据仓库? p67n数据仓库的定义很多,但却很难有一种严格的定义q它是一个提供决策支持功能的数据库,它与公司的操作数据库分开维护 q为统一的历史数据分析提供坚实的平台,对信息处理提供支持n“数据仓库是一个面向主题的、集成的、随时间而变化的、不容易丢失的数据集合,支持管理部门的决策过程.”—W. H. Inmon(数据仓库构造方面的领头设计师)n建立数据仓库(data warehousing):q构造和使用数据仓库的过程。
数据仓库与异种数据库集成 p68n传统的异种数据库集成: q在多个异种数据库上建立包装程序(wrappers)和中介程序(mediators )q查询驱动方法——当从客户端传过来一个查询时,首先使用元数据字典将查询转换成相应异种数据库上的查询;然后,将这些查询映射和发送到局部查询处理器q缺点:复杂的信息过虑和集成处理,竞争资源n数据仓库: 更新驱动q将来自多个异种源的信息预先集成,并存储在数据仓库中,供直接查询和分析q高性能OLTP系统和OLAP系统的比较 p69特征特征OLTPOLAP任务特点任务特点操作处理信息处理面向面向事务分析用户用户办事员、DBA、数据库专业人员经理、主管、数据分析员功能功能日常操作长期信息分析、决策支持DB设计设计基于E-R,面向应用星型/雪花,面向主体数据数据最新的、详细的历史的、汇总的视图视图详细的、二维关系型汇总的、多维的任务单位任务单位简短的事务复杂的查询访问数据量访问数据量数十个数百万个用户数用户数数千个数百个DB规模规模100M-数GB100GB-数TB优先性优先性高性能、高可用性高灵活性、端点用户自治度量度量事务吞吐量查询吞吐量、响应时间从关系表和电子表格到数据立方体 p70n数据仓库和数据仓库技术基于多维数据模型多维数据模型。
这个模型把数据看作是数据立方体数据立方体形式多维数据模型围绕中心主题组织,该主题用事实表事实表表示事实事实是数值度量的n数据立方体数据立方体允许以多维数据建模和观察它由维维和事实事实定义n维维是关于一个组织想要记录的视角或观点每个维都有一个表与之相关联,称为维表维表n事实表事实表包括事实的名称或度量以及每个相关维表的关键字n在数据仓库的研究文献中,一个n维的数据的立方体叫做基本方体基本方体给定一个维的集合,我们可以构造一个方体的格方体的格,每个都在不同的汇总级或不同的数据子集显示数据,方体的格称为数据立方体数据立方体0维方体存放最高层的汇总,称作顶点方体顶点方体;而存放最底层汇总的方体则称为基本方体基本方体度量的分类 p76n一个数据立方体的度量是一个数值函数,该函数可以对数据立方体的每一个点求值度量可以根据其所用的聚集函数分为三类:q分布的(distributive):将函数用于n个聚集值得到的结果和将函数用于所有数据得到的结果一样n比如:count(),sum(),min(),max()等q代数的(algebraic):函数可以由一个带M个参数的代数函数计算(M为有界整数),而每个参数值都可以有一个分布的聚集函数求得。
n比如:avg(),min_N(),standard_deviation()q整体的(holistic):描述函数的子聚集所需的存储没有一个常数界n比如:median(),mode(),rank()概念分层:location维的一个概念分层 p77allEuropeNorth_AmericaMexicoCanadaSpainGermanyVancouverM. WindL. Chan..................allregionofficecountryTorontoFrankfurtcity多维数据模型上的OLAP操作 79n上卷(roll-up):汇总数据q通过一个维的概念分层向上攀升或者通过维规约n下钻(drill-down):上卷的逆操作q由不太详细的数据到更详细的数据,可以通过沿维的概念分层向下或引入新的维来实现n切片和切块(slice and dice)q投影和选择操作n转轴(pivot)q立方体的重定位,可视化,或将一个3维立方体转化维一个2维平面序列n其他OLAP操作q钻过(drill_across):执行涉及多个事实表的查询q钻透(drill_through):使用关系SQL机制,钻到数据立方体的底层,到后端关系表数据仓库设计的四种视图 82n数据仓库设计的四种视图q自顶向下视图n允许我们选择数据仓库所需的相关信息q数据源视图n揭示被操作数据库系统所捕获、存储和管理的信息q数据仓库视图n有事实表和维表所组成q商务查询视图n从最终用户的角度透视数据仓库中的数据三种数据仓库模型 84n企业仓库q搜集关于跨越整个组织的主题的所有信息n数据集市q企业范围数据的一个子集,对于特定的客户是有用的。
其范围限于选定的主题,比如一个商场的数据集市n独立的数据集市 VS. 非独立的数据集市(数据来自于企业数据仓库)n虚拟仓库q操作数据库上的一系列视图q只有一些可能的汇总视图被物化OLAP服务器类型 86n逻辑上,OLAP服务器从数据仓库或数据集市中给商业用户提供多维数据n物理上,OLAP的底层数据存储实现可以有多种不同的方式q关系OLAP服务器(ROLAP)n使用关系数据库或扩展的关系数据库存放并管理数据仓库的数据,而用OLAP中间件支持其余部分n包括每个DBMS后端优化,聚集导航逻辑的实现,附加的工具和服务n较大的可扩展性q多维OLAP服务器(MOLAP)n基于数组的多维存储引擎(稀疏矩阵技术)n能对预计算的汇总数据快速索引q混合OLAP服务器(HOLAP)n结合上述两种技术,更大的使用灵活性q特殊的SQL服务器n在星型和雪花模型上支持SQL查询方体计算的多路数组聚集方法(1)n将数组分成块(chunk,一个可以装入内存的小子方)n压缩的稀疏数组寻址:(chunk_id, offset)n通过访问立方体单元,计算聚集可以优化访问单元组的次序,使得每个单元被访问的次数最小化,从而减少内存访问和磁盘I/O的开销。
A(month)B29303132123459131415166463626148474645a1a0c3c2c1c 0b3b2b1b0a2a3C(item)B(city)442856402452362060哪个是多路数组哪个是多路数组聚集的最佳遍历聚集的最佳遍历次序?次序?第三章、数据预处理为什么要预处理数据?n现实世界的数据是“肮脏的”q不完整的:有些感兴趣的属性缺少属性值,或仅包含聚集数据q含噪声的:包含错误或者“孤立点”q不一致的:在编码或者命名上存在差异n没有高质量的数据,就没有高质量的挖掘结果q高质量的决策必须依赖高质量的数据q数据仓库需要对高质量的数据进行一致地集成数据预处理的主要任务 p31n数据清理q填写空缺的值,平滑噪声数据,识别、删除孤立点,解决不一致性n数据集成q集成多个数据库、数据立方体或文件n数据变换q规范化和聚集n数据归约q得到数据集的压缩表示,它小得多,但可以得到相同或相近的结果q数据离散化n数据归约的一部分,通过概念分层和数据的离散化来规约数据,对数字型数据特别重要如何处理空缺值 39n忽略元组:当类标号缺少时通常这么做(假定挖掘任务设计分类或描述),当每个属性缺少值的百分比变化很大时,它的效果非常差。
n人工填写空缺值:工作量大,可行性低n使用一个全局变量填充空缺值:比如使用unknown或-∞n使用属性的平均值填充空缺值n使用与给定元组属同一类的所有样本的平均值n使用最可能的值填充空缺值:使用像Bayesian公式或判定树这样的基于推断的方法噪声数据 p40n噪声:一个测量变量中的随机错误或偏差n引起不正确属性值的原因q数据收集工具的问题q数据输入错误q数据传输错误q技术限制q命名规则的不一致n其它需要数据清理的数据问题q重复记录q不完整的数据q不一致的数据如何处理噪声数据 p40 n分箱(binning):q首先排序数据,并将他们分到等深的箱中q然后可以按箱的平均值平滑、按箱中值平滑、按箱的边界平滑等等n聚类:q监测并且去除孤立点n计算机和人工检查结合q计算机检测可疑数据,然后对它们进行人工判断n回归q通过让数据适应回归函数来平滑数据数据变换 45n平滑:去除数据中的噪声 (分箱、聚类、回归)n聚集:汇总,数据立方体的构建n数据概化:沿概念分层向上汇总n规范化:将数据按比例缩放,使之落入一个小的特定区间q最小-最大规范化qz-score规范化q小数定标规范化n属性构造q通过现有属性构造新的属性,并添加到属性集中;以增加对高维数据的结构的理解和精确度数据归约策略 47n数据仓库中往往存有海量数据,在其上进行复杂的数据分析与挖掘需要很长的时间n数据归约q数据归约可以用来得到数据集的归约表示,它小得多,但可以产生相同的(或几乎相同的)分析结果n数据归约策略q数据立方体聚集q维归约q数据压缩q数值归约q离散化和概念分层产生n用于数据归约的时间不应当超过或“抵消”在归约后的数据上挖掘节省的时间。
分类数据的概念分层生成 p56n分类数据是指无序的离散数据,它有有限个值(可能很多个)n分类数据的概念分层生成方法:q由用户或专家在模式级显式的说明属性的部分序q通过显示数据分组说明分层结构的一部分q说明属性集,但不说明它们的偏序,然后系统根据算法自动产生属性的序,构造有意义的概念分层q对只说明部分属性集的情况,则可根据数据库模式中的数据语义定义对属性的捆绑信息,来恢复相关的属性第四章、数据挖掘原语和DMQL数据挖掘原语的组成部分n数据挖掘原语应该包括以下部分:q说明数据库的部分或用户感兴趣的数据集q要挖掘的知识类型q用于指导挖掘的背景知识q模式评估、兴趣度量q如何显示发现的知识n数据挖掘原语用于用户和数据挖掘系统通信,让用户能从不同的角度和深度审查和发现结果,并指导挖掘过程说明数据挖掘任务的原语n任务相关的数据q数据库(仓库)名、数据立方体、选择条件、相关属性、分组条件n挖掘的知识类型q特征化、区分、关联、分类/预测、聚类n背景知识q概念分层,关联的确信度n模式兴趣度度量q简单性、确定性、实用性、新颖性n发现模式的可视化q规则、表、图表、图、判定树…兴趣度度量n没有兴趣度度量,挖掘出来的有用模式,很可能会给淹没在用户不感兴趣的模式中。
q简单性q确定性q实用性q新颖性n兴趣度的客观度量方法:根据模式的结构和统计,用一个临界值来判断某个模式是不是用户感兴趣的第五章、特征化和比较两种不同类别的数据挖掘n从数据分析的角度看,数据挖掘可以分为描述性挖掘和预测性挖掘q描述性挖掘:以简洁概要的方式描述数据,并提供数据的有趣的一般性质q预测性数据挖掘:通过分析数据建立一个或一组模型,并试图预测新数据集的行为什么是概念描述?n描述性挖掘 VS. 预测性挖掘q描述性挖掘:以简洁概要的方式描述数据,并提供数据的有趣的一般性质q预测性数据挖掘:通过分析数据建立一个或一组模型,并试图预测新数据集的行为n概念描述:为数据的特征化和比较产生描述(当所描述的概念所指的是一类对象时,也称为类描述类描述)q特征化:提供给定数据集的简洁汇总q区分:提供两个或多个数据集的比较描述数据概化n数据概化q数据库中的数据和对象通常包含原始概念层的细节信息,数据概化就是将数据库中的跟任务相关的数据集从较低的概念层抽象到较高的概念层的过程n主要方法:q数据立方体(OLAP使用的方法)q面向属性的归纳方法12345概念层面向属性的归纳nAttribute-oriented induction, AOI (KDD `89 Workshop)n受数据类型和度量类型的约束比较少n面向属性归纳的基本思想:q使用关系数据库查询收集任务相关的数据q通过考察任务相关数据中每个属性的不同值的个数进行概化,方法是属性删除或者是属性概化q通过合并相等的,概化的广义元组,并累计他们对应的计数值进行聚集操作q通过与用户交互,将广义关系以图表或规则等形式,提交给用户面向属性的归纳的基本步骤n数据聚焦,获得初始工作关系n进行面向属性的归纳q基本操作是数据概化,对有大量不同值的属性大量不同值的属性,进行进一步概化n属性删除n属性概化q属性概化控制:控制概化过程,确定有多少不同的值才算是有大量不同值的属性大量不同值的属性n属性概化临界值控制n概化关系临界值控制概念描述的属性相关分析步骤 (1)n数据收集q通过查询处理,收集目标类和对比类数据n使用保守的AOI进行预相关分析q识别属性和维的集合,它们是所选择的相关性分析度量的应用对象q因为不同的概念层对某个类描述的相关性可能很不同,因此在这个过程中同时要包含概念分层q对有大量不同值的属性进行删除或概化q在这一级进行概化时,临界值要相应比较高,以便在后续步骤的分析中包含更多属性(保守的)q产生候选关系概念描述的属性相关分析步骤 (2)n使用选定的相关分析度量删除不相关和弱相关的属性q使用选定的相关分析度量(e.g.信息增益),评估候选关系中的每个属性q根据所计算的相关性对属性进行排序q低于临界值的不相关和弱相关的属性被删除q产生初始目标类工作关系(或初始对比类工作关系)n使用AOI产生概念描述q使用一组不太保守的属性概化临界值进行AOI挖掘类比较:区分不同的类n类比较挖掘的目标是得到将目标类与对比类相区分的描述。
q目标类和对比类间必须具有可比性,即两者间要有相似的属性或维n本科生 VS. 研究生;student VS. addressn很多应用于概念描述的技巧可以应用于类比较,比如属性概化q属性概化必须在所有比较类上同步进行,将属性概化到同一抽象层后进行比较nCity VS country类比较的过程 136n数据收集q通过查询处理收集数据库中相关的数据,并将其划分为一个目标类和一个或多个对比类n维相关分析q使用属性相关分析方法,使我们的任务中仅包含强相关的维n同步概化q同步的在目标类和对比类上进行概化,得到主目标类关系主目标类关系/方体方体 和 主对比类关系主对比类关系/方体方体n导出比较的表示q用可视化技术表达类比较描述,通常会包含“对比”度量,反映目标类与对比类间的比较 (e.g count%)在大型数据库中挖掘描述统计计量n对于数据挖掘任务,用户经常关心的数据特征包括数据的中心趋势和离散特征q中心趋势的度量包括:mean, median, mode 和 midrangeq数据离散度量包括:quartiles, 五数概括和标准差等q关系数据库中,系统提供了以下聚集函数:count(), sum(), avg(), max(), min()q在大型数据库中挖掘用户感兴趣的描述统计计量涉及到如何利用关系数据库现有的函数来计算上述两类用户感兴趣的度量值第六章、关联规则挖掘什么是关联规则挖掘?n关联规则挖掘:q从事务数据库,关系数据库和其他信息存储中的大量数据的项集之间发现有趣的、频繁出现的模式、关联和相关性。
n应用:q购物篮分析、分类设计、捆绑销售和亏本销售分析关联规则:基本概念n给定:q项的集合:I={i1,i2,...,in}q任务相关数据D是数据库事务的集合,每个事务T则是项的集合,使得q每个事务由事务标识符TID标识;qA,B为两个项集,事务T包含A当且仅当n则关联规则是如下蕴涵式:q其中 并且 ,规则 在事务集D中成立,并且具有支持度s和置信度cApriori算法nApriori算法利用频繁项集性质的先验知识(prior knowledge),通过逐层搜索的迭代方法,即将k-项集用于探察(k+1)-项集,来穷尽数据集中的所有频繁项集q先找到频繁1-项集集合L1,然后用L1找到频繁2-项集集合L2,接着用L2找L3,直到找不到频繁k-项集,找每个Lk需要一次数据库扫描nApriori性质:频繁项集的所有非空子集也必须是频繁的 模式不可能比A更频繁的出现)qApriori算法是反单调的,即一个集合如果不能通过测试,则该集合的所有超集也不能通过相同的测试Apriori算法步骤nApriori算法由连接连接和剪枝剪枝两个步骤组成。
n连接:连接:为了找Lk,通过Lk-1与自己连接产生候选k-项集的集合,该候选候选k项集项集记为CkqLk-1中的两个元素L1和L2可以执行连接操作 的条件是n剪枝:剪枝: Ck是Lk的超集,即它的成员可能不是频繁的,但是所有频繁的k-项集都在Ck中(为什么?)因此可以通过扫描数据库,通过计算每个k-项集的支持度来得到Lk q为了减少计算量,可以使用Apriori性质,即如果一个k-项集的(k-1)-子集不在Lk-1中,则该候选不可能是频繁的,可以直接从Ck删除Apriori算法——示例Database TDB1st scanC1L1L2C2C22nd scanC3L33rd scanTidItems10A, C, D20B, C, E30A, B, C, E40B, EItemsetsup{A}2{B}3{C}3{D}1{E}3Itemsetsup{A}2{B}3{C}3{E}3Itemset{A, B}{A, C}{A, E}{B, C}{B, E}{C, E}Itemsetsup{A, B}1{A, C}2{A, E}1{B, C}2{B, E}3{C, E}2Itemsetsup{A, C}2{B, C}2{B, E}3{C, E}2Itemset{B, C, E}Itemsetsup{B, C, E}2使用Apiori性质由L2产生C3n1 .连接:qC3=L2 L2= {{A,C},{B,C},{B,E}{C,E}} {{A,C},{B,C},{B,E}{C,E}} = {{A,B,C},{A,C,E},{B,C,E}}n2.使用Apriori性质剪枝:频繁项集的所有子集必须是频繁的,对候选项C3,我们可以删除其子集为非频繁的选项:q{A,B,C}的2项子集是{A,B},{A,C},{B,C},其中{A,B}不是L2的元素,所以删除这个选项;q{A,C,E}的2项子集是{A,C},{A,E},{C,E},其中{A,E} 不是L2的元素,所以删除这个选项;q{B,C,E}的2项子集是{B,C},{B,E},{C,E},它的所有2-项子集都是L2的元素,因此保留这个选项。
n3.这样,剪枝后得到C3={{B,C,E}}多层关联——一致支持度 VS. 递减支持度n一致支持度:对所有层都使用一致的最小支持度q优点:搜索时容易采用优化策略,即一个项如果不满足最小支持度,它的所有子项都可以不用搜索q缺点:最小支持度值设置困难n太高:将丢掉出现在较低抽象层中有意义的关联规则n太低:会在较高层产生太多的无兴趣的规则n递减支持度:在较低层使用递减的最小支持度q抽象层越低,对应的最小支持度越小min_sup = 5%min_sup = 5%min_sup = 3%多层关联——搜索策略n具有递减支持度的多层关联规则的搜索策略q逐层独立:完全的宽度搜索,没有频繁项集的背景知识用于剪枝q层交叉单项过滤:一个第i层的项被考察,当且仅当它在第(i-1)层的父节点是频繁的(图6-14)q层交叉k项集过滤:一个第i层的k项集被考察,当且仅当它在第(i-1)层的对应父节点k-项集是频繁的(图6-15)n搜索策略比较q逐层独立策略条件松,可能导致底层考察大量非频繁项q层交叉k项集过滤策略限制太强,仅允许考察频繁k-项集的子女q层交叉单项过滤策略是上述两者的折中,但仍可能丢失低层频繁项(图6-14)关联规则的兴趣度度量n客观度量q两个流行的度量指标n支持度n置信度n主观度量q最终,只有用户才能确定一个规则是否有趣的,而且这种判断是主观的,因不同的用户而异;通常认为一个规则(模式)是有趣的,如果:n它是出人意料的n可行动的(用户可以使用该规则做某些事情)n挖掘了关联规则后,哪些规则是用户感兴趣的?强关联规则是否就是有趣的?第七章、分类和预测分类 VS. 预测n分类:q预测分类标号(或离散值)q根据训练数据集和类标号属性,构建模型来分类现有数据,并用来分类新数据n预测:q建立连续函数值模型,比如预测空缺值n典型应用q信誉证实q目标市场q医疗诊断q性能预测数据分类——一个两步过程n第一步,建立一个模型,描述预定数据类集和概念集q假定每个元组属于一个预定义的类,由一个类标号属性确定q基本概念n训练数据集训练数据集:由为建立模型而被分析的数据元组形成n训练样本训练样本:训练数据集中的单个样本(元组)q学习模型可以用分类规则、判定树或数学公式的形式提供n第二步,使用模型,对将来的或未知的对象进行分类q首先评估模型的预测准确率n对每个测试样本,将已知的类标号和该样本的学习模型类预测比较n模型在给定测试集上的准确率是正确被模型分类的测试样本的百分比n测试集要独立于训练样本集,否则会出现“过分适应数据”的情况有指导的学习 VS. 无指导的学习n有指导的学习(用于分类)q模型的学习在被告知每个训练样本属于哪个类的“指导”下进行q新数据使用训练数据集中得到的规则进行分类n无指导的学习(用于聚类)q每个训练样本的类编号是未知的,要学习的类集合或数量也可能是事先未知的q通过一系列的度量、观察来建立数据中的类编号或进行聚类比较分类方法n使用下列标准比较分类和预测方法q预测的准确率:模型正确预测新数据的类编号的能力q速度:产生和使用模型的计算花销q健壮性:给定噪声数据或有空缺值的数据,模型正确预测的能力q可伸缩性:对大量数据,有效的构建模型的能力可伸缩性:对大量数据,有效的构建模型的能力q可解释性:学习模型提供的理解和洞察的层次用判定树归纳分类n什么是判定树?q类似于流程图的树结构q每个内部节点表示在一个属性上的测试q每个分枝代表一个测试输出q每个树叶节点代表类或类分布n判定树的生成由两个阶段组成q判定树构建n开始时,所有的训练样本都在根节点n递归的通过选定的属性,来划分样本 (必须是离散值)q树剪枝n许多分枝反映的是训练数据中的噪声和孤立点,树剪枝试图检测和剪去这种分枝n判定树的使用:对未知样本进行分类q通过将样本的属性值与判定树相比较贝叶斯分类n贝叶斯分类利用统计学中的贝叶斯定理,来预测类成员的概率,即给定一个样本,计算该样本属于一个特定的类的概率。
n朴素贝叶斯分类:假设每个属性之间都是相互独立的,并且每个属性对非类问题产生的影响都是一样的后向传播分类n后向传播是一种神经网络学习算法;神经网络是一组连接的输入/输出单元,每个连接都与一个权相连在学习阶段,通过调整神经网络的权,使得能够预测输入样本的正确标号来学习n优点q预测精度总的来说较高q健壮性好,训练样本中包含错误时也可正常工作q输出可能是离散值、连续值或者是离散或量化属性的向量值q对目标进行分类较快n缺点q训练(学习)时间长q蕴涵在学习的权中的符号含义很难理解q很难根专业领域知识相整合什么是预测?n预测是构造和使用模型评估无样本类,或评估给定样本可能具有的属性或值空间n预测和分类的异同n相同点q两者都需要构建模型q都用模型来估计未知值n预测当中主要的估计方法是回归分析q线性回归和多元回归q非线性回归n不同点q分类法主要是用来预测类标号(分类属性值)q预测法主要是用来估计连续值(量化属性值)第八章、聚类分析什么是聚类分析?n聚类(簇):数据对象的集合q在同一个聚类(簇)中的对象彼此相似q不同簇中的对象则相异n聚类分析q将物理或抽象对象的集合分组成为由类似的对象组成的多个类的过程n聚类是一种无指导的学习:没有预定义的类编号n聚类分析的数据挖掘功能q作为一个独立的工具来获得数据分布的情况q作为其他算法(如:特征和分类)的预处理步骤聚类分析的典型应用n模式识别n空间数据分析q在GIS系统中,对相似区域进行聚类,产生主题地图q检测空间聚类,并给出它们在空间数据挖掘中的解释q图像处理n经济学(尤其是市场研究)n万维网q对WEB上的文档进行分类q对对WEB日志的数据进行聚类,以发现相同的用户访问模式日志的数据进行聚类,以发现相同的用户访问模式主要的聚类方法n聚类分析算法种类繁多,具体的算法选择取决于数据类型,聚类的应用和目的,常用的聚类算法包括:q划分方法q层次的方法q基于密度的方法q基于网格的方法q基于模型的方法n实际应用中的聚类算法,往往是上述聚类方法中多种方法的整合孤立点挖掘n什么是孤立点?q一个数据集与其他数据有着显著区别的数据对象的集合q例如:运动员:Michael Jordon, 舒马赫,布勃卡n孤立点产生原因q度量或执行错误(年龄:-999)q数据变异的结果n孤立点挖掘q给定一个n个数据对象的集合,以及预期的孤立点数目k,发现与剩余的数据有着显著差异的头k个数据对象n应用q信用卡欺诈检测q移动欺诈检测q客户划分q医疗分析(异常)电子商务与数据挖掘电子商务与数据挖掘——完美结合n在电子商务中进行成功的数据挖掘得益于:q电子商务提供海量的数据n如果一个电子商务网站平均每个小时卖出五件物品,那么它一个月的平均点击量是160万次。
q丰富的记录信息n良好的WEB站点设计将有助于获得丰富的信息q干净的数据n从电子商务站点收集的都是电子数据,无需人工输入或者是从历史系统进行整合q研究成果容易转化n在电子商务中,很多知识发现都可以进行直接应用q投资收益容易衡量对电子商务网站的Web数据挖掘n通常在一个电子商务网站上应用的数据挖掘技术是Web数据挖掘n我们可以在一个电子商务网站挖掘些什么东西?q内容挖掘 (Web Content Mining)q结构挖掘 (Web Structure Mining)q使用挖掘 (Web Usage Mining)Web Usage Miningn与Web Content Mining和Web Structure Mining不同的是,Web Usage Mining的挖掘对象是用户和网络交互过程中抽取出来的二手数据,这些数据主要是用户在访问Web时在Web日志里留下的信息,以及其它一些交互信息,q日志信息包括访问日期、时间、用户IP地址、服务器IP地址、方法、所请求URL资源、服务器响应状态、用户代理、发送字节等qWeb Usage Mining就是对系统日志信息,以及用户的注册数据等进行挖掘,以发现有用的模式和知识。
Web Usage Mining的作用n通过对电子商务网站应用Web Usage Mining数据挖掘技术,可以q提高站点的质量q改善WEB缓存,缓解网络交通,提高性能q在电子商务中还可捕捉到大量的采购过程的细节,为更加深入的分析提供了可能。












