
知识发现与管理-2知识发现.doc
15页知识发现与管理 2 知识发现第 1 页 共 16 页知识发现与管理2 知识发现2.1 概述基于数据库的知识发现(KDD)和数据挖掘还存在着混淆,通常这两个术语替换使用KDD表示将低层数据转换为高层知识的整个过程可以将 KDD 简单定义为:KDD 是确定数据中有效的、新颖的、潜在有用的、基本可理解的模式的特定过程而数据挖掘可认为是观察数据中模式或模型的抽取,这是对数据挖掘的一般解释虽然数据挖掘是知识发现过程的核心,但它通常仅占 KDD 的一部分(大约是 15%到 25%)因此数据挖掘仅仅是整个 KDD 过程的一个步骤,对于到底有多少步以及哪一步必须包括在 KDD 过程中没有确切的定义然而,通用的过程应该接收原始数据输入,选择重要的数据项,缩减、预处理和浓缩数据组,将数据转换为合适的格式,从数据中找到模式,评价解释发现结果2.1.1 知识发现的定义知识发现(KDD)是基于数据库的知识发现的简称(Knowledge Discovery in Databases),指从数据集中提取可信的、新颖的、有效的并能被人们理解的模式的非平凡过程。
知识发现的目的是屏蔽原始数据的繁琐细节,从原始数据中提取有意义的、精炼的、能够对用户产生直接影响的知识产品,从而为用户在知识服务中提供决策支持狭义的知识发现过程是从大型数据库中发现有价值知识的过程,而广义的知识发现过程则泛指从网页、书籍、人脑、数据库等各种信息媒体中发现有意义的知识的全过程该处理过程一般分为三个阶段:数据准备、数据挖掘、结果的评估与解释2.1.2 知识发现的基本任务(1)数据分类分类是数据挖掘研究的重要分支之一,是一种有效的数据分析方法分类的目标是通过分析训练数据集,构造一个分类模型(即分类器),该模型能够把数据库中的数据记录映射到一个给定的类别,从而可以 l 立用于数据预测2)数据聚类当要分析的数据缺乏必要的描述信息,或者根本就无法组织成任何分类模式时,利用聚类函数把一组个体按照相似性归成若干类,这样就可以自动找到类聚类和分类类似,都是将数据进行分组但与分类不同的是,聚类中的组不是预先定义的,而是根据实际数据的特征按照数据之间的相似性来定义的知识发现与管理 2 知识发现第 2 页 共 16 页(3)衰退和预报。
这是一种特殊类型的分类,可以看作是根据过去和当前的数据预测未来的数据状态通过对用衰减统计技术建模的数字值的预测,学习一种(线性或非线性)功能将数据项映射为一个数字预测变量4)关联和相关性是指发现大规模数据集中项集之间有趣的关联或相关关系关联规则是指通过对数据库中的数据进行分析,从某一数据对象的信息来推断另一数据对象的信息,寻找出重复出现概率很高的知识模式,常用一个带有置信度因子的参数来描述这种不确定的关系5)顺序发现通常指确定数据组中的顺序模式当数据的特定类型的关系已被发现时,这些模式同关联和相关性相似但对关系基于时间序列的数据组,顺序发现和关联就不同了概括总结:顺序发现是将数据映射为有关数据组的简练描述的子集或映射为数据库中一组特定用户数据的高度概括的数据6)描述和辨别是指发现一组特征规则,其中的每一条都是或者显示数据组的特征或者从对比类中区别试验类的概念的命题7)时间序列分析其任务是发现属性值的发展趋向,如从股票价格指数的金融数据、客户数据和医学数据等它是用来搜寻相似模式以发现和预测特定模式的风险、因果关系和趋势2.1.3 知识发现的知识类型(1)广义型知识(Generalization)。
是根据数据的微观特性发现其表征的、带有普遍性的、高层次概念的、中观或宏观的知识2)分类型知识(Classification&Clustering)反映同类事物共同性质的特征型知识和不同事物之间差异型特征知识用于反映数据的汇聚模式或根据对象的属性区分其所属类别3)关联型知识(Association)是反映一个事件和其他事件之间依赖或关联的知识,又称依赖(Dependency)关系这类知识可用于数据库中的归一化,查询优化等4)预测型知识(Prediction)通过时间序列型数据,由历史的和当前的数据去预测未来的情况它实际上是一种以时间为关键属性的关联知识5)偏差型知识(Deviation)通过分析标准类以外的特例、数据聚类外的离群值、实际观测值和系统预测值间的显著差别,对差异和极端特例进行描述知识发现与管理 2 知识发现第 3 页 共 16 页2.1.4 知识发现技术到目前为止已经出现了许多知识发现技术,分类方法也有很多种, (1)按被挖掘对象分有基于关系数据库、多媒体数据库;(2)按挖掘的方法分有数据驱动型、查询驱动型和交互型;(3)按知识类型分有关联规则、特征挖掘、分类、聚类、总结知识、趋势分析、偏差分析、文本采掘。
知识发现技术可分为两类:基于算法的方法和基于可视化的方法大多数基于算法的方法是在人工智能、信息检索、数据库、统计学、模糊集和粗糙集理论等领域中发展来的典型的基于算法的知识发现技术包括:或然性和最大可能性估计的贝叶斯理论、衰退分析、最近邻、决策树、K 一方法聚类、关联规则挖掘、Web 和搜索引擎、数据仓库和联机分析处理(On—lineAnalyticalProcessing,OLAP)、神经网络、遗传算法、模糊分类和聚类、粗糙分类和规则归纳等这些技术都很成熟,并且在相关书籍文章上都有详细介绍这里介绍一种基于可视化的方法基于可视化方法是在图形学、科学可视化和信息可视化等领域发展起来的,包括:①几何投射技术是指通过使用基本的组成分析、因素分析、多维度缩放比例来发现多维数据集的有趣投影②基于图标技术是指将每个多维数据项映射为图形、色彩或其他图标来改进对数据和模式的表达③面向像素的技术其中每个属性只由一个有色像素表示,或者属性取值范围映射为一个固定的彩色图④层次技术指细分多维空间,并用层次方式给出子空间⑤基于图表技术是指通过使用查询语言和抽取技术以图表形式有效给出数据集⑥混合技术是指将上述两种或多种技术合并到一起的技术。
2.1.5 知识发现过程的步骤知识发现过程的多种描述.它们只是在组织和表达方式上有所不同,在内容上并没有非常本质的区别知识发现过程包括以下步骤:知识发现与管理 2 知识发现第 4 页 共 16 页图 2-1 知识发现过程图其中,数据准备阶段包括数据采集、数据抽取、数据预处理和数据变换四个步骤数据采集是指从信息媒体中收集相关领域的数据并存储于数据库中;数据抽取是指从数据库中选择符合用户需求的相关数据和相关属性,并将其转换为数据挖掘的组织形式;数据预处理是指消除所选数据的噪音,使数据保持其完整性和一致性;数据变换则是根据知识发现的需求,对数据类型进行转换,并利用数据属性间的关系进行数据简约,以减少有效数据的维数和规模数据挖掘作为知识发现中的重要步骤,主要采用机器学习、统计等方法对知识进行学习其算法的好坏直接影响到所发现知识的好坏结果的评估与解释是将数据挖掘得到的诸多模式知识,按照用户需求进行评估,解释,将其转换成易于人们理解的、符合实际需求的知识,从而提供决策支持2.2 知识发现的内在机理目前国际上的研究主要是以知识发现的任务描述、知识评价与知识表示为主线,有效的知识发现算法为中心,这是在相当长的时间内保持的主流与基调然而,数据发掘的局限性,正是源于对知识发现系统内在规律性缺乏研究与认识若将局限于一个封闭的模式中,不可避免地会带来一系列的问题而若把知识发现及其相关的一些进程作为一个宏观的开放的整体来考虑,会在一定程度上解决以上问题另外当前对于主流技术的研究已取得了一定的成果,对算法的研究已不局限于以往的一些传统算法,而涉及到了粗糙集、遗传算法、概念格、小波分析等一些相关的技术方法,这不仅为系统的整体体系结构的构建提供了基础,而且在客观上也要求为系统提供一个理论上的体系框架,将各种相关领域的研究统一起来这些成为在领域里开拓新的研究方向的基本背景。
知识发现与管理 2 知识发现第 5 页 共 16 页2.2.1 双库协同机制双库协同机制即挖掘数据库与挖掘知识库在 KDD 进程中的协同机制1)定义在给定真实数据库和基础知识库的前提下,在数据发掘过程中,具备以下特征的KDD中的运行机制为双库协同机制:① 在真实数据库上,按数据子类结构形式所构成的发掘数据库的可达范畴,与基于属性间关系的发掘知识库的推理范畴之间,构建范畴间的等价关系,2个范畴的等价关系为定向发掘和定向搜索奠定理论基础;② 在聚焦过程中,除依据用户需求确定聚焦外,通过启发协调算法可以形成依发掘知识库中知识短缺而生成的机器自身提供的聚焦方向,进而形成在数据库中的定向发掘(算法和进程);③ 在获得假设规则到知识评价的过程中产生的中断进程,即先不对假设规则进行评价,而是通过中断协调算法到发掘知识库中进行定向搜索,以期发现产生的假设规则与知识库中原有的知识是否重复、冗余和矛盾,并作相应处理,即对知识库进行实时维护2)在双库协同机制的研究中,给出了一系列定义,并演绎出重要的结构对应定理,还提出及实现了启发协调算法与中断协调算法以下给出结构对应定理。
定理(结构对应定理),对于论域X,在相应的知识子库与数据子库中,关于知识结点的拓扑空间 与关于数据子类(结构)的拓扑空间 ,是同一泛同伦型的空间3)意义,双库协同机制基本上解决了数据发掘过程中对领域固有的基础知识库的实时维护,同时在一定程度上,解决了认知自主性的问题即利用启发型协调器,实现了计算机自动发现“知识短缺”,系统自身根据知识短缺产生创见意向,形成定向发掘对挖掘出来的知识通过中断型协调器,对知识库进行实时管理与维护基于双库协同机制的 KDD 系统是 KDD技术与双库协同机制相融合的一种知识发现的新结构即构建数据库,与基础知识库的内在联系“通道”,从而用基础知识库去制约与驱动 KDD 的发掘过程,改变 KDD 固有的运行机制,在结构与功能上形成了相对于而言的 KDD 一个开放的、优化的扩体同时该机制的提出可以诱导出新的、有效的知识发现的结构模型,并产生具有高效、高扩展性的知识发现算法2.2.2 双基融合机制知识发现与管理 2 知识发现第 6 页 共 16 页双基融合机制即与在综合基的知识发现系统中的融合机制。
1)定义双基融合机制是指在基于数据库与基于知识库(综合基上)的知识发现系统中,具有下列内涵的机制,① KDK( Knowledge Discovery in knowledge )过程要依赖于数据库即将在 KDK 过程中发掘出的新知识随时送人数据库中,以数据库中的数据来验证新知识,② KDD 过程要依赖于 KDD 的发掘过程,即在 KDD 中发掘出的某些特定的新知识可送人KDD 过程中进行验证,看 KDD 中发现的规则在 KDD 过程中是否能被发现这一过程本质上是确定 KDD 中发现的新规则在现实中是否有意义③ KDD 依赖于固有知识库,即 KDD 过程中发现的新知识要实时的、定向的嵌人固有知识库,以验证新知识与原有知识是否冗余、矛盾和重复2)论证了 KDD 模型与 KDD 模型各要素间的对应。
