电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

知识发现过程与应用结构

55页
  • 卖家[上传人]:tian****1990
  • 文档编号:81618998
  • 上传时间:2019-02-21
  • 文档格式:PPT
  • 文档大小:638.50KB
  • / 55 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 1、主讲:赵宏庆,数据挖掘原理与算法,Chinese Academy of Science,2,第二章 知识发现过程与应用结构,Chinese Academy of Science,3,第二章 知识发现过程与应用结构,2.1 知识发现的基本过程 2.2 数据库中的知识发现处理过程模型 2.3 知识发现软件或工具的发展 2.4 知识发现项目的过程化管理 2.5 数据挖掘语言介绍,Chinese Academy of Science,4,如何学习本章内容,在上一章我们指出,数据挖掘有广义和狭义两种理解。为了避免混淆,本章使用知识发现而把数据挖掘限制在上面所描述的狭义概念上。,Chinese Academy of Science,5,如何学习本章内容,虽然不同企业会有不同的业务逻辑,解决问题的具体方法有所差异,但是它们进行知识发现的目的和基本思路是一致的。 本章首先对知识发现的基本过程进行分析,旨在使读者从总体上掌握知识发现的基本步骤和技术。 然后对目前比较流行的KDD过程处理模型进行剖析,了解KDD系统的应用体系结构。 通过对KDD系统的基本技术环境和主要部件功能分析,对KDD系统的体系结构有

      2、一个更深入的了解。 在此基础上对KDD软件和工具进行归纳、举例和分析,帮助读者在实际应用中学会选择和使用相应的软件和工具。,Chinese Academy of Science,6,如何学习本章内容,本章也对KDD系统项目的过程化管理、交互式数据挖掘过程以及通用的KDD原型系统进行讨论,从软件项目管理角度来更好地理解KDD过程。 最后对数据挖掘语言的类型和特点进行介绍。,Chinese Academy of Science,7,2.1 知识发现是一个系统化的工作,从源数据中发现有用知识是一个系统化的工作。 首先必须对可以利用的源数据进行分析,确定合适的挖掘目标。然后才能着手系统的设计和开发。 完成从大型源数据中发现有价值知识的过程可以简单地概括为: 首先从数据源中抽取感兴趣的数据,并把它组织成适合挖掘的数据组织形式; 然后,调用相应的算法生成所需的知识; 最后对生成的知识模式进行评估,并把有价值的知识集成到企业的智能系统中。 一般地说,KDD是一个多步骤的处理过程,一般分为问题定义、数据抽取、数据预处理、数据挖掘以及模式评估等基本阶段。,Chinese Academy of Scien

      3、ce,8,问题定义阶段的功能,KDD是为了在大量数据中发现有用的令人感兴趣的信息,因此发现何种知识就成为整个过程中第一个也是最重要的一个阶段。 在问题定义过程中,数据挖掘人员必须和领域专家以及最终用户紧密协作 一方面了解相关领域的有关情况,熟悉背景知识,弄清用户要求,确定挖掘的目标等要求; 另一方面通过对各种学习算法的对比进而确定可用的学习算法。后续的学习算法选择和数据集准备都是在此基础上进行的。,Chinese Academy of Science,9,2.1.1 数据抽取与集成,数据抽取与集成是知识发现的关键性工作。早期的数据抽取是依靠手工编程来实现的,现在可以通过高效的抽取工具来实现。 源数据库的选取以及从中抽取数据的原则和具体规则必须依据系统的任务来界定。 主要任务是设计存储新数据的结构和准确定义它与源数据的转换和装载机制,以便正确地从每个数据源中抽取所需的数据。 这些结构和转换信息应该作为元数据(Metadata)被存储起来。 来自不同源的数据可能有模式定义上的差异,也可能存在因数据冗余而无法确定有效数据的情形。此外,还要考虑数据库系统本身可能存在不兼容的情况,Chinese

      4、 Academy of Science,10,2.1.2数据清洗与预处理,在开始一个知识发现项目之前必须清晰地定义挖掘目标。因此,要提高挖掘结果的准确率,数据预处理是不可忽视的一步。 对数据进行预处理,一般需要对源数据进行再加工,检查数据的完整性及数据的一致性,对其中的噪音数据进行平滑,对丢失的数据进行填补,消除“脏”数据,消除重复记录等。 数据清洗是指去除或修补源数据中的不完整、不一致、含噪音的数据。,Chinese Academy of Science,11,2.1.2数据清洗与预处理,常见的不完整数据的修补办法有: 使用一个全局值来填充(如“unknown”、估计的最大数或最小数)。 统计该属性的所有非空值,并用平均值来填充空缺项。 只使用同类对象的属性平均值填充。 利用回归或工具预测最可能的值,并用它来填充。 数据不一致可能是由于源数据库中对同样属性所使用的数据类型、度量单位等不同而导致的。因此需要定义它们的转换规则,并在挖掘前统一成一个形式。,Chinese Academy of Science,12,2.1.3数据的选择与整理,没有高质量的数据就不可能有高质量的挖掘结果。

      5、为了得到一个高质量的适合挖掘的数据子集,一方面需要通过数据清洗来消除干扰性数据,另一方面也需要针对挖掘目标进行数据选择。 数据选择的目的是辨别出需要分析的数据集合,缩小处理范围,提高数据采掘的质量。 数据选择可以使后面的数据挖掘工作聚焦到和挖掘任务相关的数据子集中。不仅提高了挖掘效率,而且也保证了挖掘的准确性。,Chinese Academy of Science,13,2.1.3数据的选择与整理,利用数据变换或规约等技术可以将数据整理成适合进一步挖掘的数据格式。 数据变换可以根据需要构造出新的属性以帮助理解分析数据的特点,或者将数据规范化,使之落在一个特定的数据区间中。 数据规约则是在尽可能保证数据完整性的基础上,将数据以其他方式进行表示,以减少数据存储空间,使挖掘过程更有效。 常用的规约策略有:数据立方体聚集、维规约、数据压缩、数值压缩和离散化等。,Chinese Academy of Science,14,2.1.4 数据挖掘阶段的功能,运用选定的数据挖掘算法,从数据中提取出用户所需要的知识,这些知识可以用一种特定的方式表示。 选择数据挖掘算法有两个考虑因素: 一是不同的数据有不

      6、同的特点,因此需要用与之相关的算法来挖掘; 二是用户或实际运行系统的要求,有的用户可能希望获取描述型的(Descriptive)、容易理解的知识(采用规则表示的挖掘方法显然要好于神经网络之类的方法),而有的用户只是希望获取预测准确度尽可能高的预测型(Predictive)知识,并不在意获取的知识是否易于理解。,Chinese Academy of Science,15,2.1.5 知识评估阶段的功能,数据挖掘阶段发现出来的模式,经过评估,可能存在冗余或无关的模式,这时需要将其剔除; 也有可能模式不满足用户要求,这时则需要整个发现过程回退到前续阶段,如重新选取数据、采用新的数据变换方法、设定新的参数值,甚至换一种算法等等。,Chinese Academy of Science,16,2.1.5 知识评估阶段的功能,KDD由于最终是面向人类用户的,因此可能要对发现的模式进行可视化,或者把结果转换为用户易懂的另一种表示。 所以知识评估阶段是KDD一个重要的必不可少的阶段,它不仅担负着将KDD系统发现的知识以用户能了解的方式呈现,而且根据需要进行知识评价,如果和用户的挖掘目标不一致就需要返回前

      7、面相应的步骤进行螺旋式处理以最终获得可用的知识。,Chinese Academy of Science,17,知识发现需要多方合作,实施这样的项目不仅需要充足的资金,而且需要有良好的技术和人员储备。在整个的知识发现过程中,需要有不同专长的技术人员支持。 业务分析人员:要求精通业务,能够解释业务对象,并根据各业务对象确定出用于数据定义和挖掘算法的业务需求。 数据分析人员:精通数据分析技术,并对统计学有较熟练的掌握,有能力把业务需求转化为知识发现的各步操作,并为每步操作选择合适的模型或工具。 数据管理人员:精通数据管理技术,并负责从数据库或数据仓库中收集数据。,Chinese Academy of Science,18,第二章 知识发现过程与应用结构,2.1 知识发现的基本过程 2.2 数据库中的知识发现处理过程模型 2.3 知识发现软件或工具的发展 2.4 知识发现项目的过程化管理 2.5 数据挖掘语言介绍,Chinese Academy of Science,19,2.2.1 阶梯处理过程模型,多阶段流水处理模型:,Chinese Academy of Science,20,2.2.2

      8、 螺旋处理过程模型,它强调领域专家参与的重要性,并以问题的定义为中心循环评测挖掘的结果。当结果不令人满意时,就需要重新定义问题,开始新的处理循环。每次循环都使问题更清晰,结果更准确,因此是一个螺旋式上升过程。,Chinese Academy of Science,21,2.2.3 以用户为中心的处理模型,Brachman和Anand从用户的角度对KDD处理过程进行了分析。他们认为数据库中的知识发现应该更着重于对用户进行知识发现的整个过程的支持,而不是仅仅限于在数据挖掘的一个阶段上。该模型强调对用户与数据库的交互的支持。,Chinese Academy of Science,22,2.2.4 联机KDD模型,实现联机交互式KDD需要可视化技术支撑。这种可视化需要从数据挖掘过程可视化、数据可视化、模型可视化和算法可视觉化等方面来理解。 OLAM(On Line Analytical Mining:联机分析挖掘)的概念是OLAP的发展。,Chinese Academy of Science,23,2.2.5 支持多数据源多知识模式的KDD处理模型,数据与方法相对独立。数据不是针对某一特定知识

      9、模式,而是针对某一类问题来抽取。 经过预处理后,这些数据对于某些挖掘算法来说可能存在属性冗余、与目标无关等问题,因此在后面的阶段再进行相关的数据清洗和选择工作,这样使得解决同一类问题的不同算法可以在统一的KDD平台上完成。,Chinese Academy of Science,24,第二章 知识发现过程与应用结构,2.1 知识发现的基本过程 2.2 数据库中的知识发现处理过程模型 2.3 知识发现软件或工具的发展 2.4 知识发现项目的过程化管理 2.5 数据挖掘语言介绍,Chinese Academy of Science,25,2.3 知识发现软件的发展,虽然市场上已经有许多所谓的知识发现系统或工具,但是,这些工具只能用来辅助技术人员进行设计和开发,而且知识发现软件本身也正处于发展阶段,仍然存在各种各样需要解决的问题。 粗略地说,知识发现软件或工具的发展经历了独立的知识发现软件、横向的知识发现工具集和纵向的知识发现解决方案三个主要阶段,其中后面两种反映了目前知识发现软件的两个主要发展方向。,Chinese Academy of Science,26,2.3.1 独立的知识发现软件,独立的知识发现软件出现在数据挖掘和知识发现技术研究的早期。 当研究人员开发出一种新型的数据挖掘算法后,就在此基础上形成软件原型。这些原型系统经过完善被尝试使用。 这类软件要求用户必须对具体的数据挖掘技术和算法有相当的了解,还要手工负责大量的数据预处理工作。,Chinese Academy of Science,27,2.3.2 横向的知识发现工具,集成化的知识发现辅助工具集,属于通用辅助工具范畴,可以帮助用户快速完成知识发现的不同阶段处理工作。 一些有代表性的原型系统或工具介绍。,名称 研究机构或公司 主要特点 DBMiner1 Simon Fraser 以OLAM引擎为核心的联机挖掘原型系统;包含多特征/序列/关联等多模式。 Quest75 IBM Almaden 面向大数据集的多模式(关联规则/分类等)挖掘工具。 IBM Intelligent Miner76 IBM 包含多种技术(神经网络/统计分析/聚类等)的辅助挖掘工具集。 Darwin76 Thinking Machines 基于神经网络的辅助挖掘工具。 ReMind Cognitive Sys

      《知识发现过程与应用结构》由会员tian****1990分享,可在线阅读,更多相关《知识发现过程与应用结构》请在金锄头文库上搜索。

      点击阅读更多内容
    TA的资源
  • 2018-2019学年八年级历史上册 第3单元 新民主主义革命的兴起 第12课 国民革命导学案北师大版

    2018-2019学年八年级历史上册 第3单元 新民主主义革命的兴起 第12课 国民革命导学案北师大版

  • 2018-2019学年八年级历史上册 第六单元 中华民族的抗日战争 第21课 敌后战场的抗战导学案(新人教版

    2018-2019学年八年级历史上册 第六单元 中华民族的抗日战争 第21课 敌后战场的抗战导学案(新人教版

  • 2018-2019学年八年级历史上册 第1单元 民族危机与晚晴时期的救亡运动 第1课 鸦片战争导学案2北师大版

    2018-2019学年八年级历史上册 第1单元 民族危机与晚晴时期的救亡运动 第1课 鸦片战争导学案2北师大版

  • 2018-2019学年八年级历史上册 第2单元 辛亥革命与中华民国的建立 第8课 辛亥革命导学案北师大版

    2018-2019学年八年级历史上册 第2单元 辛亥革命与中华民国的建立 第8课 辛亥革命导学案北师大版

  • 2018-2019学年八年级历史上册 第六单元 中华民族的抗日战争 第20课 正面战场的抗战导学案(新人教版

    2018-2019学年八年级历史上册 第六单元 中华民族的抗日战争 第20课 正面战场的抗战导学案(新人教版

  • 2018-2019学年八年级历史上册 第2单元 辛亥革命与民族觉醒 第10课 新文化运动导学案华东师大版

    2018-2019学年八年级历史上册 第2单元 辛亥革命与民族觉醒 第10课 新文化运动导学案华东师大版

  • 2018-2019学年八年级历史上册 第2单元 辛亥革命与民族觉醒 第8课 袁世凯称帝与军阀混战导学案2华东师大版

    2018-2019学年八年级历史上册 第2单元 辛亥革命与民族觉醒 第8课 袁世凯称帝与军阀混战导学案2华东师大版

  • 2018-2019学年八年级历史上册 第4单元 中华民族的抗日战争 第14课 民族危机的空前严重导学案华东师大版

    2018-2019学年八年级历史上册 第4单元 中华民族的抗日战争 第14课 民族危机的空前严重导学案华东师大版

  • 2018-2019学年八年级历史上册 第五单元 从国共合作到国共对峙 第17课 中国工农红军长征导学案(新人教版

    2018-2019学年八年级历史上册 第五单元 从国共合作到国共对峙 第17课 中国工农红军长征导学案(新人教版

  • 2018-2019学年八年级历史上册 第1单元 民族危机与晚晴时期的救亡运动 第5课 中日甲午战争导学案1北师大版

    2018-2019学年八年级历史上册 第1单元 民族危机与晚晴时期的救亡运动 第5课 中日甲午战争导学案1北师大版

  • 2018-2019学年八年级历史上册 第2单元 辛亥革命与民族觉醒 第8课 袁世凯称帝与军阀混战导学案1华东师大版

    2018-2019学年八年级历史上册 第2单元 辛亥革命与民族觉醒 第8课 袁世凯称帝与军阀混战导学案1华东师大版

  • 2018-2019学年八年级历史上册 第1单元 民族危机与晚晴时期的救亡运动 第5课 中日甲午战争导学案2北师大版

    2018-2019学年八年级历史上册 第1单元 民族危机与晚晴时期的救亡运动 第5课 中日甲午战争导学案2北师大版

  • 2018-2019学年八年级历史上册 第1单元 民族危机与晚晴时期的救亡运动 第1课 鸦片战争导学案1北师大版

    2018-2019学年八年级历史上册 第1单元 民族危机与晚晴时期的救亡运动 第1课 鸦片战争导学案1北师大版

  • 2018-2019学年八年级历史上册 第2单元 辛亥革命与中华民国的建立 第10课 新文化运动导学案北师大版

    2018-2019学年八年级历史上册 第2单元 辛亥革命与中华民国的建立 第10课 新文化运动导学案北师大版

  • 2018-2019学年八年级历史上册 第1单元 民族危机与晚晴时期的救亡运动导学案北师大版

    2018-2019学年八年级历史上册 第1单元 民族危机与晚晴时期的救亡运动导学案北师大版

  • 2018-2019学年八年级物理上册 第二章 第1节 声音的产生与传播导学案 (新版)新人教版

    2018-2019学年八年级物理上册 第二章 第1节 声音的产生与传播导学案 (新版)新人教版

  • 2018-2019学年八年级地理上册 第四章 第三节 工业的分布与发展(第1课时)学案(新版)新人教版

    2018-2019学年八年级地理上册 第四章 第三节 工业的分布与发展(第1课时)学案(新版)新人教版

  • 2018-2019学年八年级物理上册 第二章 第2节 声音的特性导学案 (新版)新人教版

    2018-2019学年八年级物理上册 第二章 第2节 声音的特性导学案 (新版)新人教版

  • 2018-2019学年八年级地理上册 3.3 中国的水资源教学案(新版)湘教版

    2018-2019学年八年级地理上册 3.3 中国的水资源教学案(新版)湘教版

  • 2018-2019学年八年级物理上册 第三章 第3节 汽化和液化(第1课时 汽化)导学案 (新版)新人教版

    2018-2019学年八年级物理上册 第三章 第3节 汽化和液化(第1课时 汽化)导学案 (新版)新人教版

  • 点击查看更多
    关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
    手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
    ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.