好文档就是一把金锄头!
欢迎来到金锄头文库![会员中心]
电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

高级人工智能知识发现.ppt

36页
  • 卖家[上传人]:M****1
  • 文档编号:591897420
  • 上传时间:2024-09-18
  • 文档格式:PPT
  • 文档大小:917.06KB
  • / 36 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 高级人工智能高级人工智能第十三章第十三章 知识发现知识发现(一)(一)2024/9/181高级人工智能 史忠植 知识发现知识发现Ø概述Ø知识发现的任务Ø数据仓库Ø知识发现工具2024/9/182高级人工智能 史忠植 知识发现知识发现知识发现是指从数据集中抽取和精炼新的模式Ø范围非常广泛:经济、工业、农业、军事、社会Ø数据的形态多样化:数字、符号、图形、图像、声音Ø数据组织各不相同:结构化、半结构化和非结构Ø发现的知识可以表示成各种形式规则、科学规律、方程或概念网2024/9/183高级人工智能 史忠植 数据库知识发现数据库知识发现 目前, 关系型数据库技术成熟、应用广泛因此, 数据库知识发现(Knowledge Discovery in Databases KDD)的研究非常活跃 该术语于1989年出现,Fayyad定义为“KDD是从数据集中识别出有效的、新颖的、潜在有用的,以及最终可理解的模式的非平凡过程” 2024/9/184高级人工智能 史忠植 不同的术语名称不同的术语名称 知识发现是一门来自不同领域的研究者关注的交叉性学科,因此导致了很多不同的术语名称。

      Ø 知识发现:人工智能和机器学习界Ø 数据挖掘(data mining):统计界、数据分析、数据库和管理信息系统界q知识抽取 (information extraction)、q信息发现 (information discovery)、q智能数据分析 (intelligent data analysis)、q探索式数据分析 (exploratory data analysis)q信息收获 (information harvesting) q数据考古 (data archeology)2024/9/185高级人工智能 史忠植 2024/9/186高级人工智能 史忠植 知识发现的任务知识发现的任务Ø数据总结: 对数据进行总结与概括传统的最简单的数据总结方法是计算出数据库的各个字段上的求和值、平均值、方差值等统计值,或者用直方图、饼状图等图形方式表示 Ø分类:根据分类模型对数据集合分类分类属于有导师学习,一般需要有一个训练样本数据集作为输入Ø聚类:根据数据的不同特征,将其划分为不同的类无导师学习2024/9/187高级人工智能 史忠植 知识发现的任务知识发现的任务Ø相关性分析: 发现特征之间或数据之间的相互依赖关系关联规则 Ø偏差分析:基本思想是寻找观察结果与参照量之间的有意义的差别。

      通过发现异常, 可以引起人们对特殊情况的加倍注意 Ø建模:构造描述一种活动或状态的数学模型 2024/9/188高级人工智能 史忠植 知识发现的方法知识发现的方法Ø统计方法:ü传统方法: 回归分析、判别分析、聚类分析、探索性分析ü模糊集(fuzzy set) Zadeh 1965ü支持向量机(Support Vector Machine) Vapnik 90年代初ü粗糙集(Rough Set) Pawlak 80年代初2024/9/189高级人工智能 史忠植 知识发现的方法知识发现的方法Ø机器学习:ü规则归纳:AQ算法ü决策树:ID3、C4.5ü范例推理:CBRü遗传算法:GAü贝叶斯信念网络2024/9/1810高级人工智能 史忠植 知识发现的方法知识发现的方法Ø神经计算:神经网络是指一类新的计算模型,它是模仿人脑神经网络的结构和某些工作机制而建立的一种计算模型常用的模型:üHopfield网ü多层感知机ü自组织特征映射ü反传网络Ø可视化:2024/9/1811高级人工智能 史忠植 KDDKDD的技术难点的技术难点Ø动态变化的数据Ø噪声Ø数据不完整Ø冗余信息Ø数据稀疏Ø超大数据量2024/9/1812高级人工智能 史忠植 数据仓库数据仓库Ø 在过去几十年,数据库技术,特别是OLTP(联机事务处理),主要是为自动化生产、精简工作任务和高速采集数据服务。

      它是事务驱动的、面向应用的Ø 20世纪80年代,人们要利用现有的数据,进行分析和推理,从而为决策提供依据这种需求既要求联机服务,又涉及大量用于决策的数据而传统的数据库系统已无法满足这种需求:ü所需历史数据量很大,而传统数据库一般只存储短期数据ü涉及许多部门的数据,而不同系统的数据难以集成ü对大量数据的访问性能明显下降 2024/9/1813高级人工智能 史忠植 数据仓库的定义数据仓库的定义信息处理技术的发展趋势是:从大量的事务型数据库中抽取数据,并将其清理、转换为新的存储格随着此过程的发展和完善,这种九十年代初出现的支持决策的、特殊的数据存储即被称为数据仓库(Data Warehouse)Inmon将数据仓库明确定义为: 数据仓库(Data Warehouse)是面向主题的,集成的,内容相对稳定的、不同时间的数据集合,用以支持经营管理中的决策制定过程 2024/9/1814高级人工智能 史忠植 数据仓库的特征数据仓库的特征Ø 数据仓库中的数据是面向主题的 与传统数据库面向应用相对应的主题是一个在较高层次将数据归类的标准,每一个主题基本对应一个宏观的分析领域Ø 数据仓库中的数据是集成的 在数据进入数据仓库之前,必然要经过加工与集成。

      要统一原始数据中的所有矛盾之处,还要进行数据综合和计算2024/9/1815高级人工智能 史忠植 数据仓库的特征数据仓库的特征Ø 数据仓库中的数据是稳定的 数据仓库的数据主要供决策分析之用,所涉及的操作主要是数据查询,一般不进行修改操作 Ø 数据仓库中的数据又是随时间不断变化的 数据仓库的数据不是实时更新的,但并不是永远不变的,也要随着时间的变化不断地更新、增删和重新综合 更新周期 2024/9/1816高级人工智能 史忠植 元数据元数据元数据(Metadata)是关于数据的数据,它描述了数据的结构、内容、编码、索引等内容传统数据库中的数据字典是一种元数据,但在数据仓库中,元数据的内容比数据库中的数据字典更加丰富和复杂设计一个描述能力强、内容完善的元数据,是有效管理数据仓库的具有决定意义的重要前提 2024/9/1817高级人工智能 史忠植 元数据的重要性元数据的重要性Ø 数据仓库使用者往往将使用元数据作为分析的第一步元数据如同数据指示图,指出了数据仓库内各种信息的位置和含义 Ø 从操作型数据环境到数据仓库的数据转换是复杂的、多方面的,是数据仓库建设的关键性步骤,元数据要包含对这种转换的清晰描述,保证这种转换是正确、适当和合理的,并且是灵活可变的Ø元数据还管理粒度的划分、索引的建立以及抽取更新的周期等,以便管理好数据仓库中的大规模数据 2024/9/1818高级人工智能 史忠植 数据仓库的相关概念数据仓库的相关概念Ø事事实实表表(Fact):存储用户需要查询分析的数据,事实表中一般包含多个维(Dimension)和度量(Measurement)。

      Ø维维::代表了用户观察数据的特定视角,如:时间维、地区维、产品维等每一个维可划分为不同的层次来取值,如时间维的值可按年份、季度、月份来划分,描述了不同的查询层次Ø度量:是数据的实际意义,描述数据“是什么”,即一个数值的测量指标,如:人数、单价、销售量等 2024/9/1819高级人工智能 史忠植 数据仓库的建模模型数据仓库的建模模型 度量的实际数据存放在事实表中维的详细信息,如不同的层次划分和相应数据等在维表中存储,事实表中存放各个维的标识码键事实表和维表将通过这些键关联起来,构成一种星型模型 对于层次复杂的维,为避免冗余数据占用过大的存储空间,可以使用多个表来描述,这种星型模式的扩展称为雪花模型2024/9/1820高级人工智能 史忠植 OLAP数据仓库技术中,多维数据分析(Multidimensional Data Analysis)方法是一种重要的技术,也称作联机分析处理(On-Line Analytical Processing,简称OLAP)或数据立方体(Data Cube)方法,主要是指通过各种即席复杂查询,对数据仓库中存储的数据进行各种统计分析的应用 数据仓库是面向决策支持的,决策的前提是数据分析。

      在数据分析中经常要用到诸如求和、总计、平均、最大、最小等汇集操作,这类操作的计算量特别大 2024/9/1821高级人工智能 史忠植 OLAPOLAP的类型的类型ØROLAP:数据保留在原有的关系型结构中,并且将聚合表也存储在关系数据库, 在技术成熟及各方面的适应性上较之MOLAP占有一定的优势,性能较差ØMOLAP: 数据和聚合都存储在多维结构中,效率较高 ,便于进行优化操作维数多数据量大时,存储是难点ØHOALP: 数据保留在原有的关系型结构中,聚合存储在多维结构结合ROLAP和MOLAP两者的优点2024/9/1822高级人工智能 史忠植 OLAP的分析操作的分析操作OLAP的基本多维分析操作有钻取(roll up和drill down)、切片(slice)和切块(dice)、以及旋转(pivot)等Ø钻取是改变维的层次,变换分析的粒度它包括向上钻取和向下钻取roll up是在某一维上将低层次的细节数据概括到高层次的汇总数据;而drill down则相反,它从汇总数据深入到细节数据进行观察Ø切片和切块是在一部分维上选定值后,关心度量数据在剩余维上的分布如果剩余的维只有两个,则是切片,否则是切块 Ø旋转是变换维的方向,即在表格中重新安排维的放置(例如行列互换 2024/9/1823高级人工智能 史忠植 数据仓库和知识发现技术的结合数据仓库和知识发现技术的结合(1)(1) Ø 知识发现成为数据仓库中进行数据深层分析的一种必不可少的手段 数据仓库是面向决策分析的,数据仓库从事务型数据抽取并集成得到的分析型数据后,需要各种决策分析工具对这些数据进行分析和挖掘,得到有用的决策信息。

      而知识发现技术具备从大量数据中发现有用信息的能力2024/9/1824高级人工智能 史忠植 数据仓库和知识发现技术的结合数据仓库和知识发现技术的结合(2)(2) Ø 数据仓库为知识发现提供经过良好预处理的数据源 知识发现往往依赖于经过良好组织和预处理的数据源,数据的好坏直接影响知识发现的效果 数据仓库具有从各种数据源中抽取数据,并对数据进行清洗、聚集和转换等各种处理的能力2024/9/1825高级人工智能 史忠植 数据挖掘概念数据挖掘概念--------发展发展l1989 IJCAI会议:会议: 数据库中的知识发现讨论专题数据库中的知识发现讨论专题lKnowledge Discovery in Databases (G. Piatetsky-Shapiro and W. Frawley, 1991)l1991-1994 KDD讨论专题讨论专题lAdvances in Knowledge Discovery and Data Mining (U. Fayyad, G. Piatetsky-Shapiro, P. Smyth, and R. Uthurusamy, 1996)l1995-1998 KDD国际会议国际会议 (KDD’95-98)lJournal of Data Mining and Knowledge Discovery (1997)l1998 ACM SIGKDD, SIGKDD’1999-2002 会议会议,以及以及SIGKDD Explorationsl数据挖掘方面更多的国际会议数据挖掘方面更多的国际会议lPAKDD, PKDD, SIAM-Data Mining, (IEEE) ICDM, DaWaK, SPIE-DM, etc.2024/9/1826高级人工智能 史忠植 数据挖掘软件的发展数据挖掘软件的发展代代特征特征数据挖掘算法数据挖掘算法集成集成分布计算分布计算模型模型数据模型数据模型第一第一代代作为一个独作为一个独立的应用立的应用支持一个或者支持一个或者多个算法多个算法 独立的系统独立的系统单个机器单个机器向量数据向量数据第二第二代代和数据库以和数据库以及数据仓库及数据仓库集成集成多个算法:能多个算法:能够挖掘一次不够挖掘一次不能放进内存的能放进内存的数据数据数据管理系数据管理系统,包括数统,包括数据库和数据据库和数据仓库仓库同质、局同质、局部区域的部区域的计算机群计算机群集集有些系统支持有些系统支持对象对象, ,文本和文本和连续的媒体数连续的媒体数据据第三第三代代和预言模型和预言模型系统集成系统集成 多个算法多个算法数据管理和数据管理和预言模型系预言模型系统统intranet/extranet网网络计算络计算支持半结构化支持半结构化数据和数据和webweb数数据据第四第四代代和移动数据和移动数据/ /各种计算设各种计算设备的数据联备的数据联合合 多个算法多个算法数据管理、数据管理、预言模型、预言模型、移动系统移动系统移动和各移动和各种计算设种计算设备备普遍存在的计普遍存在的计算模型算模型 Robert Grossman,, National Center for Data Mining University of Illinois at Chicago 的观点的观点2024/9/1827高级人工智能 史忠植 数据挖掘软件的发展数据挖掘软件的发展第一代数据挖掘软件第一代数据挖掘软件l特点特点l支持一个或少数几个数据挖掘算法支持一个或少数几个数据挖掘算法 l挖掘向量数据(挖掘向量数据(vector-valued datavector-valued data)) l数据一般一次性调进内存进行处理数据一般一次性调进内存进行处理 l典型的系统如典型的系统如SalfordSalford Systems Systems公司早期的公司早期的CARTCART系统系统( (www.salford-www.salford-) ) l缺陷缺陷l如果数据足够大,并且频繁的变化,这就需要利用数据库如果数据足够大,并且频繁的变化,这就需要利用数据库或者数据仓库技术进行管理,第一代系统显然不能满足需或者数据仓库技术进行管理,第一代系统显然不能满足需求。

      求2024/9/1828高级人工智能 史忠植 数据挖掘软件的发展数据挖掘软件的发展第一代数据挖掘软件 CBA新加坡国立大学新加坡国立大学基于关联规则的分类算法,能从关系数据或者基于关联规则的分类算法,能从关系数据或者交易数据中挖掘关联规则,使用关联规则进行分类和预测交易数据中挖掘关联规则,使用关联规则进行分类和预测2024/9/1829高级人工智能 史忠植 数据挖掘软件的发展数据挖掘软件的发展第二代数据挖掘软件第二代数据挖掘软件l特点特点l与数据库管理系统(与数据库管理系统(DBMSDBMS))集成集成 l支持数据库和数据仓库,和它们具有高性能的接口,具有高的支持数据库和数据仓库,和它们具有高性能的接口,具有高的可扩展性可扩展性 l能够挖掘大数据集、以及更复杂的数据集能够挖掘大数据集、以及更复杂的数据集 l通过支持数据挖掘模式(通过支持数据挖掘模式(data mining schemadata mining schema))和数据挖掘查和数据挖掘查询语言增加系统的灵活性询语言增加系统的灵活性 l典型的系统如典型的系统如DBMinerDBMiner,,能通过能通过DMQLDMQL挖掘语言进行挖掘操作挖掘语言进行挖掘操作l缺陷缺陷l只注重模型的生成,如何和预言模型系统集成导致了第三代数只注重模型的生成,如何和预言模型系统集成导致了第三代数据挖掘系统的开发据挖掘系统的开发2024/9/1830高级人工智能 史忠植 数据挖掘软件的发展数据挖掘软件的发展第二代数据挖掘软件第二代数据挖掘软件 DBMiner2024/9/1831高级人工智能 史忠植 数据挖掘软件的发展数据挖掘软件的发展第二代软件第二代软件 SAS Enterprise Miner2024/9/1832高级人工智能 史忠植 数据挖掘软件的发展数据挖掘软件的发展第三代数据挖掘软件第三代数据挖掘软件l特点特点l和预言模型系统之间能够无缝的集成,使得由数据挖掘软件产和预言模型系统之间能够无缝的集成,使得由数据挖掘软件产生的模型的变化能够及时反映到预言模型系统中生的模型的变化能够及时反映到预言模型系统中 l由数据挖掘软件产生的预言模型能够自动地被操作型系统吸收,由数据挖掘软件产生的预言模型能够自动地被操作型系统吸收,从而与操作型系统中的预言模型相联合提供决策支持的功能从而与操作型系统中的预言模型相联合提供决策支持的功能 l能够挖掘网络环境下(能够挖掘网络环境下(Internet/ExtranetInternet/Extranet))的分布式和高度异的分布式和高度异质的数据,并且能够有效地和操作型系统集成质的数据,并且能够有效地和操作型系统集成 l缺陷缺陷l不能支持移动环境不能支持移动环境2024/9/1833高级人工智能 史忠植 数据挖掘软件的发展数据挖掘软件的发展第三代软件第三代软件 SPSS Clementine以PMML的格式提供与预言模型系统的接口2024/9/1834高级人工智能 史忠植 数据挖掘软件的发展数据挖掘软件的发展第四代数据挖掘软件第四代数据挖掘软件l特点特点l目前移动计算越发显得重要,将数据挖掘和移动计算相结合是目前移动计算越发显得重要,将数据挖掘和移动计算相结合是当前的一个研究领域。

      当前的一个研究领域 l第四代软件能够挖掘嵌入式系统、移动系统、和普适计算第四代软件能够挖掘嵌入式系统、移动系统、和普适计算((ubiquitousubiquitous))计算设备产生的各种类型的数据计算设备产生的各种类型的数据第四代数据挖掘原型或商业系统尚未见报导,第四代数据挖掘原型或商业系统尚未见报导,PKDD2001上上Kargupta发表了一篇在移动环境下挖掘决策树的论文,发表了一篇在移动环境下挖掘决策树的论文,Kargupta是马里兰巴尔的摩州立大学(是马里兰巴尔的摩州立大学(University of Maryland Baltimore County))正在研制的正在研制的CAREER数据挖掘数据挖掘项目的负责人,该项目研究期限是项目的负责人,该项目研究期限是2001年年4月到月到2006年年4月,目月,目的是开发挖掘分布式和普适计算(的是开发挖掘分布式和普适计算(Ubiquitous)设备的第四代)设备的第四代数据挖掘系统数据挖掘系统2024/9/1835高级人工智能 史忠植 史忠植 。

      点击阅读更多内容
      相关文档
      2025国开山东开大《土质学与土力学》形成性考核123答案+终结性考核答案.docx 中学综合素质知识点梳理【中学教师资格证】.docx 2025国开山东开大《特许经营概论》形成性考核123答案+终结性考核答案.doc 2025年高考英语全国一卷真题(含答案).docx 2025国开山东《农民专业合作社创建与管理》形成性考核123答案+终结性考核答案.docx 2025国开山东开大《自然现象探秘》形成性考核123答案+终结性考核答案.docx 2025国开山东《消费心理学》形成性考核123答案+终结性考核答案.doc 2025国开山东《小微企业管理》形成性考核123答案+终结性考核答案.doc 2025国开山东开大《资本经营》形成性考核123答案+终结性考试答案.docx 2025国开山东《小学生心理健康教育》形考123答案+终结性考试答案.docx 2025国开《视频策划与制作》形考任务1-4答案.docx 2025国开《亲子关系与亲子沟通》形考任务234答案+期末大作业答案.docx 2025国开电大《煤矿地质》形成性考核123答案.docx 2025国开电大《冶金原理》形考任务1234答案.docx 2025国开《在线学习项目运营与管理》形考任务1234答案.doc 2025国开电大《在线教育的理论与实践》阶段测验1-4答案.docx 2024 年注册环保工程师《专业基础考试》真题及答案解析【完整版】.docx 环保工程师---2023 年注册环保工程师《专业基础考试》真题及答案解析【完整版】.docx 2025国开《液压与气压传动》形考任务一参考答案.docx 2025年春江苏开放大学教育研究方法060616计分:形成性作业2、3答案.docx
      关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
      手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
      ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.