好文档就是一把金锄头!
欢迎来到金锄头文库![会员中心]
电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

知识发现与数据挖掘概述.docx

6页
  • 卖家[上传人]:re****.1
  • 文档编号:547186621
  • 上传时间:2023-11-08
  • 文档格式:DOCX
  • 文档大小:62.31KB
  • / 6 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 知识发现与数据挖掘概述摘要:数据挖掘(Data Mining),就是从存放在数据库,数据仓库或其他信息库中的大量 的数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程关键字:知识发现数据挖掘神经网络决策树引言知识发现与数据挖掘是人工智能,机器学习与数据库技术相结合的产物随着数据 库技术的成熟和数据应用的普及,人类积累的数据量正在以指数速度迅速增长进入九 十年代,伴随着互联网的出现和发展,以及各种局域网的产生和应用,将整个世界联成 一个小小的地球村,人们可以跨越时空地在网上交换数据信息和协同工作由于计算机 数据采集工具以及关系数据库技术的发展,各行业存储了大量的数据,而关系数据库提 供的简单查询及报表生成功能,只能获得数据的表层信息,而不能获得数据属性的内在 关系和隐含的信息,这样既淹没了包含的知识又造成了资源的浪费传统的数据分析手 段更是难以应付,导致越来越严重的数据灾难,使决策者出现或是穷于应付,或是置之 不理的事实为了使消耗大量财力与物力所收集与整理的宝贵数据资源得以利用,有效 解决数据丰富性及知识贫乏性的矛盾,需要新技术智能、自动地分析处理原始数据,促 使了数据库中的知识发现(KDD, Knowledge Discovery in Database),也有人称为数 据挖掘(Data Mining)技术的出现。

      从数据库中发现知识(Knowledge Discovery in Database-KDD)—词是于1989年8月在美国底特律召开的第一届KDD国际学术会议上 正式形成的1995年在加拿大召开了第一届知识发现和数据挖掘(Data Mining—DM,有 人翻译为数据挖掘、数据发掘、数据采掘)国际学术会议1、数据挖掘技术的概念1.1知识发现的概念KDD (知识发现)是一个综合的过程,它包括数据录入、迭代求解、用户交互以及许 多定制要求和决策设计等,这一研究领域兴起于八十年代初,它是一个众多学科诸如人 工智能、机器学习、模式识别、统计学、数据库和知识库、数据可视化等相互交叉、融 合所形成的一个新兴的且具有广阔前景的领域在 KDD-96 国际会议上,Fayyad, Piatetsky-Shapiro 和 Smyth 对 KDD 作了如下描述: 指从数据库中识别并获取获取正确、新颖、有潜在应用价值和最终可理解的模式的非平 凡过程在这个描述中,数据库是一系列数据事实的集合模式即知识,它给出了数据特性或数据之间的关系,是对数据所包含的信息更抽象的描述按功能可以分为预测 型模式和描述型模式在实际应用中,可以细分为关联模式、分类模式、聚类模式和序 列模式等。

      过程是在KDD中包含的多阶段的处理,如数据的预处理、模式搜索、知识表 示及知识评价等最终可理解性则要求发现的模式能被用户理解,目前它主要体现在简 洁性上非平凡是指它已经超越了一般封闭形式的数量计算,而将包括对结构、模式和 参数的搜索1.2数据挖掘的对象数据挖掘的对象主要是关系数据库随着数据开采技术的发展,逐步进入到空间数 据库,时态数据库,文本数据库,多媒体数据库,环球互联网等文字、音频、图象、 视频等多媒体数据已逐渐成为信息领域的重要表现形式音频、视频的数据量很大,要 从千万计的多媒体数据中找出需要的数据和信息是很困难的目前,对多媒体数据的处 理只能在存取,编辑,集成,快进快退等基本操作上,对多媒体信息的检索仅靠文件标 识、关键字等进行检索,局限性很大目前,基于内容的多媒体检索,通过实例的查询 方式,检索相似图象,音频,视频信息的应用已经相当成熟基于内容的音频、视频信 息的聚类、分类、相似查询等数据挖掘技术,已成为研究的热点1.3 KDD过程的一般步骤KDD过程由多个阶段的处理相互连接起来,反复进行人机交互过程,一般有数据的 预处理、模式搜索、知识表示及知识评价等KDD过程一般如图2.1可视化抽样选取预处理预处理数据目标数据转换后的数据数据挖掘抽取的信息有用知识转换解释与评价图2.1由上图知,知识发现的过程可粗略的理解为三部曲:数据准备(Data preparation) 阶段、数据挖掘(Data mining)阶段以及模型的解释评估(interpreparation and evaluation)阶段。

      1.4数据发掘与知识发现的关系从知识发现的概念及步骤中,我们可以看出,其实知识发现的核心就是数据发掘, 而数据发掘的目的就是有效地从海量数据中提取出需要的知识,实现从数据到信息再到 知识转变为价值的过程并非所有的知识发现任务都被视为数据挖掘例如,使用数据库管理系统查找个别的记 录,或通过因特网的搜索引擎查找特定的互联网页面,则是信息检索领域的任务虽然 这些任务是重要的,可能涉及使用复杂的算法和数据结构,但是它们主要依赖传统的计 算机科学技术和数据的明显特征来创建索引结构,从而有效地组织和检索信息尽管如 此,数据挖掘技术也具有增强信息检索系统的能力,这样一来,就把人们对数据的应用, 从低层次的末端查询操作,提高到为各级决策者提供决策支持的高级层面2、 知识发现的主要阶段2.1 数据准备(Data prepara tion)KDD的处理对象是大量的数据,往往并不直接在这些数据上进行知识发现,需要做 些准备工作数据准备一方面是从多种数据源去综合所需要的数据,保证数据的综合性、 易用性以及数据的质量和数据的时效性;另一方面就是如何从现有的数据中衍生出所需 要数据的指标如果KDD的对象是数据库,呢么这些工作往往在生成数据库时已经准备 就绪。

      数据准备是KDD的第一个阶段,也是比较重要的一个阶段,因为数据准备得好坏 将直接影响到数据挖掘的效率、准确度以及最终模型的有效性2.2 数据挖掘(Data mining)数据挖掘的任务就是从数据中发现模式和规律根据KDD的目标,数据挖掘阶段需 要分析数据结构、设计搜索策略、选取相应的参数、评价各搜索阶段的假设和结果,得 到可能形成知识的模型数据挖掘是KDD的关键阶段,也是最困难的阶段在构造具体的算法时往往涉及统计学、 机器学习、模式识别、神经网络、演化计算等多个领域,涉及这些领域的技术融合与创 新事实上,数据挖掘就是一个利用各种分析工具在海量数据中发现模型和数据间关系 的过程2.3 模型的解释评估(interpreparation and evaluation)上述阶段所获得的模型,有可能没有实际意义或没有使用价值,因此需要评估哪些 是有效模型评估工作可以根据用户的要求来做,也可以通过数据检验这个阶段还包 括把符合实际并有价值的模型以易于理解的方式呈现给用户,这些呈现方式可以是语言 文字报告、函数解析表达式,也可以是图表、图形、决策树等3、 数据挖掘的方法和技术数据开采方法是由人工智能、机器学习的方法发展而来,结合传统的统计分析方法、 模糊数学方法以及科学计算可视化技术,以数据库为研究对象,形成了数据开采方法和 技术。

      3.1神经网络方法神经网络(NerualNe t)指由大量神经元互连而成的网络,是模拟人脑的一类系统,有点 象服务器互连而成的互连网人脑大约有1000亿个神经元,每个神经元平均与10000 个其他神经元互连,这就构成了人类智慧的直接物质基础神经元由细胞体,树突(输 入端),轴突(输出端)组成,有兴奋和抑制两种工作状态每个神经元到另一个神经 元的连接权(后者对前者输出的反应程度)可以接受外界刺激而改变,这构成了学习机 能的基础图3.1人工模拟了神经网络结构:人工神经网络首先要以一定的学习准则进行学习,然后才能工作现以人工神经网 络对手写“A”、“B”两个字母的识别为例进行说明,规定当“A”输入网络时,应该输 出“1”,而当输入为“B”时,输出为“0”所以网络学习的准则应该是:如果网络作 出错误的的判决,则通过网络的学习,应使得网络减少下次犯同样错误的可能性首先, 给网络的各连接权值赋予(0,1)区间内的随机值,将“A”所对应的图象模式输入给网 络,网络将输入模式加权求和、与门限比较、再进行非线性运算,得到网络的输出在 此情况下,网络输出为“1”和“0”的概率各为50%,也就是说是完全随机的。

      这时如 果输出为“1”(结果正确),则使连接权值增大,以便使网络再次遇到“A”模式输入时, 仍然能作出正确的判断如果输出为“ 0”(结果错误),则把网络连接权值朝着减小综 合输入加权值的方向调整,其目的在于使网络下次再遇到“A”模式输入时,减小犯同 样错误的可能性如此操作调整,当给网络轮番输入若干个手写字母“A”、“B”后,经 过网络按以上学习方法进行若干次学习后,网络判断的正确率将大大提高这说明网络 对这两个模式的学习已经获得了成功,它已将这两个模式分布地记忆在网络的各个连接 权值上当网络再次遇到其中任何一个模式时,能够作出迅速、准确的判断和识别一 般来说,网络中所含的神经元个数越多,则它能记忆、识别的模式也就越多神经网 络模型利用大量的简单计算单元(神经元)连成网络,从而可以实现大规模并行计算; 其分布式的存储结构,将信息存在整个网中,用权值体现出来,因而具有联想能力,可 以从一个不完整的信息恢复出完整信息其工作机理是通过学习来改变神经元之间的连 接强度常用神经网络模型有:Hopfield Net、Harmming Net、Carpenter/Grossberg 分 类器、单层感知网、多层感知网、Kohonen的自组织特性图和反向传播(BP)网络。

      3.2决策树方法决策树方法是应用最广泛的归纳学习所谓决策树就是一棵树,树的根节点是整个 数据集合空间,每个分节点是对一个单一变量的测试,该测试将数据集合空间分割成两 个或更多块每个叶节点是属于单一类别的记录首先,通过训练集生成决策树,再通 过测试集对决策树进行修剪决策树的功能是预言一个新的记录属于哪一类4、结语数据挖掘技术正飞速发展,但它仍有许多基本问题没有解决,还缺少系统、完整、 统一的理论框架,缺少它独有的方法论,缺少综合多个学科优势所形成的有效手段因 此这里有机遇,更有挑战数据挖掘当前发展所面临的核心问题有大数据集与高维、用 户界面与先验知识、过拟合问题等参考文献[1]。

      点击阅读更多内容
      关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
      手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
      ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.