电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

数据仓库与数据挖掘课件1_(13)

35页
  • 卖家[上传人]:bin****86
  • 文档编号:57574838
  • 上传时间:2018-10-23
  • 文档格式:PPT
  • 文档大小:403.50KB
  • / 35 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 1、2018年10月23日星期二,Data Mining: Concepts and Techniques,1,数据仓库与数据挖掘,任课教师:刘爱华 工作单位:信息技术系 办公地点:科技楼913 联系电话:13767658945 QQ号码:122471495 E-mail:,二十世纪末以来,全球信息量以惊人的速度急剧增长据估计,每二十个月将增加一倍。许多组织机构的IT系统中都收集了大量的数据(信息)。目前的数据库系统虽然可以高效地实现数据的录入、查询、统计等功能,但无法发现数据中存在的关系和规则,无法根据现有的数据预测未来的发展趋势。为了充分利用现有信息资源,从海量数据中找出隐藏的知识,数据挖掘技术应运而生并显示出强大的生命力。,Why?,Why?数据挖掘的社会需求,数据挖掘是八十年代投资AI研究项目失败后,AI转入实际应用时提出的。它是一个新兴的,面向商业应用的AI研究。1989年8月,在美国底特律召开的第11届国际人工智能联合会议的专题讨论会上首次出现数据库中的知识发现(Knowledge Discovery in Database,KDD)这一术语。随后,在1991年、1993年和1

      2、994年都举行KDD专题讨论会,汇集来自各个领域的研究人员和应用开发者,集中讨论数据统计、海量数据分析算法、知识表示、知识运用等问题。最初,数据挖掘是作为KDD中利用算法处理数据的一个步骤,其后逐渐演变成KDD的同义词。,概述,现在,人们往往不加区别地使用两者。KDD常常被称为数据挖掘(Data Mining),实际两者是有区别的。一般将KDD中进行知识学习的阶段称为数据挖掘(Data Mining),数据挖掘是KDD中一个非常重要的处理步骤。数据挖掘是近年来出现的客户关系管理(Customer Relationship Management, CRM)、商业智能(Business Intelligence, BI)等热点领域的核心技术之一。,概述,一种深层次的数据分析方法。数据分析本身已有多年的历史,只不过在过去数据收集和分析的一般目的是用于科学研究;另外,由于当时计算能力的限制,很难实现大量数据的复杂分析。现在,由于各行业业务自动化的实现,商业领域产生了大量的业务数据,这些数据并不是为了分析的目的而收集的,而是在商业运作过程中由于业务需要而自然产生的。,数据挖掘与传统分析方法的区别

      3、,数据挖掘与传统数据分析方法区别,(1)数据挖掘的数据源与以前相比有了显著的改变;数据是海量的;数据有噪声;数据可能是非结构化的; (2)传统的数据分析方法一般都是先给出一个假设然后通过数据验证,在一定意义上是假设驱动的;与之相反,数据挖掘在一定意义上是发现驱动的,模式都是通过大量的搜索工作从数据中自动提取出来 。即数据挖掘是要发现那些不能靠直觉发现的信息或知识,甚至是违背直觉的信息或知识,挖掘出的信息越是出乎意料,就可能越有价值。,在缺乏强有力的数据分析工具而不能分析这些资源的情况下,历史数据库也就变成了“数据坟墓”里面的数据几乎不再被访问。也就是说,极有价值的信息被“淹没”在海量数据堆中,领导者决策时还只能凭自己的经验和直觉。因此改进原有的数据分析方法,使之能够智能地处理海量数据,即演化为数据挖掘。,数据挖掘与传统数据分析方法区别,技术角度的定义数据挖掘(Data Mining)是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。与数据挖掘相近的同义词包括:数据融合、数据分析和决策支持等。这一定义包括好

      4、几层含义:数据源必须是真实的、海量的、含噪声的;发现的是用户感兴趣的知识;发现的知识要可接受、可理解、可运用;并不要求发现放之四海皆准的知识,仅支持特定的发现问题。,数据挖掘定义,商业角度的定义数据挖掘是一种新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性信息。简言之,数据挖掘其实是一类深层次的数据分析方法。因此,数据挖掘可以描述为:按企业既定业务目标,对大量的企业数据进行探索和分析,揭示隐藏的、未知的或验证己知的规律性,并进一步将其模型化的有效方法。,数据挖掘的演化,数据挖掘与其他科学的关系,数据挖掘作为一门新兴的交叉学科,涉及数据库系统、数据仓库、统计学、机器学习、可视化、信息检索和高性能计算等诸多领域。此外,还与神经网络、模式识别、空间数据分析、图像处理、信号处理、概率论、图论和归纳逻辑等等领域关系密切。,国外研究现状,IEEE的Knowledge and Data Engineering会刊率先在1993年出版了KDD技术专刊。并行计算、计算机网络和信息工程等其他领域的国际学会、学刊也把数据挖掘和知

      5、识发现列为专题和专刊讨论。数据挖掘已经成了国际学术研究的重要热点之一。此外,在Internet上还有不少KDD电子出版物,其中以半月刊Knowledge Discovery Nuggets最为权威(http:/ subscribe.html)。在网上还有许多自由论坛,如DM Email Club等。,国外研究现状,自1989年KDD术语出现以来,由美国人工智能协会主办的KDD国际研讨会已经召开了10次以上,规模由原来的专题讨论会发展到国际学术大会。而亚太地区也从1997开始举行PAKDD年会。,国内研究现状,与国外相比,国内对数据挖掘的研究起步稍晚,但发展势头强劲。1993年,国家自然科学基金首次资助复旦大学对该领域的研究项目。目前,国内的许多科研单位和高等院校竞相开展知识发现的基础理论及其应用研究。,发展趋势,近年来,数据挖掘的研究重点逐渐从发现方法转向系统应用,注重多种发现策略和技术的集成,以及多学科之间的相互渗透。例如,1998年在美国纽约举行的第四届知识发现与数据挖掘国际学术会议不仅进行了学术讨论,并且有30多家软件公司展示了他们的数据挖掘软件产品,不少软件已在北美、欧洲等国得

      6、到应用。,数据挖掘系统的典型结构,功能,1. 概念/类别描述(Concept/Class Description)概念/类别描述是指对数据集做一个简洁的总体性描述并/或描述它与某一对照数据集的差别。例1:我们收集移动电话费月消费额超出1000元的客户资料,然后利用数据挖掘进行分析,获得这类客户的总体性描述:3550岁,有工作,月收入5000元以上,拥有良好的信用度;,功能,2. 关联分析(Association Analysis)从一个项目集中发现关联规则,该规则显示了给定数据集中经常一起出现的属性值条件元组。例如:关联规则X=Y所表达的含义是满足X的数据库元组很可能满足Y。关联分析在交易数据分析、支持定向市场、商品目录设计和其他业务决策等方面有着广泛的应用。,功能,3. 分类与估值(Classification and Estimation)分类指通过分析一个类别已知的数据集的特征来建立一组模型,该模型可用以预测类别未知的数据项的类别。该分类模型可以表现为多种形式:分类规则(IF-THEN),决策树或者数学公式,乃至神经网络。估值与分类类似,只不过它要预测的不是类别,而是一个连续的数

      7、值。,功能,4. 聚类分析(Clustering Analysis)聚类分析又称为“同质分组”或者“无监督的分类”,指把一组数据分成不同的“簇”,每簇中的数据相似而不同簇间的数据则距离较远。相似性可以由用户或者专家定义的距离函数加以度量。好的聚类方法应保证不同类间数据的相似性尽可能地小,而类内数据的相似性尽可能地大。,功能,5. 时间序列分析(Time-Series Analysis)时间序列分析即预测(Prediction),是指通过对大量时间序列数据的分析找到特定的规则和感兴趣的特性,包括搜索相似序列或者子序列,挖掘序列模式、周期性、趋势和偏差。预测的目的是对未来的情况作出估计。,功能,6. 其它功能包括:偏差分析(Deviation Analysis)、孤立点分析(Outlier Analysis)等。随着数据挖掘技术的发展,可能还会继续出现新的数据挖掘功能。,展望,未来的热点应用领域,网站的数据挖掘(Web site data mining)生物信息或基因的数据挖掘 文本挖掘(Textual mining)多媒体挖掘,网站的数据挖掘(Web site data mining)当

      8、前Internet上各类电子商务网站风起云涌,电子商务业务的竞争比传统的业务竞争更加激烈。客户从一个电子商务网站转换到竞争对手那边,只需点击几下鼠标即可,电子商务环境下客户保持比传统商业更加困难。若想在竞争中生存进而获胜,您必须比竞争对手更了解客户。电子商务网站每天都可能有上百万次的在线交易,生成大量的记录文件(Log files)和登记表,如何对这些数据进行分析和挖掘,及时地了解客户的喜好、购买模式,甚至是客户一时的冲动,设计出满足于不同客户群体需要的个性化网站,进而增加竞争力,几乎变得势在必行。,网站的数据挖掘(Web site data mining)就分析和建立模型的技术和算法而言,网站的数据挖掘和原来的数据挖掘差别并不是特别大,很多方法和分析思想都可以运用。所不同的是网站的数据格式有很大一部分来自于点击流,和传统的数据库格式有区别。因而对电子商务网站进行数据挖掘所做的主要工作是数据准备。目前,有很多厂商正在致力于开发专门用于网站挖掘的软件。,生物信息或基因的挖掘生物信息或基因数据挖掘则完全属于另外一个领域,在商业上很难讲有多大的价值,但对于人类却受益非浅。例如,基因的组合千变

      9、万化,得某种病的人的基因和正常人的基因到底差别多大?能否找出其中不同的地方,进而对其不同之处加以改变,使之成为正常基因?这都需要数据挖掘技术的支持。对于生物信息或基因的数据挖掘和通常的数据挖掘相比,无论在数据的复杂程度、数据量还有分析和建立模型的算法方面,都要复杂得多。从分析算法上讲,更需要一些新的和高效的算法。现在很多厂商正在致力于这方面的研究。但就技术和软件而言,还远没有达到成熟的地步。,文本挖掘(Textual mining)文本挖掘是人们关心的另外一个话题。例如,在客户服务中心,把同客户的谈话转化为文本数据,再对这些数据进行挖掘,进而了解客户对服务的满意程度和客户的需求以及客户之间的相互关系等信息。无论是在数据结构还是在分析处理方法方面,文本数据挖掘和数据挖掘相差很大。文本挖掘并不是一件容易的事情,尤其是在分析方法方面,还有很多需要研究的专题。目前市场上有一些类似的软件,但大部分方法只是把文本移来移去,或简单地计算一下某些词汇的出现频率,并没有真正实现语义上的分析功能。,多媒体挖掘(Multimeadia Mining)基于描述的检索系统 基于图像的描述创建索引并实现对象检索,

      10、如关键字、标题、尺寸和创建时间等; 人工实现则极为费时、费力 ; 自动实现则往往结果不理想。 基于内容的检索系统 支持基于图像内容的检索,例如颜色、质地、形状、对象及小波变换,总结,数据仓库(DW)是利用数据资源提供决策支持。在数据仓库中利用多维数据分析来发现问题,并找出产生的原因。能从大量历史数据中预测未来。 数据挖掘(DM)是从数据中挖掘出信息和知识。,数据的特征,大容量 POS数据(某个超市每天要处理高达2000万笔交易) 卫星图象(NASA的地球观测卫星以每小时50GB的速度发回数据) 互联网数据 含噪音(不完全、不正确) 异质数据(多种数据类型混合的数据源,来自互联网的数据是典型的例子),数据仓库、数据挖掘和联机分析处理(OLAP)结合起来,完成支持决策的系统,称为决策支持系统(DSS)。数据仓库、数据挖掘、联机分析处理等结合起来的技术称为商业智能(BI)。商业智能是一种新的智能技术,它区别于人工智能(AI)和计算智能(CI)。,按数据仓库的形成过程来讲述它的内容: 从数据库到数据仓库以及对比; 从联机事务处理OLTP到联机分析处理OLAP以及对比,用它们的对比来突出数据仓库决策支持的作用用。这种讲述,既便利掌握它们的连贯性,又能掌握数据仓 的新特点。,

      《数据仓库与数据挖掘课件1_(13)》由会员bin****86分享,可在线阅读,更多相关《数据仓库与数据挖掘课件1_(13)》请在金锄头文库上搜索。

      点击阅读更多内容
    TA的资源
  • 高考语文第一轮总复习 同步测试卷(五)实用类文本阅读课件

    高考语文第一轮总复习 同步测试卷(五)实用类文本阅读课件

  • 高考语文第一轮总复习 写作总论课件

    高考语文第一轮总复习 写作总论课件

  • 高考语文大一轮复习 第5部分 论述类文本阅读 第一节 理解文中重要词句含意2大考点课件

    高考语文大一轮复习 第5部分 论述类文本阅读 第一节 理解文中重要词句含意2大考点课件

  • 高考语文大一轮复习 第3部分 古代诗文阅读 专题三 默写常见的名句名篇课件

    高考语文大一轮复习 第3部分 古代诗文阅读 专题三 默写常见的名句名篇课件

  • 高考语文大一轮复习 第3部分 古代诗文阅读 专题二 第四节 鉴赏诗歌的艺术技巧课件

    高考语文大一轮复习 第3部分 古代诗文阅读 专题二 第四节 鉴赏诗歌的艺术技巧课件

  • 高中物理 第四章 力与运动 第一节 伽利略的理想实验与牛顿第一定律课件 粤教版必修1

    高中物理 第四章 力与运动 第一节 伽利略的理想实验与牛顿第一定律课件 粤教版必修1

  • 高中物理 第三章 研究物体间的相互作用 第三节 力的等效和替代课件 粤教版必修1

    高中物理 第三章 研究物体间的相互作用 第三节 力的等效和替代课件 粤教版必修1

  • 高中物理 第一章 运动的描述 第五节 速度变化的快慢 加速度课件 粤教版必修1

    高中物理 第一章 运动的描述 第五节 速度变化的快慢 加速度课件 粤教版必修1

  • 高中物理 第2章 能的转化与守恒章末复习方案与全优评估课件 鲁科版必修2

    高中物理 第2章 能的转化与守恒章末复习方案与全优评估课件 鲁科版必修2

  • 高中物理 42 实验:探究加速度与力、质量的关系课件 新人教版必修1

    高中物理 42 实验:探究加速度与力、质量的关系课件 新人教版必修1

  • 高中物理 31《受力分析》课件 新人教版必修1

    高中物理 31《受力分析》课件 新人教版必修1

  • 高中物理 22 匀变速直线运动的速度与时间的关系课件 新人教版必修1

    高中物理 22 匀变速直线运动的速度与时间的关系课件 新人教版必修1

  • 高中物理 14 用打点计时器测速度课件 新人教版必修1

    高中物理 14 用打点计时器测速度课件 新人教版必修1

  • 高中数学第一章导数及其应用1_5_1曲边梯形的面积课件新人教a版选修2_2

    高中数学第一章导数及其应用1_5_1曲边梯形的面积课件新人教a版选修2_2

  • 高中数学 第二章 随机变量及其分布 24 正态分布课件 新人教a版选修2-31

    高中数学 第二章 随机变量及其分布 24 正态分布课件 新人教a版选修2-31

  • 高中数学 第四章 圆与方程 42_1 直线与圆的位置关系课件 新人教a版必修21

    高中数学 第四章 圆与方程 42_1 直线与圆的位置关系课件 新人教a版必修21

  • 高中数学 第二章 随机变量及其分布 21_2 离散型随机变量的分布列(2)课件 新人教a版选修2-31

    高中数学 第二章 随机变量及其分布 21_2 离散型随机变量的分布列(2)课件 新人教a版选修2-31

  • 高中数学 第二章 统计 23_2 两个变量的线性相关课件 新人教a版必修3

    高中数学 第二章 统计 23_2 两个变量的线性相关课件 新人教a版必修3

  • 高中数学 第二章 统计 22_1 用样本的频率分布估计总体分布课件 新人教a版必修3

    高中数学 第二章 统计 22_1 用样本的频率分布估计总体分布课件 新人教a版必修3

  • 高中数学 第二章 统计 21_3 分层抽样课件2 新人教a版必修31

    高中数学 第二章 统计 21_3 分层抽样课件2 新人教a版必修31

  • 点击查看更多
    最新标签
    发车时刻表 长途客运 入党志愿书填写模板精品 庆祝建党101周年多体裁诗歌朗诵素材汇编10篇唯一微庆祝 智能家居系统本科论文 心得感悟 雁楠中学 20230513224122 2022 公安主题党日 部编版四年级第三单元综合性学习课件 机关事务中心2022年全面依法治区工作总结及来年工作安排 入党积极分子自我推荐 世界水日ppt 关于构建更高水平的全民健身公共服务体系的意见 空气单元分析 哈里德课件 2022年乡村振兴驻村工作计划 空气教材分析 五年级下册科学教材分析 退役军人事务局季度工作总结 集装箱房合同 2021年财务报表 2022年继续教育公需课 2022年公需课 2022年日历每月一张 名词性从句在写作中的应用 局域网技术与局域网组建 施工网格 薪资体系 运维实施方案 硫酸安全技术 柔韧训练 既有居住建筑节能改造技术规程 建筑工地疫情防控 大型工程技术风险 磷酸二氢钾 2022年小学三年级语文下册教学总结例文 少儿美术-小花 2022年环保倡议书模板六篇 2022年监理辞职报告精选 2022年畅想未来记叙文精品 企业信息化建设与管理课程实验指导书范本 草房子读后感-第1篇 小数乘整数教学PPT课件人教版五年级数学上册 2022年教师个人工作计划范本-工作计划 国学小名士经典诵读电视大赛观后感诵读经典传承美德 医疗质量管理制度 2 2022年小学体育教师学期工作总结 2022年家长会心得体会集合15篇
    关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
    手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
    ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.