电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

数据挖掘与统计学应用

7页
  • 卖家[上传人]:kms****20
  • 文档编号:39830288
  • 上传时间:2018-05-20
  • 文档格式:DOC
  • 文档大小:37KB
  • / 7 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 1、数据挖掘与统计学应用.txt 让人想念而死,是谋杀的至高境界,就连法医也鉴定不出死因。 。 。 。 。 。数据挖掘与统计学应用一、关键词和摘要 关键词:统计学 数据挖掘 知识发现摘要: 1、数据挖掘与统计应用之间关系 统计学和数据挖掘有很多共同点,但与此同时它们也有很多差异。本文讨论了两门学科的性 质,重点论述它们的异同。 数据挖掘,顾名思义就是从大量的数据中挖掘出有用的信息。DM(数据挖掘)是揭示存在于 数据里的模式及数据间的关系的学科,它强调对大量观测到的数据库的处理。它是涉及数据 库管理,人工智能,机器学习,模式识别,及数据可视化等学科的边缘学科。用统计的观点 看,它可以看成是通过计算机对大量的复杂数据集的自动探索性分析。目前对该学科的作用 尽管有点夸大其词,但该领域对商业,工业,及科学研究都有极大的影响,且提供了大量的 为促使新方法的发展而进行的研究工作。尽管数据挖掘和统计分析之间有明显的联系,但迄 今为止大部分的数据挖掘方法都不是产生于统计学科。这篇文章对这一现象作了一些解释, 并说明了为什么统计学家应该关注数据挖掘。统计学可能会对数据挖掘产生很大影响,但这 可能要求统计学家

      2、们改变他们的一些基本思路及操作原则。 2、数据挖掘的发展前景 随着计算机应用的越来越广泛,每年都要积累大量的数据,运用数据挖掘技术在这些数据当 中我们可以找出“金子”来。数据挖掘技术主要又分成“关联规则” , “时间序列” “聚集” , “分类” , “估值”等这几类.据国外专家预测,在今后的 510 年内,随着数据量的日益积累以及计算机的广泛应 用,数据挖掘将在中国形成一个产业。2000 年 7 月 IDC 发布了关于信息存取工具市场的报 告,其中估计 1999 年的数据挖掘的市场大概是 7.5 亿美元,估计在下个 5 年内市场的年增 长率(Compound Annual Growth Rate)为 32.4%,其中亚太地区为 26.6%,并且预测此市场 在 2002 年时会达到 22 亿美元。二、简介 数据挖掘与统计学有着共同目标,但分析方法和性质不同 统计学和数据挖掘有着共同的目标:发现数据中的结构。事实上,由于它们的目标相似,一 些人(尤其是统计学家)认为数据挖掘是统计学的分支。这是一个不切合实际的看法。因为 数据挖掘还应用了其它领域的思想、工具和方法,尤其是计算机学科,例如数

      3、据库技术和机 器学习,而且它所关注的某些领域和统计学家所关注的有很大不同。统计学和数据挖掘研究目标的重迭自然导致了迷惑。事实上,有时候还导致了反感。 统计学有着正统的理论基础(尤其是经过本世纪的发展) ,而现在又出现了一个新的学科, 有新的主人,而且声称要解决统计学家们以前认为是他们领域的问题。这必然会引起关注。 更多的是因为这门新学科有着一个吸引人的名字,势必会引发大家的兴趣和好奇。把“数据 挖掘”这个术语所潜在的承诺和“统计学”作比较的话,统计的最初含义是“陈述事实” , 以及找出枯燥的大量数据背后的有意义的信息。当然,统计学的现代的含义已经有很大不同 的事实。而且,这门新学科同商业有特殊的关联(尽管它还有科学及其它方面的应用) 。本文的目的是逐个考察这两门学科的性质,区分它们的异同,并关注与数据挖掘相关 联的一些难题。首先,我们注意到“数据挖掘”对统计学家来说并不陌生。例如,Everitt 定义它为:“仅仅是考察大量的数据驱动的模型,从中发现最适合的” 。统计学家因而会忽 略对数据进行特别的分析,因为他们知道太细致的研究却难以发现明显的结构。尽管如此, 事实上大量的数据可能包含不

      4、可预测的但很有价值的结构。而这恰恰引起了注意,也是当前 数据挖掘的任务。 三、统计学的性质 统计学决不是数学的分支,而是一门独立学科 试图为统计学下一个太宽泛的定义是没有意义的。尽管可能做到,但会引来很多异议。相反, 我要关注统计学不同于数据挖掘的特性。 统计学决不是数学的分支,而是一门独立学科 统计学是一门比较保守的学科,目前有一种趋势是越来越精确。当然,这本身并不是坏事, 只有越精确才能避免错误,发现真理。但是如果过度的话则是有害的。这个保守的观点源于 统计学是数学的分支这样一个看法,我是不同意这个观点的.管统计学确实以数学为基础 (正如物理和工程也以数学为基础,但没有被认为是数学的分支) ,但它同其它学科还有紧 密的联系。数学背景和追求精确加强了这样一个趋势:在采用一个方法之前先要证明,而不 是象计算机科学和机器学习那样注重经验。这就意味着有时候和统计学家关注同一问题的其 它领域的研究者提出一个很明显有用的方法,但它却不能被证明(或还不能被证明) 。统计 杂志倾向于发表经过数学证明的方法而不是一些特殊方法。数据挖掘作为几门学科的综合, 已经从机器学习那里继承了实验的态度。这并不意

      5、味着数据挖掘工作者不注重精确,而只是 说明如果方法不能产生结果的话就会被放弃。 统计分析是以样本推断总体,而数据挖掘使用的往往是总体数据正是统计文献显示了(或夸 大了)统计的数学精确性。同时还显示了其对推理的侧重。尽管统计学的一些分支也侧重于 描述,但是浏览一下统计论文的话就会发现这些文献的核心问题就是在观察了样本的情况下 如何去推断总体。当然这也常常是数据挖掘所关注的。下面我们会提到数据挖掘的一个特定 属性就是要处理的是一个大数据集。这就意味着,由于可行性的原因,我们常常得到的只是 一个样本,但是需要描述样本取自的那个大数据集。然而,数据挖掘问题常常可以得到数据 总体,例如关于一个公司的所有职工数据,数据库中的所有客户资料,去年的所有业务。在 这种情形下,推断就没有价值了(例如,年度业务的平均值) ,因为观测到的值也 就是估计 参数。这就意味着,建立的统计模型可能会利用一系列概率表述(例如,一些参数接近于 0,则会从模型中剔除掉) ,但当总体数据可以获得的话,在数据挖掘中则变得毫无意义。在 这里,我们可以很方便的应用评估函数:针对数据的足够的表述。事实是,常常所关注的是 模型是否合适

      6、而不是它的可行性,在很多情形下,使得模型的发现很容易。例如,在寻找规 则时常常会利用吻合度的单纯特性( 例如,应用分支定理) 。但当我们应用概率陈述时则不 会得到这些特性。 统计应用和数据挖掘中模型的差别 统计学和数据挖掘部分交迭的第三个特性是在现代统计学中起核心作用的“模型” 。或许 “模型”这个术语更多的含义是变化。一方面,统计学模型是基于分析变量间的联系,但另 一方面这些模型关于数据的总体描述确实没有道理的。关于信用卡业务的回归模型可能会把 收入作为一个独立的变量,因为一般认为高收入会导致大的业务。这可能是一个理论模型 (尽管基于一个不牢靠的理论) 。与此相反,只需在一些可能具有解释意义的变量基础上进 行逐步的搜索,从而获得一个有很大预测价值的模型,尽管不能作出合理的解释。 (通过数 据挖掘去发现一个模型的时候,常常关注的就是后者) 。 还有其它方法可以区分统计模型, 但在这里我将不作探讨。这里我想关注的是,现代统计学是以模型为主的。而计算,模型选择条件是次要的,只是如何建立一个好的模型。但在数据挖掘中,却不完全是如此。在数据 挖掘中,准则起了核心的作用。 (当然在统计学中有一些

      7、以准则为中心的独立的特例。 数据挖掘接触到的大量数据中的偶然因素可以使统计方法失效 很多情况下,数据挖掘的本质是很偶然的发现非预期但很有价值的信息。这说明数据挖掘过 程本质上是实验性的。这和确定性的分析是不同的。 (实际上,一个人是不能完全确定一个 理论的,只能提供证据和不确定的证据。 )确定性分析着眼于最适合的模型建立一个推荐 模型,这个模型也许不能很好的解释观测到的数据。很多,或许是大部分统计分析提出的是 确定性的分析。然而,实验性的数据分析对于统计学并不是新生事务,或许这是统计学家应 该考虑作为统计学的另一个基石,而这已经是数据挖掘的基石。所有这些都是正确的,但事 实上,数据挖掘所遇到的数 据集按统计标准来看都是巨大的。在这种情况下,统计工具可 能会失效:百万个偶然因素可能就会使其失效。 统计分析之前需要准备大量数据,以期得到确定的目的;数据挖掘往往已有数据库,而目的 也是不确定的 如果数据挖掘的主要目的是发现,那它就不关心统计学领域中的在回答一个特定的问题之前, 如何很好的搜集数据,例如实验设计和调查设计。数据挖掘本质上假想数据已经被搜集好, 关注的只是如何发现其中的秘密。从数

      8、据学习的想法已经提出很长时间了。但在忽然之间人 们对数据挖掘的兴趣却变得如此强烈,这是为什么呢?主要原因是近来它与数据库管理领域 有了联系。数据,特别大量的数据保存在数据库管理系统中。传统的 DBMS 集中于在线转换 过程(OLTP n-line transaction processing);也就是数据组织的目的是存储并快速恢复 单个记录。它们过去常用来记录库存,薪水表记录,帐单记录,发货记录,等等。 最近,数据库管理界对将数据库管理系统用于决策支持越来越感兴趣。四、数据挖掘的性质 什么是数据挖掘? 数据挖掘的定义非常模糊,对它的定义取决于定义者的观点和背景。如下是一些 DM 文献中 的定义: 数据挖掘是一个确定数据中有效的,新的,可能有用的并且最终能被理解的模式 的重要过程。-Fayyad. 数据挖掘是一个从大型数据库中提取以前未知的,可理解的,可执行的信息并用它来进行关 键的商业决策的过程。-Zekulin. 数据挖掘是用在知识发现过程,来辩识存在于数据中的未知关系和模式的一些方法 。-Ferruzza 数据挖掘是发现数据中有益模式的过程。-Jonn 数据挖掘是我们为那些未知的信

      9、息模式而研究大型数据集的一个决策支持过程。 -Parsaye 数据挖掘是.决策树.神经网络.规则推断.最近邻方法.遗传算法-Mehta 虽然数据挖掘的这些定义有点不可触摸,但在目前它已经成为一种商业事业。如同在过去的 历次淘金热中一样,目标是开发矿工。利润最大的是卖工具给矿工,而不是干实际的开发。 数据挖掘这个概念被用作一种装备来出售计算机硬件和软件。硬件制造商强调数据挖掘需要 高的计算能力。必须存储,快速读写非常大的数据库,并将密集的计算方法用于这些数据。 这需要大容量的磁盘空间,快速的内置大量 RAM 的计算机。数据挖掘为这些硬件打开了新的 市场。软件提供者强调竞争优势。你的对手使用它,你最好得跟上。同时强调它将增加传统的数据库的价值。许多组织在处理存货,帐单,会计的数据库方面有大量的业务。 这些数据库的创建和维护都耗资巨大。现在只需要将相对少的投资用于数据挖掘工具,就可 以发现隐藏在这些数据中的具有极高利润的信息金块。当前数据挖掘产品的特点: -迷人的图形用户界面.数据库(查寻语言).一套数据分析过程-窗口形式的界面.灵活方便的输入-点击式按键 -输入对话框-利用图表分析-复杂的图形输出-大量数据图-灵活的图形解释 -树,网络,飞行模拟- 结果方便的处理。这些软件包对决策者来说就象数据挖掘专家。数据挖掘和计算机科学的联系 当前对数据挖掘的兴趣在学术界引发了一些议题。数据挖掘作为一种商业事业看上去很可行, 但它是否能被定为一种智能训练。当然它和计算机科学有极重要的联系。这些包括:.集聚体(ROLAP)的高效计算.快速的立体(X * X)查寻.为提高在线查寻的速度的线下预查寻.在线查寻的并行计算.将 DBMS 方法转化为数据挖掘算法。.基于磁盘而不是 RAM 的实现.基本数据挖掘算法的并行实现从统计数据分析的眼光我们可以问数据挖掘方法是否是智能训练。到目前为止,仍可 以说它是,也可以说不是。数据挖掘包中广为人知的程序来自机器学习,模式识别,神经网 络和数据可视化领域。它们强调看和感觉和感官性的存在。这样看上去并不是在意具体的 表现,而是要迅速占领市场。在这个领域中目前大部分的研究集中在改进当前的机器学习方 法和加速已存在的算法。然而,在将来数据挖掘几乎可以肯定地说是一种智

      《数据挖掘与统计学应用》由会员kms****20分享,可在线阅读,更多相关《数据挖掘与统计学应用》请在金锄头文库上搜索。

      点击阅读更多内容
    最新标签
    信息化课堂中的合作学习结业作业七年级语文 发车时刻表 长途客运 入党志愿书填写模板精品 庆祝建党101周年多体裁诗歌朗诵素材汇编10篇唯一微庆祝 智能家居系统本科论文 心得感悟 雁楠中学 20230513224122 2022 公安主题党日 部编版四年级第三单元综合性学习课件 机关事务中心2022年全面依法治区工作总结及来年工作安排 入党积极分子自我推荐 世界水日ppt 关于构建更高水平的全民健身公共服务体系的意见 空气单元分析 哈里德课件 2022年乡村振兴驻村工作计划 空气教材分析 五年级下册科学教材分析 退役军人事务局季度工作总结 集装箱房合同 2021年财务报表 2022年继续教育公需课 2022年公需课 2022年日历每月一张 名词性从句在写作中的应用 局域网技术与局域网组建 施工网格 薪资体系 运维实施方案 硫酸安全技术 柔韧训练 既有居住建筑节能改造技术规程 建筑工地疫情防控 大型工程技术风险 磷酸二氢钾 2022年小学三年级语文下册教学总结例文 少儿美术-小花 2022年环保倡议书模板六篇 2022年监理辞职报告精选 2022年畅想未来记叙文精品 企业信息化建设与管理课程实验指导书范本 草房子读后感-第1篇 小数乘整数教学PPT课件人教版五年级数学上册 2022年教师个人工作计划范本-工作计划 国学小名士经典诵读电视大赛观后感诵读经典传承美德 医疗质量管理制度 2 2022年小学体育教师学期工作总结
    关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
    手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
    ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.