电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本
换一换
首页 金锄头文库 > 资源分类 > DOC文档下载
分享到微信 分享到微博 分享到QQ空间

数据挖掘与统计学应用

  • 资源ID:39830288       资源大小:37KB        全文页数:7页
  • 资源格式: DOC        下载积分:10金贝
快捷下载 游客一键下载
账号登录下载
微信登录下载
三方登录下载: 微信开放平台登录   支付宝登录   QQ登录  
二维码
微信扫一扫登录
下载资源需要10金贝
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
如填写123,账号就是123,密码也是123。
支付方式: 支付宝    微信支付   
验证码:   换一换

 
账号:
密码:
验证码:   换一换
  忘记密码?
    
1、金锄头文库是“C2C”交易模式,即卖家上传的文档直接由买家下载,本站只是中间服务平台,本站所有文档下载所得的收益全部归上传人(卖家)所有,作为网络服务商,若您的权利被侵害请及时联系右侧客服;
2、如你看到网页展示的文档有jinchutou.com水印,是因预览和防盗链等技术需要对部份页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有jinchutou.com水印标识,下载后原文更清晰;
3、所有的PPT和DOC文档都被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;下载前须认真查看,确认无误后再购买;
4、文档大部份都是可以预览的,金锄头文库作为内容存储提供商,无法对各卖家所售文档的真实性、完整性、准确性以及专业性等问题提供审核和保证,请慎重购买;
5、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据;
6、如果您还有什么不清楚的或需要我们协助,可以点击右侧栏的客服。
下载须知 | 常见问题汇总

数据挖掘与统计学应用

数据挖掘与统计学应用.txt 让人想念而死,是谋杀的至高境界,就连法医也鉴定不出死因。 。 。 。 。 。数据挖掘与统计学应用一、关键词和摘要 关键词:统计学 数据挖掘 知识发现摘要: 1、数据挖掘与统计应用之间关系 统计学和数据挖掘有很多共同点,但与此同时它们也有很多差异。本文讨论了两门学科的性 质,重点论述它们的异同。 数据挖掘,顾名思义就是从大量的数据中挖掘出有用的信息。DM(数据挖掘)是揭示存在于 数据里的模式及数据间的关系的学科,它强调对大量观测到的数据库的处理。它是涉及数据 库管理,人工智能,机器学习,模式识别,及数据可视化等学科的边缘学科。用统计的观点 看,它可以看成是通过计算机对大量的复杂数据集的自动探索性分析。目前对该学科的作用 尽管有点夸大其词,但该领域对商业,工业,及科学研究都有极大的影响,且提供了大量的 为促使新方法的发展而进行的研究工作。尽管数据挖掘和统计分析之间有明显的联系,但迄 今为止大部分的数据挖掘方法都不是产生于统计学科。这篇文章对这一现象作了一些解释, 并说明了为什么统计学家应该关注数据挖掘。统计学可能会对数据挖掘产生很大影响,但这 可能要求统计学家们改变他们的一些基本思路及操作原则。 2、数据挖掘的发展前景 随着计算机应用的越来越广泛,每年都要积累大量的数据,运用数据挖掘技术在这些数据当 中我们可以找出“金子”来。数据挖掘技术主要又分成“关联规则” , “时间序列” “聚集” , “分类” , “估值”等这几类.据国外专家预测,在今后的 510 年内,随着数据量的日益积累以及计算机的广泛应 用,数据挖掘将在中国形成一个产业。2000 年 7 月 IDC 发布了关于信息存取工具市场的报 告,其中估计 1999 年的数据挖掘的市场大概是 7.5 亿美元,估计在下个 5 年内市场的年增 长率(Compound Annual Growth Rate)为 32.4%,其中亚太地区为 26.6%,并且预测此市场 在 2002 年时会达到 22 亿美元。二、简介 数据挖掘与统计学有着共同目标,但分析方法和性质不同 统计学和数据挖掘有着共同的目标:发现数据中的结构。事实上,由于它们的目标相似,一 些人(尤其是统计学家)认为数据挖掘是统计学的分支。这是一个不切合实际的看法。因为 数据挖掘还应用了其它领域的思想、工具和方法,尤其是计算机学科,例如数据库技术和机 器学习,而且它所关注的某些领域和统计学家所关注的有很大不同。统计学和数据挖掘研究目标的重迭自然导致了迷惑。事实上,有时候还导致了反感。 统计学有着正统的理论基础(尤其是经过本世纪的发展) ,而现在又出现了一个新的学科, 有新的主人,而且声称要解决统计学家们以前认为是他们领域的问题。这必然会引起关注。 更多的是因为这门新学科有着一个吸引人的名字,势必会引发大家的兴趣和好奇。把“数据 挖掘”这个术语所潜在的承诺和“统计学”作比较的话,统计的最初含义是“陈述事实” , 以及找出枯燥的大量数据背后的有意义的信息。当然,统计学的现代的含义已经有很大不同 的事实。而且,这门新学科同商业有特殊的关联(尽管它还有科学及其它方面的应用) 。本文的目的是逐个考察这两门学科的性质,区分它们的异同,并关注与数据挖掘相关 联的一些难题。首先,我们注意到“数据挖掘”对统计学家来说并不陌生。例如,Everitt 定义它为:“仅仅是考察大量的数据驱动的模型,从中发现最适合的” 。统计学家因而会忽 略对数据进行特别的分析,因为他们知道太细致的研究却难以发现明显的结构。尽管如此, 事实上大量的数据可能包含不可预测的但很有价值的结构。而这恰恰引起了注意,也是当前 数据挖掘的任务。 三、统计学的性质 统计学决不是数学的分支,而是一门独立学科 试图为统计学下一个太宽泛的定义是没有意义的。尽管可能做到,但会引来很多异议。相反, 我要关注统计学不同于数据挖掘的特性。 统计学决不是数学的分支,而是一门独立学科 统计学是一门比较保守的学科,目前有一种趋势是越来越精确。当然,这本身并不是坏事, 只有越精确才能避免错误,发现真理。但是如果过度的话则是有害的。这个保守的观点源于 统计学是数学的分支这样一个看法,我是不同意这个观点的.管统计学确实以数学为基础 (正如物理和工程也以数学为基础,但没有被认为是数学的分支) ,但它同其它学科还有紧 密的联系。数学背景和追求精确加强了这样一个趋势:在采用一个方法之前先要证明,而不 是象计算机科学和机器学习那样注重经验。这就意味着有时候和统计学家关注同一问题的其 它领域的研究者提出一个很明显有用的方法,但它却不能被证明(或还不能被证明) 。统计 杂志倾向于发表经过数学证明的方法而不是一些特殊方法。数据挖掘作为几门学科的综合, 已经从机器学习那里继承了实验的态度。这并不意味着数据挖掘工作者不注重精确,而只是 说明如果方法不能产生结果的话就会被放弃。 统计分析是以样本推断总体,而数据挖掘使用的往往是总体数据正是统计文献显示了(或夸 大了)统计的数学精确性。同时还显示了其对推理的侧重。尽管统计学的一些分支也侧重于 描述,但是浏览一下统计论文的话就会发现这些文献的核心问题就是在观察了样本的情况下 如何去推断总体。当然这也常常是数据挖掘所关注的。下面我们会提到数据挖掘的一个特定 属性就是要处理的是一个大数据集。这就意味着,由于可行性的原因,我们常常得到的只是 一个样本,但是需要描述样本取自的那个大数据集。然而,数据挖掘问题常常可以得到数据 总体,例如关于一个公司的所有职工数据,数据库中的所有客户资料,去年的所有业务。在 这种情形下,推断就没有价值了(例如,年度业务的平均值) ,因为观测到的值也 就是估计 参数。这就意味着,建立的统计模型可能会利用一系列概率表述(例如,一些参数接近于 0,则会从模型中剔除掉) ,但当总体数据可以获得的话,在数据挖掘中则变得毫无意义。在 这里,我们可以很方便的应用评估函数:针对数据的足够的表述。事实是,常常所关注的是 模型是否合适而不是它的可行性,在很多情形下,使得模型的发现很容易。例如,在寻找规 则时常常会利用吻合度的单纯特性( 例如,应用分支定理) 。但当我们应用概率陈述时则不 会得到这些特性。 统计应用和数据挖掘中模型的差别 统计学和数据挖掘部分交迭的第三个特性是在现代统计学中起核心作用的“模型” 。或许 “模型”这个术语更多的含义是变化。一方面,统计学模型是基于分析变量间的联系,但另 一方面这些模型关于数据的总体描述确实没有道理的。关于信用卡业务的回归模型可能会把 收入作为一个独立的变量,因为一般认为高收入会导致大的业务。这可能是一个理论模型 (尽管基于一个不牢靠的理论) 。与此相反,只需在一些可能具有解释意义的变量基础上进 行逐步的搜索,从而获得一个有很大预测价值的模型,尽管不能作出合理的解释。 (通过数 据挖掘去发现一个模型的时候,常常关注的就是后者) 。 还有其它方法可以区分统计模型, 但在这里我将不作探讨。这里我想关注的是,现代统计学是以模型为主的。而计算,模型选择条件是次要的,只是如何建立一个好的模型。但在数据挖掘中,却不完全是如此。在数据 挖掘中,准则起了核心的作用。 (当然在统计学中有一些以准则为中心的独立的特例。 数据挖掘接触到的大量数据中的偶然因素可以使统计方法失效 很多情况下,数据挖掘的本质是很偶然的发现非预期但很有价值的信息。这说明数据挖掘过 程本质上是实验性的。这和确定性的分析是不同的。 (实际上,一个人是不能完全确定一个 理论的,只能提供证据和不确定的证据。 )确定性分析着眼于最适合的模型建立一个推荐 模型,这个模型也许不能很好的解释观测到的数据。很多,或许是大部分统计分析提出的是 确定性的分析。然而,实验性的数据分析对于统计学并不是新生事务,或许这是统计学家应 该考虑作为统计学的另一个基石,而这已经是数据挖掘的基石。所有这些都是正确的,但事 实上,数据挖掘所遇到的数 据集按统计标准来看都是巨大的。在这种情况下,统计工具可 能会失效:百万个偶然因素可能就会使其失效。 统计分析之前需要准备大量数据,以期得到确定的目的;数据挖掘往往已有数据库,而目的 也是不确定的 如果数据挖掘的主要目的是发现,那它就不关心统计学领域中的在回答一个特定的问题之前, 如何很好的搜集数据,例如实验设计和调查设计。数据挖掘本质上假想数据已经被搜集好, 关注的只是如何发现其中的秘密。从数据学习的想法已经提出很长时间了。但在忽然之间人 们对数据挖掘的兴趣却变得如此强烈,这是为什么呢?主要原因是近来它与数据库管理领域 有了联系。数据,特别大量的数据保存在数据库管理系统中。传统的 DBMS 集中于在线转换 过程(OLTP n-line transaction processing);也就是数据组织的目的是存储并快速恢复 单个记录。它们过去常用来记录库存,薪水表记录,帐单记录,发货记录,等等。 最近,数据库管理界对将数据库管理系统用于决策支持越来越感兴趣。四、数据挖掘的性质 什么是数据挖掘? 数据挖掘的定义非常模糊,对它的定义取决于定义者的观点和背景。如下是一些 DM 文献中 的定义: 数据挖掘是一个确定数据中有效的,新的,可能有用的并且最终能被理解的模式 的重要过程。-Fayyad. 数据挖掘是一个从大型数据库中提取以前未知的,可理解的,可执行的信息并用它来进行关 键的商业决策的过程。-Zekulin. 数据挖掘是用在知识发现过程,来辩识存在于数据中的未知关系和模式的一些方法 。-Ferruzza 数据挖掘是发现数据中有益模式的过程。-Jonn 数据挖掘是我们为那些未知的信息模式而研究大型数据集的一个决策支持过程。 -Parsaye 数据挖掘是.决策树.神经网络.规则推断.最近邻方法.遗传算法-Mehta 虽然数据挖掘的这些定义有点不可触摸,但在目前它已经成为一种商业事业。如同在过去的 历次淘金热中一样,目标是开发矿工。利润最大的是卖工具给矿工,而不是干实际的开发。 数据挖掘这个概念被用作一种装备来出售计算机硬件和软件。硬件制造商强调数据挖掘需要 高的计算能力。必须存储,快速读写非常大的数据库,并将密集的计算方法用于这些数据。 这需要大容量的磁盘空间,快速的内置大量 RAM 的计算机。数据挖掘为这些硬件打开了新的 市场。软件提供者强调竞争优势。你的对手使用它,你最好得跟上。同时强调它将增加传统的数据库的价值。许多组织在处理存货,帐单,会计的数据库方面有大量的业务。 这些数据库的创建和维护都耗资巨大。现在只需要将相对少的投资用于数据挖掘工具,就可 以发现隐藏在这些数据中的具有极高利润的信息金块。当前数据挖掘产品的特点: -迷人的图形用户界面.数据库(查寻语言).一套数据分析过程-窗口形式的界面.灵活方便的输入-点击式按键 -输入对话框-利用图表分析-复杂的图形输出-大量数据图-灵活的图形解释 -树,网络,飞行模拟- 结果方便的处理。这些软件包对决策者来说就象数据挖掘专家。数据挖掘和计算机科学的联系 当前对数据挖掘的兴趣在学术界引发了一些议题。数据挖掘作为一种商业事业看上去很可行, 但它是否能被定为一种智能训练。当然它和计算机科学有极重要的联系。这些包括:.集聚体(ROLAP)的高效计算.快速的立体(X * X)查寻.为提高在线查寻的速度的线下预查寻.在线查寻的并行计算.将 DBMS 方法转化为数据挖掘算法。.基于磁盘而不是 RAM 的实现.基本数据挖掘算法的并行实现从统计数据分析的眼光我们可以问数据挖掘方法是否是智能训练。到目前为止,仍可 以说它是,也可以说不是。数据挖掘包中广为人知的程序来自机器学习,模式识别,神经网 络和数据可视化领域。它们强调看和感觉和感官性的存在。这样看上去并不是在意具体的 表现,而是要迅速占领市场。在这个领域中目前大部分的研究集中在改进当前的机器学习方 法和加速已存在的算法。然而,在将来数据挖掘几乎可以肯定地说是一种智

注意事项

本文(数据挖掘与统计学应用)为本站会员(kms****20)主动上传,金锄头文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即阅读金锄头文库的“版权提示”【网址:https://www.jinchutou.com/h-59.html】,按提示上传提交保证函及证明材料,经审查核实后我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.