您所在位置：网站首页 > 生活休闲 > 科普知识数据挖掘与统计学应用

数据挖掘与统计学应用

7页

卖家[上传人]：kms****20

文档编号：39830288

上传时间：2018-05-20

文档格式：DOC

文档大小：37KB

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

10 金贝

/ 7 举报版权申诉马上下载

文本预览

下载提示

常见问题

1、数据挖掘与统计学应用.txt 让人想念而死，是谋杀的至高境界，就连法医也鉴定不出死因。。。。。。数据挖掘与统计学应用一、关键词和摘要关键词：统计学数据挖掘知识发现摘要： 1、数据挖掘与统计应用之间关系统计学和数据挖掘有很多共同点，但与此同时它们也有很多差异。本文讨论了两门学科的性质，重点论述它们的异同。数据挖掘,顾名思义就是从大量的数据中挖掘出有用的信息。DM（数据挖掘）是揭示存在于数据里的模式及数据间的关系的学科，它强调对大量观测到的数据库的处理。它是涉及数据库管理，人工智能，机器学习，模式识别，及数据可视化等学科的边缘学科。用统计的观点看，它可以看成是通过计算机对大量的复杂数据集的自动探索性分析。目前对该学科的作用尽管有点夸大其词，但该领域对商业，工业，及科学研究都有极大的影响，且提供了大量的为促使新方法的发展而进行的研究工作。尽管数据挖掘和统计分析之间有明显的联系，但迄今为止大部分的数据挖掘方法都不是产生于统计学科。这篇文章对这一现象作了一些解释，并说明了为什么统计学家应该关注数据挖掘。统计学可能会对数据挖掘产生很大影响，但这可能要求统计学家

2、们改变他们的一些基本思路及操作原则。 2、数据挖掘的发展前景随着计算机应用的越来越广泛，每年都要积累大量的数据，运用数据挖掘技术在这些数据当中我们可以找出“金子”来。数据挖掘技术主要又分成“关联规则” ， “时间序列” “聚集” ， “分类” ， “估值”等这几类.据国外专家预测，在今后的 510 年内，随着数据量的日益积累以及计算机的广泛应用，数据挖掘将在中国形成一个产业。2000 年 7 月 IDC 发布了关于信息存取工具市场的报告，其中估计 1999 年的数据挖掘的市场大概是 7.5 亿美元，估计在下个 5 年内市场的年增长率（Compound Annual Growth Rate）为 32.4%，其中亚太地区为 26.6%，并且预测此市场在 2002 年时会达到 22 亿美元。二、简介数据挖掘与统计学有着共同目标，但分析方法和性质不同统计学和数据挖掘有着共同的目标：发现数据中的结构。事实上，由于它们的目标相似，一些人（尤其是统计学家）认为数据挖掘是统计学的分支。这是一个不切合实际的看法。因为数据挖掘还应用了其它领域的思想、工具和方法，尤其是计算机学科，例如数

3、据库技术和机器学习，而且它所关注的某些领域和统计学家所关注的有很大不同。统计学和数据挖掘研究目标的重迭自然导致了迷惑。事实上，有时候还导致了反感。统计学有着正统的理论基础（尤其是经过本世纪的发展），而现在又出现了一个新的学科，有新的主人，而且声称要解决统计学家们以前认为是他们领域的问题。这必然会引起关注。更多的是因为这门新学科有着一个吸引人的名字，势必会引发大家的兴趣和好奇。把“数据挖掘”这个术语所潜在的承诺和“统计学”作比较的话，统计的最初含义是“陈述事实” ，以及找出枯燥的大量数据背后的有意义的信息。当然，统计学的现代的含义已经有很大不同的事实。而且，这门新学科同商业有特殊的关联（尽管它还有科学及其它方面的应用）。本文的目的是逐个考察这两门学科的性质，区分它们的异同，并关注与数据挖掘相关联的一些难题。首先，我们注意到“数据挖掘”对统计学家来说并不陌生。例如，Everitt 定义它为：“仅仅是考察大量的数据驱动的模型，从中发现最适合的” 。统计学家因而会忽略对数据进行特别的分析，因为他们知道太细致的研究却难以发现明显的结构。尽管如此，事实上大量的数据可能包含不

4、可预测的但很有价值的结构。而这恰恰引起了注意，也是当前数据挖掘的任务。三、统计学的性质统计学决不是数学的分支，而是一门独立学科试图为统计学下一个太宽泛的定义是没有意义的。尽管可能做到，但会引来很多异议。相反，我要关注统计学不同于数据挖掘的特性。统计学决不是数学的分支，而是一门独立学科统计学是一门比较保守的学科，目前有一种趋势是越来越精确。当然，这本身并不是坏事，只有越精确才能避免错误，发现真理。但是如果过度的话则是有害的。这个保守的观点源于统计学是数学的分支这样一个看法，我是不同意这个观点的.管统计学确实以数学为基础（正如物理和工程也以数学为基础，但没有被认为是数学的分支），但它同其它学科还有紧密的联系。数学背景和追求精确加强了这样一个趋势：在采用一个方法之前先要证明，而不是象计算机科学和机器学习那样注重经验。这就意味着有时候和统计学家关注同一问题的其它领域的研究者提出一个很明显有用的方法，但它却不能被证明（或还不能被证明）。统计杂志倾向于发表经过数学证明的方法而不是一些特殊方法。数据挖掘作为几门学科的综合，已经从机器学习那里继承了实验的态度。这并不意

5、味着数据挖掘工作者不注重精确，而只是说明如果方法不能产生结果的话就会被放弃。统计分析是以样本推断总体，而数据挖掘使用的往往是总体数据正是统计文献显示了（或夸大了）统计的数学精确性。同时还显示了其对推理的侧重。尽管统计学的一些分支也侧重于描述，但是浏览一下统计论文的话就会发现这些文献的核心问题就是在观察了样本的情况下如何去推断总体。当然这也常常是数据挖掘所关注的。下面我们会提到数据挖掘的一个特定属性就是要处理的是一个大数据集。这就意味着，由于可行性的原因，我们常常得到的只是一个样本，但是需要描述样本取自的那个大数据集。然而，数据挖掘问题常常可以得到数据总体，例如关于一个公司的所有职工数据，数据库中的所有客户资料，去年的所有业务。在这种情形下，推断就没有价值了（例如，年度业务的平均值），因为观测到的值也就是估计参数。这就意味着，建立的统计模型可能会利用一系列概率表述（例如，一些参数接近于 0，则会从模型中剔除掉），但当总体数据可以获得的话，在数据挖掘中则变得毫无意义。在这里，我们可以很方便的应用评估函数：针对数据的足够的表述。事实是，常常所关注的是模型是否合适

6、而不是它的可行性，在很多情形下，使得模型的发现很容易。例如，在寻找规则时常常会利用吻合度的单纯特性（例如，应用分支定理）。但当我们应用概率陈述时则不会得到这些特性。统计应用和数据挖掘中模型的差别统计学和数据挖掘部分交迭的第三个特性是在现代统计学中起核心作用的“模型” 。或许 “模型”这个术语更多的含义是变化。一方面，统计学模型是基于分析变量间的联系，但另一方面这些模型关于数据的总体描述确实没有道理的。关于信用卡业务的回归模型可能会把收入作为一个独立的变量，因为一般认为高收入会导致大的业务。这可能是一个理论模型（尽管基于一个不牢靠的理论）。与此相反，只需在一些可能具有解释意义的变量基础上进行逐步的搜索，从而获得一个有很大预测价值的模型，尽管不能作出合理的解释。（通过数据挖掘去发现一个模型的时候，常常关注的就是后者）。还有其它方法可以区分统计模型，但在这里我将不作探讨。这里我想关注的是，现代统计学是以模型为主的。而计算，模型选择条件是次要的，只是如何建立一个好的模型。但在数据挖掘中，却不完全是如此。在数据挖掘中，准则起了核心的作用。（当然在统计学中有一些

7、以准则为中心的独立的特例。数据挖掘接触到的大量数据中的偶然因素可以使统计方法失效很多情况下，数据挖掘的本质是很偶然的发现非预期但很有价值的信息。这说明数据挖掘过程本质上是实验性的。这和确定性的分析是不同的。（实际上，一个人是不能完全确定一个理论的，只能提供证据和不确定的证据。）确定性分析着眼于最适合的模型建立一个推荐模型，这个模型也许不能很好的解释观测到的数据。很多，或许是大部分统计分析提出的是确定性的分析。然而，实验性的数据分析对于统计学并不是新生事务，或许这是统计学家应该考虑作为统计学的另一个基石，而这已经是数据挖掘的基石。所有这些都是正确的，但事实上，数据挖掘所遇到的数据集按统计标准来看都是巨大的。在这种情况下，统计工具可能会失效：百万个偶然因素可能就会使其失效。统计分析之前需要准备大量数据，以期得到确定的目的；数据挖掘往往已有数据库，而目的也是不确定的如果数据挖掘的主要目的是发现，那它就不关心统计学领域中的在回答一个特定的问题之前，如何很好的搜集数据，例如实验设计和调查设计。数据挖掘本质上假想数据已经被搜集好，关注的只是如何发现其中的秘密。从数

8、据学习的想法已经提出很长时间了。但在忽然之间人们对数据挖掘的兴趣却变得如此强烈，这是为什么呢？主要原因是近来它与数据库管理领域有了联系。数据，特别大量的数据保存在数据库管理系统中。传统的 DBMS 集中于在线转换过程（OLTP n-line transaction processing）;也就是数据组织的目的是存储并快速恢复单个记录。它们过去常用来记录库存，薪水表记录，帐单记录，发货记录，等等。最近，数据库管理界对将数据库管理系统用于决策支持越来越感兴趣。四、数据挖掘的性质什么是数据挖掘？数据挖掘的定义非常模糊，对它的定义取决于定义者的观点和背景。如下是一些 DM 文献中的定义：数据挖掘是一个确定数据中有效的，新的，可能有用的并且最终能被理解的模式的重要过程。-Fayyad. 数据挖掘是一个从大型数据库中提取以前未知的，可理解的，可执行的信息并用它来进行关键的商业决策的过程。-Zekulin. 数据挖掘是用在知识发现过程，来辩识存在于数据中的未知关系和模式的一些方法。-Ferruzza 数据挖掘是发现数据中有益模式的过程。-Jonn 数据挖掘是我们为那些未知的信

9、息模式而研究大型数据集的一个决策支持过程。 -Parsaye 数据挖掘是.决策树.神经网络.规则推断.最近邻方法.遗传算法-Mehta 虽然数据挖掘的这些定义有点不可触摸，但在目前它已经成为一种商业事业。如同在过去的历次淘金热中一样，目标是开发矿工。利润最大的是卖工具给矿工，而不是干实际的开发。数据挖掘这个概念被用作一种装备来出售计算机硬件和软件。硬件制造商强调数据挖掘需要高的计算能力。必须存储，快速读写非常大的数据库，并将密集的计算方法用于这些数据。这需要大容量的磁盘空间，快速的内置大量 RAM 的计算机。数据挖掘为这些硬件打开了新的市场。软件提供者强调竞争优势。你的对手使用它，你最好得跟上。同时强调它将增加传统的数据库的价值。许多组织在处理存货，帐单，会计的数据库方面有大量的业务。这些数据库的创建和维护都耗资巨大。现在只需要将相对少的投资用于数据挖掘工具，就可以发现隐藏在这些数据中的具有极高利润的信息金块。当前数据挖掘产品的特点： -迷人的图形用户界面.数据库（查寻语言）.一套数据分析过程-窗口形式的界面.灵活方便的输入-点击式按键 -输入对话框-利用图表分析-复杂的图形输出-大量数据图-灵活的图形解释 -树，网络，飞行模拟- 结果方便的处理。这些软件包对决策者来说就象数据挖掘专家。数据挖掘和计算机科学的联系当前对数据挖掘的兴趣在学术界引发了一些议题。数据挖掘作为一种商业事业看上去很可行，但它是否能被定为一种智能训练。当然它和计算机科学有极重要的联系。这些包括：.集聚体(ROLAP)的高效计算.快速的立体(X * X)查寻.为提高在线查寻的速度的线下预查寻.在线查寻的并行计算.将 DBMS 方法转化为数据挖掘算法。.基于磁盘而不是 RAM 的实现.基本数据挖掘算法的并行实现从统计数据分析的眼光我们可以问数据挖掘方法是否是智能训练。到目前为止，仍可以说它是，也可以说不是。数据挖掘包中广为人知的程序来自机器学习，模式识别，神经网络和数据可视化领域。它们强调看和感觉和感官性的存在。这样看上去并不是在意具体的表现，而是要迅速占领市场。在这个领域中目前大部分的研究集中在改进当前的机器学习方法和加速已存在的算法。然而，在将来数据挖掘几乎可以肯定地说是一种智

《数据挖掘与统计学应用》由会员kms****20分享，可在线阅读，更多相关《数据挖掘与统计学应用》请在金锄头文库上搜索。

点击阅读更多内容

TA的资源