数据挖掘与统计学应用
7页1、数据挖掘与统计学应用.txt 让人想念而死,是谋杀的至高境界,就连法医也鉴定不出死因。 。 。 。 。 。数据挖掘与统计学应用一、关键词和摘要 关键词:统计学 数据挖掘 知识发现摘要: 1、数据挖掘与统计应用之间关系 统计学和数据挖掘有很多共同点,但与此同时它们也有很多差异。本文讨论了两门学科的性 质,重点论述它们的异同。 数据挖掘,顾名思义就是从大量的数据中挖掘出有用的信息。DM(数据挖掘)是揭示存在于 数据里的模式及数据间的关系的学科,它强调对大量观测到的数据库的处理。它是涉及数据 库管理,人工智能,机器学习,模式识别,及数据可视化等学科的边缘学科。用统计的观点 看,它可以看成是通过计算机对大量的复杂数据集的自动探索性分析。目前对该学科的作用 尽管有点夸大其词,但该领域对商业,工业,及科学研究都有极大的影响,且提供了大量的 为促使新方法的发展而进行的研究工作。尽管数据挖掘和统计分析之间有明显的联系,但迄 今为止大部分的数据挖掘方法都不是产生于统计学科。这篇文章对这一现象作了一些解释, 并说明了为什么统计学家应该关注数据挖掘。统计学可能会对数据挖掘产生很大影响,但这 可能要求统计学家
2、们改变他们的一些基本思路及操作原则。 2、数据挖掘的发展前景 随着计算机应用的越来越广泛,每年都要积累大量的数据,运用数据挖掘技术在这些数据当 中我们可以找出“金子”来。数据挖掘技术主要又分成“关联规则” , “时间序列” “聚集” , “分类” , “估值”等这几类.据国外专家预测,在今后的 510 年内,随着数据量的日益积累以及计算机的广泛应 用,数据挖掘将在中国形成一个产业。2000 年 7 月 IDC 发布了关于信息存取工具市场的报 告,其中估计 1999 年的数据挖掘的市场大概是 7.5 亿美元,估计在下个 5 年内市场的年增 长率(Compound Annual Growth Rate)为 32.4%,其中亚太地区为 26.6%,并且预测此市场 在 2002 年时会达到 22 亿美元。二、简介 数据挖掘与统计学有着共同目标,但分析方法和性质不同 统计学和数据挖掘有着共同的目标:发现数据中的结构。事实上,由于它们的目标相似,一 些人(尤其是统计学家)认为数据挖掘是统计学的分支。这是一个不切合实际的看法。因为 数据挖掘还应用了其它领域的思想、工具和方法,尤其是计算机学科,例如数
3、据库技术和机 器学习,而且它所关注的某些领域和统计学家所关注的有很大不同。统计学和数据挖掘研究目标的重迭自然导致了迷惑。事实上,有时候还导致了反感。 统计学有着正统的理论基础(尤其是经过本世纪的发展) ,而现在又出现了一个新的学科, 有新的主人,而且声称要解决统计学家们以前认为是他们领域的问题。这必然会引起关注。 更多的是因为这门新学科有着一个吸引人的名字,势必会引发大家的兴趣和好奇。把“数据 挖掘”这个术语所潜在的承诺和“统计学”作比较的话,统计的最初含义是“陈述事实” , 以及找出枯燥的大量数据背后的有意义的信息。当然,统计学的现代的含义已经有很大不同 的事实。而且,这门新学科同商业有特殊的关联(尽管它还有科学及其它方面的应用) 。本文的目的是逐个考察这两门学科的性质,区分它们的异同,并关注与数据挖掘相关 联的一些难题。首先,我们注意到“数据挖掘”对统计学家来说并不陌生。例如,Everitt 定义它为:“仅仅是考察大量的数据驱动的模型,从中发现最适合的” 。统计学家因而会忽 略对数据进行特别的分析,因为他们知道太细致的研究却难以发现明显的结构。尽管如此, 事实上大量的数据可能包含不
4、可预测的但很有价值的结构。而这恰恰引起了注意,也是当前 数据挖掘的任务。 三、统计学的性质 统计学决不是数学的分支,而是一门独立学科 试图为统计学下一个太宽泛的定义是没有意义的。尽管可能做到,但会引来很多异议。相反, 我要关注统计学不同于数据挖掘的特性。 统计学决不是数学的分支,而是一门独立学科 统计学是一门比较保守的学科,目前有一种趋势是越来越精确。当然,这本身并不是坏事, 只有越精确才能避免错误,发现真理。但是如果过度的话则是有害的。这个保守的观点源于 统计学是数学的分支这样一个看法,我是不同意这个观点的.管统计学确实以数学为基础 (正如物理和工程也以数学为基础,但没有被认为是数学的分支) ,但它同其它学科还有紧 密的联系。数学背景和追求精确加强了这样一个趋势:在采用一个方法之前先要证明,而不 是象计算机科学和机器学习那样注重经验。这就意味着有时候和统计学家关注同一问题的其 它领域的研究者提出一个很明显有用的方法,但它却不能被证明(或还不能被证明) 。统计 杂志倾向于发表经过数学证明的方法而不是一些特殊方法。数据挖掘作为几门学科的综合, 已经从机器学习那里继承了实验的态度。这并不意
《数据挖掘与统计学应用》由会员kms****20分享,可在线阅读,更多相关《数据挖掘与统计学应用》请在金锄头文库上搜索。
高三文科数学(长方体模型1)
高一生物:必修2 1.1孟德尔的豌豆杂交实验
遗传学第1章 绪言
高等代数课件--第三章 线性方程组§3.3 线性相关性
高二数学(1.1-1空间几何体及棱柱、棱锥的结构特征)
递回关系与演算法分析
过程是vb的基本组成单位
营养器官的生长
细菌真菌在生物圈中的作用课件(济南版七年级上)
自动化-ab变频器的原理及其应用
网络操作系统-第16章 windows server 2003安全管理
网络安全+第4讲+防火墙
素材-接触网施工技术-双线隧道吊柱安装
系统结构第5章
计算机体系结构实验2008
计算机系统安全
高考词汇总常用词v
软件测试tmap
电脑文件被删除怎么恢复图文教程
电子教案--第9章
2023-09-24 4页
2023-05-15 33页
2022-11-13 7页
2023-04-17 2页
2022-08-18 3页
2024-02-21 11页
2023-06-25 11页
2023-02-09 6页
2023-11-17 8页
2022-09-18 2页