
数据挖掘定义与步骤.doc
4页第第 1 章章 数据挖掘数据挖掘简简介介1.1 数据挖掘的定数据挖掘的定义义Data mining is the process of seeking interesting or valuable information in large database. 数据挖掘(data mining)是近年来数据库应用领域中相当热门的话题数据挖掘一般 是指在数据库或数据仓库中,利用各种分析方法与技术,对过去累积的大量繁杂数据进行 分析、归纳与整合等工作,提取出有用的信息,例如趋势(trend) 、模式(pattern)及相 关性(relationship)等,并将其中有价值的信息作为决策参考提供给决策者通俗地说, 数据挖掘就是从数据中发掘信息或知识,有人称为知识发现(knowledge discovery in database,KDD) ,也有人称为数据考古学(data archeology) 、数据模式分析(data pattern analysis)或功能相依分析(functional dependency analysis) 目前,数据挖掘已经成为数 据库系统、机器学习、统计方法等多个学科相互交叉的重要领域,而在实务界,越来越多 的企业开始认识到,实施数据挖掘可以为企业带来更多潜在的商业机会。
但我们对数据挖掘应有一个正确的认知:数据挖掘不是一个无所不能的魔法数据挖 掘的种种工具都是从数据中发掘出各种可能成立的“预言” ,并对其潜在价值加以“估计” , 但数据挖掘本身并不能在实际中查证和确认这些假设,也不能判断这些假设的实际价值1.2 数据挖掘的重要性数据挖掘的重要性现代企业经常会搜集大量的数据,这些数据涵盖了市场、客户、供货商,及其竞争对 手等重要信息,但是由于信息超载与无结构化,企业的决策者无法充分利用这些庞大的数 据资源,仅能使用其中的一小部分,这可能导致决策失误,甚至出现决策错误而借助数 据挖掘技术,企业完全有能力从浩瀚的数据海洋中,挖掘出全面而又有价值的信息和知识, 并作为决策支持之用,进而形成企业独有的竞争优势1.3 数据挖掘的功能数据挖掘的功能一般而言,数据挖掘包括下列五项功能,这些功能大多为成熟的计量和统计分析方法1.分类(classification)按照分析个体的属性状态分别加以区分,并建立类组(class) 例如,将信用申请者4Excel 2007Excel 2007 数据挖掘完全手册的风险等级分为高风险、中风险和低风险三类使用的方法有决策树(decision tree) 、判 别分析(discriminant analysis) 、类神经网络(artificial neural network) ,以及记忆基础推理 (memory-based reasoning)等。
2.估计(estimation)根据已有的数值型变量和相关的分类变量,以获得某一属性的估计值或预测值例如, 根据信用卡申请者的教育程度和从事职业来设定其信用额度使用的方法有相关分析、 Logistic 回归及类神经网络等3.预测(prediction)根据个体属性的已有观测值来估计该个体在某一属性上的预测值例如,由顾客过去 刷卡消费额预测其未来的刷卡消费额使用的方法有回归分析、时间序列分析及类神经网 络等4.关联分组(affinity grouping)从所有对象决定哪些相关对象应该放在一起例如,超市中相关的洗漱用品(牙刷、 牙膏、牙线)放在同一货架上在客户营销系统上,这类分析可以用来发现潜在的交叉销 售(cross-selling)商品聚类,进而设计出有价值的组合商品集合5.同质分组(clustering)将异质总体分成为同质性的类别(clusters) ,即聚类其目的是识别出总体中所包含 的混合类别的组间差异,并根据每个类别的特征对所有个体进行归类同质分组相当于营 销术语中的细分(segmentation) 应该注意的是:聚类分析根据数据自动产生各个类别, 事先是不知道或无须知道总体中潜在的类别信息。
使用的方法有 k-means 等动态聚类法及 agglomeration 等层次聚类法1.4 数据挖掘的步数据挖掘的步骤骤数据挖掘的步骤会随不同领域的应用而有所变化,每一种数据挖掘技术也会有各自的 特性和使用步骤,针对不同问题和需求所制定的数据挖掘过程也会存在差异此外,数据 的完整程度、专业人员支持的程度等都会对建立数据挖掘过程有所影响(蔡维欣,2003) 这些因素造成了数据挖掘在各不同领域中的运用、规划,以及流程的差异性,即使同一产 业,也会因为分析技术和专业知识的涉入程度不同而不同,因此对于数据挖掘过程的系统 化、标准化就显得格外重要如此一来,不仅可以较容易地跨领域应用,也可以结合不同 的专业知识,发挥数据挖掘的真正精神 数据挖掘完整的步骤如下: ① 理解数据和数据的来源(understanding) ② 获取相关知识与技术(acquisition) ③ 整合与检查数据(integration and checking) 5Excel 2007第 1 章 数据挖掘简介④ 去除错误或不一致的数据(data cleaning) ⑤ 建立模型和假设(model and hypothesis development) 。
⑥ 实际数据挖掘工作(data mining) ⑦ 测试和验证挖掘结果(testing and verfication) ⑧ 解释和应用(interpretation and use) 由上述步骤可看出,数据挖掘牵涉了大量的准备工作与规划工作,事实上许多专家都 认为整套数据挖掘的过程中,有 80%的时间和精力是花费在数据预处理阶段,其中包括数 据的净化、数据格式转换、变量整合,以及数据表的链接可见,在进行数据挖掘技术的 分析之前,还有许多准备工作要完成1.5 数据挖掘建模的数据挖掘建模的标标准准 CRISP-DMCRISP-DM 是 Cross-Industry Standard Process for Data Mining 的简称,中文翻译为 “数据挖掘的跨行业标准过程” CRISP-DM 是由欧洲几家在数据挖掘应用上有经验的公 司共同筹划组织的一个特别小组所提出的该组织的成员包括数据仓储供货商 NCR、德 国汽车航天公司 Daimler-Chrysler、统计分析软件供货商 SPSS 和荷兰的银行保险公司 OHRA,除了 NCR 与 SPSS 等是专注于数据挖掘软件开发的成员之外,也有其他众多厂商 参与实验,通过实际操作过程,整体规划设计,并在 2000 年推出了 CRISP-DM 1.0 模型, 把数据挖掘过程中必要的步骤都加以标准化。
CRISP-DM 模型强调完整的数据挖掘过程, 不能只针对数据整理、数据显示、数据分析以及构建模型,而应该将对企业的需求问题的 理解,以及后期对模型的评价与模型的延伸应用都纳入到数据挖掘过程中因此,CRISP- DM 从方法学的角度强调了实施数据挖掘项目的方法和步骤,同时独立于每种具体数据挖 掘算法和数据挖掘系统 CRISP-DM 分为六个阶段(phase)和四个层次(level) ,分别简介如下 六个阶段如下1.定义商业问题(business understanding)本阶段的主要工作是要针对企业问题以及企业需求进行了解确认,针对不同的需求做 深入的了解,将其转换成数据挖掘的问题,并拟定初步构想在此阶段中,需要与企业各 层次进行讨论,只有对要解决的问题有了非常清楚而全面的了解,才能正确地针对问题拟 定分析过程2.数据理解(data understanding)此阶段包括建立数据库与分析数据在这个阶段必须先收集数据,了解数据的含义与 特性,并过滤出所有可能有用的数据,然后进行数据整理并评估数据的质量,必要时再将 分属不同数据库的数据加以合并或整合数据库建立完成后再进行数据分析,并找出影响 最大的数据,进而判断是否有必要进一步收集更为详细的数据。
6Excel 2007Excel 2007 数据挖掘完全手册3.数据预处理(data preparation)此阶段和数据理解阶段为数据准备阶段的核心,这是建立模型前的最后一步数据准备 工作数据预处理任务很可能要反复执行多次,并且没有任何既定的顺序,其目的是把各 种不同来源的数据加以清理、整理和归并,以适合数据挖掘技术的使用4.建立模型(modeling)此阶段对预处理过的数据应用各种数据挖掘技术,建立分析模型,发现企业问题的根 源面对同一个问题,会有多种可供使用的分析技术,但是每种技术对数据都有不尽相同 的要求,因此需要回到数据预处理阶段,重新转换数据为符合要求的格式5.评价和解释(evaluation and explanation)从数据分析的观点看,在开始进入这个阶段时已经建立了看似是高质量的模型,但在 实际应用中,随着应用数据的不同,模型的准确率肯定会变化这一阶段的主要任务是对 于挖掘结果加以评价和解释一个值得注意的问题是:是否有某些重要的商业问题还没有 充分地考虑,以至于使模型的预测精度发生了显著的变化6.实施(deployment)一般而言,完成模型创建并不意味着项目结束。
模型建立并经验证后,有两种主要的 使用方法第一种是提供给分析人员做参考,由分析人员通过查看和分析这个模型后提出 行动方案建议;另一种是把此模型应用到不同的数据集上此外,在应用了模型后,当然 还要不断监控它的效果 四个层次(level)分别为 phase、generic task、specialized task 和 process instance每 个 phase 由若干 generic task 组成,每个 generic task 又实施若干 specialized task,每个 specialized task 由若干 process instance 来完成其中,上两层独立于具体数据挖掘方法, 即是一般数据挖掘项目均需实施的步骤(What to do? ) ,这两层的任务将结合具体数据挖 掘项目的“上下文” (context)映射到下两层的具体任务和过程所谓项目的“上下文” 是指项目开发中密切相关、需要综合考虑的一些关键问题,如应用领域、数据挖掘问题类 型、技术难点、工具及其提供的技术等。












