
数据挖掘工具Clementine.docx
14页数据挖掘工具(一)SPSS Clementine18082607 洪丹Clementine 是 ISL(Integral Solutions Limited) 公司开发的数据挖掘工 具平台1999年SPSS公司收购了 ISL公司,对Clementine产品进行重新 整合和开发,现在Clementine已经成为SPSS公司的又一亮点作为一个数据挖掘平台,Clementine结合商业技术可以快速建立预测 性模型,进而应用到商业活动中,帮助人们改进决策过程强大的数据挖 掘功能和显著的投资回报率使得Clementine在业界久负盛誉同那些仅仅 着重于模型的外在表现而忽略了数据挖掘在整个业务流程中的应用价值的 其它数据挖掘工具相比,Clementine其功能强大的数据挖掘算法,使数据 挖掘贯穿业务流程的始终,在缩短投资回报周期的同时极大提高了投资回报率近年来,数据挖掘技术越来越多的投入工程统计和商业运筹,国外各大数据 开发公司陆续推出了一些先进的挖掘工具,其中spss公司的Clementine软件以 其简单的操作,强大的算法库和完善的操作流程成为了市场占有率最高的通用数 据挖掘软件本文通过对其界面、算法、操作流程的介绍,具体实例解析以及与 同类软件的比较测评来解析该数据挖掘软件。
1.1 关于数据挖掘数据挖掘有很多种定义与解释,例如“识别出巨量数据中有效的、新颖的、潜在 有用的、最终可理解的模式的非平凡过程 1、大体上看,数据挖掘可以视 为机器学习和数据库的交叉,它主要利用机器学习界提供的技术来分析海量数 据,利用数据库界提供的技术来管理海量数据2、数据挖掘的意义却不限于此, 尽管数据挖掘技术的诞生源于对数据库管理的优化和改进,但时至今日数据挖掘 技术已成为了一门独立学科,过多的依赖数据库存储信息,以数据库已有数据为 研究主体,尝试寻找算法挖掘其中的数据关系严重影响了数据挖掘技术的发展和 创新尽管有了数据仓库的存在可以分析整理出已有数据中的敏感数据为数据挖 掘所用,但数据挖掘技术却仍然没有完全舒展开拳脚,释放出其巨大的能量,可 怜的数据适用率(即可用于数据挖掘的数据占数据库总数据的比率)导致了数据 挖掘预测准确率与实用性的下降所以,我心中的数据挖掘技术的未来(一种幼 稚的想法)是以挖掘算法为主体,专门搜集和记录满足算法需求的数据构建特有 的数据库为其服务,这是一个从面向过程到面向对象的转变1.2数据挖掘工具的重要性如果通过传统的编程实现数据挖掘,不但费时费力,其性能也无法做到完整 和稳定。
而数据挖掘商业工具的诞生,不但创造出了又一个巨大的市场,而且随着各公司产品功能的补充完善和使用简易性的提高,更多的没有计算机专业知识 背景的人也可以享受数据挖掘的强大分析能力和预测能力直接采用商业数据挖掘工具来帮助项目实施,也是一个很好的选择它既节 省了大量的开发费用,又可以节约维护和升级的开销3,所以了解和掌握主流数 据挖掘工具的适用范围、使用方法和特色创新便显得尤为重要本文正是基于此 原因对目前使用率最高的数据挖掘工具SPSS Clementine进行初步的探索和测 评2. Clementine 简介2.1 Clementine的背景知识Clmentine翻译成中文是克莱门氏小柑橘,它是ISL(Integral Solutions Limited)公司开发的数据挖掘工具平台1999年SPSS公司收购了 ISL公司,对 Clementine产品进行重新整合和开发,现在Clementine已经成为SPSS公司的 又一亮点在Gartner的客户数据挖掘工具评估中,仅有两家厂商被列为领导者: SAS和SPSSSAS获得了最高ability to execute评分,代表着SAS在市场执 行、推广、认知方面有最佳表现;而SPSS获得了最高的completeness of vision, 表明SPSS在视觉界面和技术创新方面遥遥领先。
见下图:作为一款将高级建模技术与易用性相结合的数据挖掘工具,Clementine可帮 助您发现并预测数据中有趣且有价值的关系可以将Clementine用于决策支持 活动,如:n 创建客户档案并确定客户生命周期价值n 发现和预测组织内的欺诈行为n 确定和预测网站数据中有价值的序列n 预测未来的销售和增长趋势n 勾勒直接邮递回应和信用风险n 进行客户流失预测、分类和细分n 自动处理大批量数据并发现其中的有用模式这些只是使用Clementine从数据中提取有价值信息的众多方式的一部分只要 有数据,且数据中正好包含所需信息,Clementine基本上都能帮您找到问题的 答案2.2 Clementine 界面2.2.1主界面在安装好后会自动启用服务,一般的数据挖掘人员通过客户端完成所有工作 卜面,就是clementine客户端的界面:2.2.2各分区介绍流工作区 流工作区是Clementine窗口的最大区域,也是构建和操纵数据 流的场所在Clementine中,可以在同一流工作区或通过打开新的流工作区一次处理多个 流会话期间,流存储在Clementine窗口右上角的“流”管理器中选项板选项板位于Clementine窗口的底部。
每个选项板均包含可添加到 数据流的一个相关节点组例如,“数据源”选项板包含可用来将数据读入到模型中的的 节点;“图形”选项板包含可用来可视化探索数据的节点收藏夹”选项板包 含数据挖掘人员频繁使用的节点的默认列表随着对Clementine的熟悉,还可 以自定义供自己使用的内容节点选项板(palette)在Clementine 统窗口底部的渤S板(palette)中包含了用来建立数据况的所有可能的节点〈之)二*5, ,5冲1・ Jia 『irf I idi|» ItLi'Ird管理器Clementine窗口右上角有三种类型的管理器每个选项卡(流、输 出和模型)均用于查看和管理相应类型的对象可以使用“流”选项卡打开、重 命名、保存和删除在会话中创建的流Clementine输出(如图形和表)存储在 “输出”选项卡上可直接从该管理保存输出对象模型”选项卡是这几个管 理器选项卡中功能最强大的,它包含在Clementine中进行的机器学习和建模的 结果这些模型可以直接从“模型”选项卡上浏览或将其添加到工作区的流中工程 工程窗口位于Clementine窗口右下角,它为组织Clementine中的 数据挖掘工作提供了一个有效途径。
报告窗口位于选项板下方,报告窗口提供各种操作的进度反馈,例如数据 读入数据流中的时间状态窗口也位于选项板下方,状态窗口提供有关应用程序当前正在执行何种 操作的信息以及需要用户反馈时的指示信息2.3 spss数据挖掘技术2.3.1 预测技术 4 实现方法:1. Neural Networks 2.Rule Induction 3.Linear & Logistic Regression 4 . Sequence Detection2.3.2聚类技术4实现方法:1.Kohonen网络2 K-means聚类3 TWO-step 聚类2.3.3 关联技术 4 实现方法:1. APRIORI 2 GRI 3 CARMA2.3.4 实现模型2.3.5实现流程(CRISP-DM过程5)CRISP-DM模型为一个KDD工程提供了一个完整的过程描述.该模型将一 个KDD工程分为6个不同的,但顺序并非完全不变的阶段.1: business understanding:即商业理解.在第一个阶段我们必须从商 业的角度上面了解项目的要求和最终目的是什么.并将这些目的与数据挖掘的 定义以及结果结合起来.2.data understanding:数据的理解以及收集,对可用的数据进行评估.3: data preperation:数据的准备,对可用的原始数据进行一系列的组 织以及清洗,使之达到建模需求.4:modeling:即应用数据挖掘工具建立模型.5:evaluation:对建立的模型进行评估,重点具体考虑得出的结果是否 符合第一步的商业目的.6: deployment:部署,即将其发现的结果以及过程组织成为可读文本形 式.(数据挖掘报告)2.4 Clmentine特色介绍(自己摸索,非完整版)1.通过单一节点即可完成部署,将数据流所进行的数据挖掘工作打包成套件 输出2.可隐藏其建立模型的方法与流程,避免知识外流3. 可提供API供其他外部程序语言调用,,如c++,c#,Java,VB等4. 具有SSL加密与密码控制功能2.6映像数据流使用映像工具,使用者可以将一个新的资料源与已存的数据流或模板联系起来.映像工具不止建立这些连接. 它也能帮助使用者辨认新源字段是如何代替那些已有模板的字段元的.使用者可以•只是简单的将新资料源与已有! 据流相联系,而不是为它建立一个新的数据流.这里有•两种等价的映像资料方法:选择替代节点 这个方法从要被替换的节点开始。
首先,选择需要替换的, 点.j从内客菜单中选# Replacement &项,选择替代的节氏.这种方法相当适合把资削映像到模板.映像 这个方: 以要加入数据流的节点开始.首先』选择将加入的节点;从内容菜单中选择M叩选项』选择连接这个节点的下一- 节点.这个方法比较适合于映像到终端节点.注意,使用者不可以映像到聚合[(M3 节点.或附加-..CAppend).节点应该以正常的方式将蜿程与族您节点连接.£日也<诂门g data optionsSteering a rGpiacem&nt source nodeCaiheDa:a Mapping图2-23选择资料映像选项Se 也寸 Rtplice mnnf None 仲1 tc..Speclr/EssenJal Fields...uuara sjpfliNoceSeierate Userlrpui NodeEjecutc:Frorr HereX 以Dl口 10Load Mnds..fiavR Mn dADRl^ 3- Qonnert..Dlsconn ectRy jyriy dnd白门「侦日虹.42变量文件节点使用变星文件节点从无格式文本文件.•(其记录的字段个数是固定的)中读资料.从文件中读雇字段塔 指定字段个数-忽略Single quotes:-Include as textDouble quotes:■r^ir and discardDecimal E^/mbol:Lines to scan fbrtype:iiiot-atiotis25 J ,HJ GH .HIQH ?Q . &759S .0 刀网8爻.d皿驴37 J ?H[GH,Q.5J97E6 .0.D3DDB] ,ixugY25 ?N ?inv 7N0RNAL?0 - 556453 ,024rH,NOIWiLrNOmALrO .8<533E0L注释字符 跳过标题字符-去掉开头莉第尾所留空白分隔符,定义档中的字段边界"iiEitew Quote s _ _ _~~」Spws jtj Comma 匚 Teb4- -&irrafel]ijot5E Riscaid —d hswlii帽 □ OlhBf□auble quotes Disc^ ri 工 _Skip header characters:Skip 1日加 ^nd irail spaces Kono C LMt Q Righ(心 EkrthLJ 际卜网沛腿 cbaractEir春 __一 一 -。
