
数据挖掘试题参考答案.docx
11页本文格式为Word版,下载可任意编辑数据挖掘试题参考答案 数据挖掘试题参考答案 大学课程《数据挖掘》试题参考答案 范围: 1.什么是数据挖掘?它与传统数据分析有什么识别? 定义: 数据挖掘(Data Mining,DM)又称数据库中的学识察觉(Knowledge Discover in Database,KDD),是目前人工智能和数据库领域研究的热点问题,所谓数据挖掘是指从数据库的大量数据中透露出隐含的、从前未知的并有潜在价值的信息的非平凡过程数据挖掘是一种决策支持过程,它主要基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术等,高度自动化地分析企业的数据,做出归纳性的推理,从中挖掘出潜在的模式,扶助决策者调整市场策略,裁减风险,做出正确的决策 识别: (1)数据挖掘的数据源与以前相比有了显著的变更; 数据是海量的; 数据有噪声; 数据可能是非布局化的; (2)传统的数据分析方法一般都是先给出一个假设然后通过数据验证,在确定意义上是假设驱动的;与之相反,数据挖掘在确定意义上是察觉驱动的,模式都是通过大量的探寻工作从数据中自动提取出来 。
即数据挖掘是要察觉那些不能靠直觉察觉的信息或学识,甚至是违背直觉的信息或学识,挖掘出的信息越是出乎意料,就可能越有价值 在缺乏强有力的数据分析工具而不能分析这些资源的处境下,历史数据库也就变成了“数据坟墓”-里面的数据几乎不再被访问也就是说,极有价值的信息被“吞噬”在海量数据堆中,领导者决策时还只能凭自己的阅历和直觉因此提升原有的数据分析方法,使之能够智能地处理海量数据,即演化为数据挖掘 2.请根据CRISP-DM(Cross Industry Standard Process for Data Mining)模型,描述数据挖掘包含哪些步骤? CRISP-DM 模型为一个KDD工程供给了一个完整的过程描述.该模型将一个KDD工程分为6个不同的,但依次并非完全不变的阶段. 1: business understanding: 即商业理解. 在第一个阶段我们务必从商业的角度上面了解工程的要求和最终目的是什么. 并将这些目的与数据挖掘的定义以及结果结合起来. 2.data understanding: 数据的理解以及收集,对可用的数据举行评估. 3: data preparation: 数据的打定,对可用的原始数据举行一系列的组织以及清洗,使之达成建模需求. 4:modeling: 即应用数据挖掘工具建立模型. 5:evaluation: 对建立的模型举行评估,重点概括考虑得出的结果是否符合第一步的商业目的. 6: deployment: 部署,即将其察觉的结果以及过程组织成为可读文本形式.(数据挖掘报告) 3.请描述未来多媒体挖掘的趋势 随着多媒体技术的进展,人们接触的数据形式不断地丰富,多媒体数据库的日益增多, 数据挖掘试题参考答案 原有的数据库技术已得志不了应用的需要,人们梦想从这些媒体数据中得到一些高层的概念和模式,找出蕴涵于其中的有价值的学识。
这种将数据挖掘技术和多媒体信息处理技术有机地结合起来形成的在多媒体数据中举行学识察觉的信息处理方法就是多媒体数据挖掘 对多媒体数据举行挖掘并且实现智能化信息检索是未来进展的需求,是一个很有前途的研究方向 1、文本数据挖掘 所谓多媒体文本数据挖掘,就是从大量的多媒体文本数据中察觉有意义的模式过程多媒体文本数据挖掘的过程对多媒体文本数据挖掘最行之有效的途径就是将多媒体文本数据布局化后,再对布局化数据采用数据挖掘方法文本挖掘从功能上可以分为总结、分类、聚类、趋势预料等 2、图像数据挖掘 图像挖掘是多媒体挖掘的一个分支,图像挖掘可以广泛地应用于图像检索、医学影像诊断分析、卫星图片分析、地下矿藏预料等各种领域其挖掘方法和原型布局存在着巨大的提升空间 3、视频、音频数据挖掘 除了静态图像,在数字文档、万维网、播送数据流、个人或专业数据库中,还能获得数字形式的大量音频和视频信息 4、在医学图书馆服务中的应用 多媒体数据挖掘对医学信息有很强的适应性多媒体技术的应用便于医学信息的储存多媒体技术是当今信息技术领域进展最快、最活跃的技术,是新一代电子技术进展和竞争的焦点。
数据挖掘的未来进展趋势: 未来的热点应用领域 网站的数据挖掘(Web site data mining) 生物信息或基因的数据挖掘 文本挖掘(Textual mining) 多媒体挖掘 未来的研究热点 察觉语言的形式化描述 寻求数据挖掘过程中的可视化方法 研究在网络环境下的数据挖掘技术 加强对各种非布局化数据的挖掘 学识的维护更新 4.在电信行业中,如何利用数据挖掘技术对用户信用度举行分析 数据挖掘有其一般的通用过程,但是在概括应用的时候由于实际处境可能对比繁杂, 根据概括的处境不同还要做出适当的修改针对电信行业用户信用度分析,从工程需求的理解和定义开头, 经过数据的收集和抽取、清洗、整合的过程, 到建立数据挖掘模型, 最 后经过模型的评估到模型的发布概括步骤如下: 工程需求 信用度分析的目标就是要对现有电信客户举行信用评估,通过评估分析建立的 挖掘分析模型可以获得客户信用等级的评分, 在此根基上可以结合用户分群的 结果, 将电信客户举行分群, 找出不同信用级别的客户群体, 然后由数据挖掘 数据挖掘试题参考答案 人员合作市场推出的各项优待政策( 尤其是存话费、赠话费等) , 细分市场, 使该类优待政策达成最好的效果。
通过对客户信用度的划分, 使决策人员能够明显地看到,了解本网用户的信用度构成, 使其在制定、研究营销政策的时候做到心中有数 数据的收集和抽取 数据收集和抽取的过程就是要理解、熟谙客户数据, 能够将商业理解转化为对数据的理解, 从而有针对性的开展数据挖掘概括包括如下过程: 2.1数据源描述 对电信客户信用度的评估, 主要使用到数据源主要包括:行为数据、客户属性数据概括到业务层面包含的信息有:客户的档案、身份信息、年龄、性别、历史欠费处境、往月的帐务消费处境等 2.2数据质量描述 对获取的各变量举行分析探索, 选取可使用的关键变量(如年龄、话费等),可使用图形来表示这些关键的字段的分布 数据打定 电信客户的用户群很大,且业务繁杂,拥有多个业务系统,各个系统对于参数 的定义和归类也是不尽一致的, 统一、整合各个系统中的信息, 使之能够达成参 数一致化, 能够得志挖掘目标的要求, 需要处理的数据量也是分外巨大的, 具 体处理步骤如下: 3.1数据的整合 3.2清洗数据 3.3构建数据 3.4选择数据 3.5确定训练集和结果集 建立挖掘模型 信用度挖掘变量好多, 数据布局也对比繁杂,目前对于其研究也好多,而最常 用的挖掘方法为神经元网络和 C5.0 决策树两种算法。
建模之前, 我们需要对训练集的数据做修改: 即在训练集数据中参与结果字段, 供训练模型使用,我们首先根据业务需求人为划定信用度档次, 初步将信用度 划分为3个层次: 欠费回收处境、月均加权区内消费、区内消费变异系数 经过以上三轮信用度划分, 可以划分结果为 AAA-EEE 欠费回收处境首先反映了信用度的主要方面, 假设一个用户欠3个月以上才能 缴费或者不能缴费, 这样的用户对于电信公司来讲, 信用度理应是最差的反之, 未发生欠费的用户信用度理应是最高的; 划分的其次个指标之所以选择了区内通话费, 是由于: 在用户消费过程中, 长 途等消费每个月的波动是对比大的, 我们在举行划分档次的时候理应尽量选择 对比平稳的指标, 所以本文选择了区内通话费,为了剔出1个月区内话费可能的 突高处境带来的噪声, 采用了近6个月区内消费金额的加权平均数 划分的第三个指标采用了区内消费的变异系数, 反映了月 区内消费的波动情 况, 即: 越稳定的用户信用级别越高, 反之, 波动对比大的用户级别低 而后根据两个算法举行建模分析 模型选择 模型的选择和实际业务的需求紧密相关, 和数据挖掘人员对业务规律的掌管是 数据挖掘试题参考答案 分不开的。
我们在数据挖掘模型训练的过程中, 根据实际阅历来判断, 信用度划分的切实率最高达成70%左右考虑到划分信用度的时候采用的是三个输出点, 选择的是神经网络模型模型的训练、对比和优化的过程是数据挖掘工程中的收尾工作,就是不断调整模型参数, 观看数据结果, 对结果不断对比, 根据阅历判断优化的过程最终得出了结果的模型 模型发布 为了使市场经营决策人员能够直观地了解用户群在各个信用度指标的分布以 便在制定营销政策之前能够了解目标客户群的大小, 初步对即将推出的活动的 绩效有大致的了解因此需要举行发布针对电信可采用报表工具发布 5.请阐述如何利用神经网络察觉用户欺诈行为 主要方式是根据以前拥有的用户欺诈数据建立用户属性、服务属性和用户消费数据与用户流失可能性关联的数学模型,找出用户属性、服务属性和用户消费数据与用户欺诈状态的关系,并给出明确的数学公式只要知道用户属性、服务属性和用户消费数据,就可以计算出用户欺诈的可能性计费部门可以根据得到的数学模型,随时监控用户欺诈的可能性假设用户欺诈流失的可能性高于事先划定的限度,就可以重点高频率地检测该用户话费的使用状况,一旦察觉欠费就可实时停机,从而大大裁减电信企业的损失。
基于严格数学计算的数据挖掘技术能够在很大程度上变更以往电信企业在告成获得用户后无法监控用户恶意欠费的状况 收集用户的信息,包括欺诈的,没有欺诈并对用户欺诈的和没有欺诈的用户经行分类建立多输入,二输出(有欺诈,没有欺诈)的神经网络利用收集到的用大片面的历史数据对神经网络经行训练,训练完毕之后,规定精度,用剩下的数据用来检验神经网络的拟合优度当然在实际中最好是根据历史数据的累积,规定确定的时间间隔,定期对神经网络经行训练,这样能保持神经网络的学习才能和适应度 大体的步骤: 1. 收集历史的用户信息(包括欺诈的和没有欺诈的,可按各按一半选取数据,也可按照时间中欺诈与没有欺诈的比例举行选取数据),越多多好,这样对神经网络的训练就越来越优,神经网络的 2. 建立用户多输入(用户的属性个数),二输出的神经网络可以是BP,也可以是别的 3. 利用收集的数据对建立好的神经网络举行训练 4. 对训练好的数据对神经网络经行检验 5. 用于用户欺诈察觉与预防 参考资料: 浙江大学数据挖掘 28讲 王灿主讲 — 11 —。












