
数据挖掘实验报告.docx
4页本文格式为Word版,下载可任意编辑数据挖掘实验报告 数据挖掘测验报告 学院名称 专业名称 学生姓名 学 号 计算机科学与技术学院 5 指导教师 二〇一六年十一月 测验内容 测验一 一、 测验原理 (1).缺省值的处理:用均值替换、回归查补和多重查补对缺省值举行处理 通过R语言供给的方法确定哪些有缺省值,哪些是奇怪值,并把奇怪置为缺失值来处理,通过表格形式打印出来将数据集分成完整数据和缺失数据两片面 (2).用均值替换:求变量未缺失片面的均值,用均值替换缺失 回归查补:是把缺失属性作为因变量,其他相关属性作为自变量,利用他们之间的关系建立回归模型的来预料缺失值,以此完成缺失值插补的方法 (3).多重查补:多值插补的思想来源于贝叶斯估计,认为待插补的值是随机的,它的值来自于已观测到的值概括实践上通常是估计出待插补的值,然后再加上不同的噪声,形成多组可选插补值根据某种选择依据,选取最适合的插补值 多重插补方法分为三个步骤:①为每个空值产生一套可能的插补值,这些值反映了无响应模型的不确定性;每个值都可以被用来插补数据集中的缺失值,产生若干个完整数据集合。
②每个插补数据集合都用针对完整数据集的统计方法举行统计分析③对来自各个插补数据集的结果,根据评分函数举行选择,产生最终的插补值 二、 测验目的 掌管数据预处理的根本方法 三、 测验内容 1、 R语言初步熟悉(掌管R程序运行环境) 2、 测验数据预处理掌管R语言中数据预处理的使用) 对给定的测试用例数据集,举行以下操作 1)、加载程序,熟谙各按钮的功能 2)、熟谙各函数的功能,运行程序,并对程序举行分析 对餐饮销量数据进统计量分析,求销量数据均值、中位数、极差、标准差,变异系数和四分位数间距 对餐饮企业菜品的盈利付出度(即菜品盈利帕累托分析),画出帕累托图 3)数据预处理 缺省值的处理:用均值替换、回归查补和多重查补对缺省值举行处理 对连续属性离散化:用等频、等宽等方法对数据举行离散化处理 四、 测验步骤 1.将数据加载,通过函数计算所需的值 2. 对餐饮企业菜品的盈利付出度(即菜品盈利帕累托分析),画出帕累托图 3. 数据预处理分别采用等宽离散化,等频离散化,聚类离散化来实现,画出图示结果 五、 测验结果 1.销售数据的加载以及对于函数的计算 2.画出帕累托图 3.对数据的预处理 (1)缺省值的处理 (2)对连续属性离散化 六、 斟酌与分析 1、奇怪值的存在会对挖掘结果带来什么样的不良影响? 对奇怪值分析是检验数据是否有录入错误以及含有不合常理的数据。
忽略奇怪值的存在是特别危害的,不加剔除的把奇怪值包括进数据的计算分析过程中,会给结果带来不良影响 2、为什么需要对数据举行模范化? 举行模范化的目地:模范化目的是使布局更合理,消释存储奇怪,使数据冗余尽量小,便于插入、删除和更新 — 4 —。












