
《数据采集与预处理》教学教案—02认识数据预处理技术.doc
3页数据采集与预处理教 案 NO.1 教 师 姓 名授课班级授课形式理实一体化授 课 时 间 年 月 日 第 周授课时数6授课章节名称任务2 认识数据预处理技术教学目的(1)学习数据预处理技术等相关知识内容,如数据清洗的主要任务和常用方法,数据集成的主要任务和常用方法,数据转换的主要任务和常用方法,数据归约的主要任务和常用方法2)完成Pig系统环境的搭建3)完成Kettle系统环境的搭建教材分析教学重点Pig系统环境的搭建Kettle系统环境的搭建教学难点Pig系统环境的搭建Kettle系统环境的搭建更新、补充、删节内容课外作业积极动手实践,熟练完成相关任务的实施操作教 学 过 程教 学 提 示一.知识准备1.数据预处理的概念数据预处理是指在对数据进行数据挖掘的主要处理以前,先对原始数据进行必要的清理、集成、转换、离散、归约、特征选择和提取等一系列处理工作,达到挖掘算法进行知识获取、研究所要求的最低规范和标准。
现实生产和实际生活以及科学研究的多样性、不确定性、复杂性等导致采集到的原始数据比较散乱,它们是不符合挖掘算法进行知识获取、研究所要求的规范和标准的,这些数据主要具有以下特征1)不完整性2)含噪声3)杂乱性(不一致性)2.数据预处理的常见问题(1)数据采样数据采样技术分为加权采样、随机采样和分层采样3类,其目的是从数据集中采集部分样本进行处理加权采样的思想是通过对总体中的各个样本设置不同的数值系数(即权重),使样本呈现希望的相对重要性程度随机采样是最常用的方法分层采样的思想是根据数据分布的不均衡性控制采样的频率2) 数据清理数据清理技术通常包括填补遗漏的数据值、平滑有噪声数据、识别或除去异常值,以及解决不一致问题填补遗漏的数据值,处理不完备数据集的方法主要有以下三大类① 删除元组 删除元组就是将存在遗漏信息属性值的对象(元组,记录)删除,从而得到一个完备的信息表 ② 数据补齐a.人工填写b.特殊值填充c.平均值填充d.热卡填充(或就近补齐)e.k近邻法f.使用所有可能的值填充 g.组合完整化方法 h.回归 ③ 平滑有噪声数据a.分箱b.回归c.聚类,可以通过聚类来检测离群点,将类似的值组织成群或簇。
直观地讲,落在簇集合之外的值被视为离群点3)数据集成数据集成指将来自多个数据源的数据合并,形成一致的数据存储,如将不同数据库中的数据集成到一个数据仓库中存储① 实体识别问题 ② 冗余和相关分析 ③ 元组重复 ④ 数据值冲突的检测与处理 ⑤ 数据转换 ⑥ 数据归约 数据归约策略包括维归约、数量归约和数据压缩数量归约用替代的、较小的数据表示形式替换原数据⑦ 特征选择特征选择是从原始特征中挑选出一些最优代表性的特征,它分为过滤式、封装式和嵌入式3种类型⑧ 特征提取特征提取就是利用已有特征参数构造一个较低维数的特征空间,将原始特征中蕴含的有用信息映射到少数几个特征上,忽略多余的不相干信息二.任务实施1.Pig系统环境的搭建(1)下载Pig 官方网站下载pig-0.17.0-src.tar.gz,并解压到/usr/local目录,解压操作如图1-16所示图1-16 解压Pig文件到相应目录解压完成后进入/usr/local,将文件“pig-0.17.0-src”重命名为“pig”,以方便后续使用,如图1-17所示2)配置环境变量环境变量配置完成并保存后,执行“source ~/.bashrc”命令,使配置的环境变量生效。
3)验证Pig是否安装成功2.Kettle系统环境的搭建(1)下载Kettle 在官方网站下载pdi-ce-7.0.0.0-25.zip,并解压到/usr/local目录解压完成后进入/usr/local,将文件“data-integration”重命名为“kettle”,以方便后续使用(2)配置环境变量打开命令行窗口,输入“sudo vim ~/.bashrc”,配置环境变量环境变量配置完成并保存后,执行“Source ~/.bashrc”命令,使配置的环境变量生效3)验证Kettle是否安装成功打开命令行窗口,切换到/usr/local/kettle路径,执行“./spoon.sh”命令 。
