
数据仓库与数据挖掘_实验指导书.docx
70页《数据仓库与数据挖掘》试验指导书〔适用于信息系统与信息治理专业〕江苏科技大学经济治理学院2023-2目 录前 言 1试验一、SPSS Clementine 软件功能演练 6试验二、SPSS Clementine 数据可视化 10试验三、决策树C5.0 建模 18试验四、关联规章挖掘 31试验五、欺诈屏蔽/特别检测/神经网络 39试验六、分类和回归树节点(C&RT) 52试验七、多项 Logistic 回归 62试验八、综合试验:电力负荷推测 68前 言一、课程简介数据挖掘(Data Mining),就是从大量数据中猎取有效的、颖的、潜在有用的、最终可理解的模式的非平凡过程数据挖掘的广义观点: 数据挖掘就是从存放在数据库,数据仓库或其他信息库中的大量的数据中“挖掘”好玩学问的过程数据挖掘,又称为数据库中学问觉察(Knowledge Discovery in Database, KDD) ,因此,数据挖掘和数据仓库的协同工作,一方面,可以迎合和简化数据挖掘过程中的重要步骤, 提高数据挖掘的效率和力量,确保数据挖掘中数据来源的广泛性和完整性另一方面,数据挖掘技术已经成为数据仓库应用中极为重要和相对独立的方面和工具。
数据挖掘有机结合了来自多学科技术,其中包括:数据库、数理统计、机器学习、高性能计算、模式识别、神经网络、数据可视化、信息检索、图像与信号处理、空间数据分析等,这里我们强调数据挖掘所处理的是大规模数据,且其挖掘算法应是高效的和可扩展的通过数据挖掘,可从数据库中挖掘出有意义的学问、规律,或更高层次的信息,并可以从多个角度对其进展扫瞄观察所挖掘出的学问可以帮助进展决策支持、过程掌握、信息治理、查询处理等等因此数据挖掘被认为是数据库系统最重要的前沿争论领域之一,也是信息工业中最富有前景的数据库应用领域之一当前数据挖掘应用主要集中在电信、零售、农业、网络日志、银行、电力、生物、天体、化工、医药等方面而据 Gartner 的报告也指出,数据挖掘会成为将来 10 年内重要的技术之一1二、课程的任务和试验的教学目标课程编号:5405190课程属性:专业任选课试验学时:12适用专业:信息治理与信息系统先修课程:治理信息系统、计算机根底、数据库技术、统计学《数据仓库与数据挖掘》是一门理论和实践相结合的课程,它在整个信息系统与信息治理专业中处于信息系统应用的前沿应用的地 位,是计算机科学的算法理论根底和数据库、数据仓库技术、统计技术的结合,以及在治理实践中应用。
其上机试验的目的主要是实现数据挖掘的主要算法,训练学生实际动手进展数据挖掘设计和软件应用的力量,加深对数据挖掘相关概念和算法的理解本课程具有技术性和实践性较强的特点,因此,协作根本原理的讲授,应当安排相应的实习操作通过试验和操作,使学生稳固和加深数据仓库与数据挖掘理论学问,进一步加强学生独立分析问题和解决问题的力量、综合设计及创力量的培育,为今后工作打下良好的根底经过多层次、多方式的全面训练后,学生应到达以下要求:1. 进一步稳固和加深数据仓库与数据挖掘根本学问的理解,提高综合运用所学学问,建立和治理数据的力量2. 能依据需要选学参考书,查阅相关的工具,通过独立思考, 深入钻研有关问题,学会自己独立分析问题、解决问题,具有肯定的创力量3. 能正确处理大规模数据,选择数据挖掘工具的开发平台和相关的软件解决实践问题24. 能独立撰写试验报告,准确分析试验结果,总结有关的问题, 提出相关的建议三、试验教材及参考书理论课教材及参考书:F 数据仓库与数据挖掘教程〔丛书名: 高等院校信息治理与信息系统专业系列教材〕 陈文伟 编著,清华大学出版社,2023.8F 数据仓库和数据挖掘,苏宁 等编著,清华大学出版社,2023.4F 数据仓库与数据挖掘技术〔第 2 版〕,陈京民 编著,电子工业出版社,2023.11F Jiawei Han, Micheline Kamber. Data Mining: Concepts andTechniques.高等教育出版社〔影印版〕,2023.5.F Ian H. Witten, Eibe Frank. Data Mining: Practical Machine Learning Tools and Techniques (其次版). 机械工业出版社〔影印版〕,2023.F Richard J. Roiger, Michael W. Geatz. Data Mining: ATutorial-Based Primer.清华大学出版社,2023.试验教材:F 数据挖掘 Clementine 应用实务,谢邦昌 主编,机械工业出版社,2023.4F 数据挖掘原理与SPSS Clementine 应用宝典,元昌安 主编,电子工业出版社,2023.83四、试验根本内容及学时安排依据《数据仓库与数据挖掘》试验教学大纲的要求,共设立试验每组试验者开出序号试验名称试验学时试验属性8 个,总计 20 学时。
试验根本内容与学时安排如下表:人数类别要求1SPSS Clementine 软件功能演练21演练本科必开2试验二、SPSS Clementine 数据21演练本科必开可视化3决策树C5.0 建模21验证综合本科必开4关联规章挖掘21验证综合本科必开5欺诈屏蔽/特别检测/神经网络21验证综合本科必开6分类和回归树节点(C&RT)21验证综合本科必开7多项 Logistic 回归21验证综合本科必开试验八、综合试验:电力负荷预861综合试验本科必开测五、试验方式与根本要求1、本课程的试验为非单独设课,因此,应当课程的内容安排和进度,协作技术原理的讲授,进展相应的操作和试验2、该课以综合性试验为主,教师给出试验题目,试验前学生必需进展预习,3、在规定的时间内,由学生独立完成,消灭问题,教师要引导学生独立分析、解决,不得包办代替44、试验中按要求做好学生试验状况及结果记录,试验后认真填写试验记录5、试验指导书仅作为上机时的参考步骤,不能作为唯一的依据, 以教材和课堂讲授为准5试验一、SPSS Clementine 软件功能演练【试验目的】1、生疏 SPSS Clementine 软件功能和操作特点。
2、了解 SPSS Clementine 软件的各选项面板和操作方法3、娴熟把握 SPSS Clementine 工作流程试验内容】1、翻开 SPSS Clementine 软件,逐一操作各选项,生疏软件功能2、翻开一有数据库、或建数据文件,读入SPSS Clementine,并使用各种输出节点,生疏数据输入输出要求:至少做 access 数据库文件、excel 文件、txt 文件、可变文件的导入、导出)【试验步骤】1、启动 Clementine:请从 Windows 的“开头”菜单中选择: 全部程序SPSS Clementine 11.1SPSS Clementine client 11.12、Clementine 窗口当第一次启动 Clementine 时,工作区将以默认视图翻开中间的区域称作流工作区在 Clementine 中,这将是用来工作的主要区域6Clementine 中绝大局部的数据和建模工具都在选项板中,该区域位于流工作区的下方每个选项卡都包含一组以图形表示数据挖掘任务的节点,例如访问和过滤数据,创立图形和构建模型要将节点添加到工组区,可在节点选项板中双击图标或将其拖拽至工作区后释放。
随后可将各个图标连接以创立一个表示数据流淌的流7窗口的右上方是输出和对象治理器这些选项卡用于查看和治理各种Clementine 对象流”选项卡包含了当前会话中翻开的全部流可以将这些流保存并关闭,也可将其添加到工程中输出”选项卡包含了由 Clementine 中的流操作产生的各类文件可以显示、重命名和关闭此处所列的表格、图形和报告模型”选项卡是一个功能强大的工具,包含了在一次会话中产生的全部模型〔即,已在 Clementine 中构建完毕的模型〕通过它,可以对模型作更深入的查看、将其添加至流中、导出或为其加注解8窗口右侧底部的局部是工程工具,它用来创立和治理数据挖掘工程查看在Clementine 中创立的工程有两种方式 - 类视图或 CRISP-DM 视图CRISP-DM”选项卡供给了一种组织工程的方式类”选项卡供给了一种在Clementine 中按类别〔即,依据所创立对象的类别〕组织工作的方式。
当要猎取数据、流、模型等对象的详尽名目时,这种视图格外有用9试验二、SPSS Clementine 数据可视化【试验目的】1、生疏 SPSS Clementine 绘图2、了解 SPSS Clementine 图形选项面板各节点的使用方法3、娴熟把握 SPSS Clementine 数据可视化流程试验内容】1、翻开SPSS Clementine 软件,逐一操作各图形选项面板,生疏软件功能2、翻开一有数据库、或建数据文件,读入SPSS Clementine,并使用各种输出节点,生疏数据输入输出要求:至少做分布图、直方图、收集图、多重散点图、时间散点图)【试验步骤】1、启动 Clementine:请从 Windows 的“开头”菜单中选择: 全部程序PSS Clementine 11.1SPSS Clementine client 11.12、建立一个流、导入相关数据,翻开。












