
本科毕业论文---关联规则挖掘在学生成绩管理中的应用.doc
56页关联规则挖掘在学生成绩管理中的应用 摘 要关联规则挖掘用于发现隐藏在大型数据集中的有意义的联系,所发现的联系可以用关联规则或频繁项集的形式表示目前,关联规则挖掘已经得到了广泛的研究和应用,其中算法是一种最有影响的挖掘布尔关联规则频繁项集的算法本文针对算法的不足,提出了一种改进算法,并将其应用于挖掘学生成绩,从而对优化课程设置起到一定的指导作用论文的主要内容如下:(1) 对数据挖掘技术进行了概述和归纳,重点介绍了关联规则的基本理论、思想及产生频繁项集和关联规则的相关技术2) 深入研究了算法,并针对该算法的缺陷,提出了一种改进算法改进算法利用了完美哈希函数,优化的事务压缩技术,分组查询计数和不利用剪枝直接产生候选项集等技术,在一定程度上提升了挖掘频繁项集的效率同时,通过理论和实验对两种算法进行了性能比较,验证了改进算法的优越性3) 将关联规则挖掘应用于学生成绩管理在原有的教务管理系统学生成绩管理模块的基础上,应用改进算法,采用作为系统开发工具,设计了一个数据挖掘系统用于挖掘学生成绩中的关联规则该系统包括获取数据,数据预处理,关联规则挖掘和规则结果分析四个模块通过挖掘学生成绩,进一步证实了改进算法的有效性和可行性,也为教学管理人员进行课程合理设置提供了决策支持。
系统试运行后,优化的课程设置使得教师的教学过程有了明显的改善,教学效果有所提高,学生的课程通过率有所上升关键词: 数据挖掘;关联规则;频繁项集;算法;学生成绩The Application of Association Rules Mining inStudents' Performance ManagementAbstractAssociation rule mining is used to find the meaningful connections hidden in large data set, and the connections can be expressed by association rules or frequent itemsets. Currently, the association rule mining has been widely studied and applied, of which Apriori algorithm is one of the most influential mining Boolean association rule algorithms of frequent itemsets. Aiming at the shortcomings of Apriori algorithm, this thesis proposes an improved algorithm and applies it to mine student performances, thus plays a certain guiding role in curriculum optimization.The main contents of this thesis are as follows:(1)Firstly, it discusses and summaries the data mining technology, and emphasizes the basic concepts and ideas of association rules, and related techniques about frequent itemsets and association rules.(2)Secondly, it studies the Apriori algorithm thoroughly. And present an improved algorithm aiming at the flaws. The algorithm uses the perfect hash function, optimized affairs compression technology, the grouping inquiry counting and not using the pruning directly to produce candidate k itemsets technology and so on. The improved algorithm enhances the efficiency of mining frequent itemsets to a certain extent. At the same time, it confirms the superiority of the improved algorithm by comparing the two algorithms from theory and experiment aspect.(3)Finally, it applies the association rules mining to the student performance management. On the foundation of student performance administration module in the original educational administration management system, by applying the improved Apriori algorithm and VB 2010, it designs a data mining system to mine association rule in the student performance. This system includes four modules: the data gain, the data pretreatment, the association rule mining, and the regular result analyzing. Through mining the student performance, it further confirms the validity and the feasibility of improved Apriori algorithm, and also provides decision support for the teaching management to Optimize curriculum. After the operation of the system, the teaching process was improved, the teaching effect was enhanced and the pass rate was increased.Key words: Data Mining; Association Rules; Frequent Itemsets; Apriori Algorithm; student performance目 录第一章 绪论 11.1 研究背景 11.2 选题的依据和意义 11.3 本文的主要内容 21.4 本文的组织结构 3第二章 数据挖掘技术 42.1 数据挖掘的起源 42.2 数据挖掘的概念 42.3 数据挖掘的任务 52.4 数据挖掘的过程 52.5 数据挖掘的方法 62.6 数据挖掘的发展趋势 82.7 本章小结 9第三章 关联规则挖掘技术 103.1 关联规则的相关定义和性质 103.2 关联规则挖掘问题的形式描述 113.3 产生频繁项集和规则的相关技术 113.3.1 频繁项集的产生策略 113.3.2 规则的产生 183.4 关联规则挖掘的方法 183.5 关联规则挖掘的研究方向 193.6 本章小结 20第四章 Apriori算法及其改进设计 214.1 经典的Apriori算法 214.1.1 Apriori算法的基本思想 214.1.2 Apriori算法的核心描述和分析 214.1.3 Apriori算法中规则的产生 234.1.4 Apriori算法的举例演示 244.1.5 Apriori算法的特点和缺陷 264.1.6 Apriori算法的现有改进技术 264.2 一种新的Apriori算法改进设计 274.2.1 改进思路 274.2.2 Apriori改进算法的描述和实例分析 284.2.3 Apriori改进算法的特点和不足 334.3 Apriori算法和Apriori改进算法的性能比较 344.3.1 性能分析 344.3.2 实验分析 354.4 本章小结 36第五章 Apriori改进算法在学生成绩管理中的应用 375.1 关联规则挖掘过程 375.2 关联规则挖掘在学生成绩管理中的应用 385.2.1 问题定义 385.2.2 数据准备 385.2.3 建立数据挖掘模型 405.2.4 关联规则的解释和评估 455.3 本章小结 45第六章 总结与展望 466.1 论文总结 466.2 展望 46参考文献 48攻读硕士学位期间公开发表的论文 51 插图清单图3- 1费力策略示意图 12图3- 2基于支持度的剪枝策略的实例 13图3- 3 FP-growth算法伪代码 14图3- 4 FP-growth算法挖掘流程第一步 15图3- 5根据表3-1构建的FP-tree 16图4- 1利用Apriori算法产生频繁项集的伪代码 22图4- 2 apriori-gen()函数产生候选项集的伪代码 23图4- 3 Apriori算法中规则产生的伪代码 24图4- 4 Apriori算法寻找D中频繁项集的过程 25图4- 5利用完美哈希函数挖掘L2 30图4- 6利用L2压缩原始数据库D 31图4- 7 Apriori改进算法的数据流程图 33图4- 8不同支持度下的两种算法效率比较(5000条样本数据) 35图4- 9不同样本数据下的两种算法效率比较(min_sup=0.3%) 36图5- 1关联规则挖掘过程示意图 37图5- 2学生成绩数据挖掘系统模型 41图5- 3学生成绩数据挖掘系统挖掘流程图 41图5- 4学生成绩数据挖掘系统主界面 42图5- 5获取数据模块界面 42图5- 6获取挖掘数据成功的界面 43图5- 7关联规则挖掘模块的界面 43图5- 8规则结果分析模块的界面 44图5- 9学生成绩数据挖掘系统应用前后效果对比图 45表格清单表3- 1 事务数据库D 15表3- 2 按结果集L中的次序处理D中的每个事务的项 15表3- 3 挖掘图3-4的FP-tree的结果 17表4- 1 原始事务数据库D 24表4- 2 中所有2-项集对应的地址表 29表4- 3 分组表(3) 32表4- 4 分组表(4) 32表5- 1 学生成绩表表结构 39表5- 2 预处理后的学生成绩表表结构 40第一章 绪论1.1 研究背景面临着社会各个领域积累的大量数据,如何从中获取有价值的新发现,目前已成为不同学科的研究者的主要研究方向。
虽然录入、查询和统计数据。
